6
การเปรียบเทียบประสิทธิภาพการตรวจจับสิ่งผิดปกติทางเครือขายชนิด Probing Detection Efficiency Comparison of Probing-Type Network Anomaly นางสาวพลอยพรรณ สอนสุวิทย และ ผศ. ดร. ตรัสพงศ ไทยอุปถัมภ ภาควิชาวิศวกรรมคอมพิวเตอร คณะวิศวกรรมศาสตร มหาวิทยาลัยเชียงใหม [email protected] บทคัดยอ การสแกนหาจุดออนของเปาหมาย (Probing) เปนหนึ่งใน การบุกรุกทางเครือขายที่มีความสําคัญในปจจุบัน เนื่องจากเปน วิธีการที่ใชบุกรุกมาโดยตลอดและตรวจจับไดยากอัน เนื่องมาจากการทํา Probing จะมีคาบของเวลาที่นานและจํานวน แพ็กเก็ต (Packet) ที่นอย งานวิจัยนี้ไดศึกษาเทคนิควิธีการของ การจําแนก (Classification) มาตรวจจับการทํา Probingไดแก Support Vector Machine (SVM), C4.5, Naïve Bayes และ Neural Network ซึ่งจากการศึกษาทําใหไดทราบถึง ประสิทธิภาพของแตละเทคนิควิธีการวิธี เชน รอยละของความ ถูกตอง (%Correct Classification), รอยละของความผิดพลาด (%Incorrect Classification), คาเฉลี่ยความผิดพลาด (Mean Square Error) และเวลา. งานวิจัยนี้ยังไดนําเสนอแนวทางวิจัย ตอในอนาคตที่เปนไปไดตอไป คําสําคัญ: การสแกนหาจุดออน, การจําแนก, SVM Abstract Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it needs long period of time to probe and very few packets are involve in probing. This paper studies the classification methods for detecting probing; Support Vector Machine (SVM), C4.5, Naïve Bayes and Neural Network, and evaluates these techniques on %Correct classification, %Incorrect classification, mean square error (MSE). This paper also presents some possible research directions. Keyword: Probing, Classification, SVM 1. บทนํา การตรวจสอบชนิด Anomaly-based Detection เปน หลักการในการวิเคราะหและตรวจจับสิ่งผิดปกติทางเครือขาย (Intrusion Detection System: IDS) [1] แบบหนึ่ง มีการ ทํางานทีประกอบไปดวย 2 สวนใหญคือ สวนแรกจะรูจําสิ่งทีปกติไวกอนซึ่งเปนสวนของการฝกสอน (Train) ขอมูล จาก Traffic ปกติ ทําใหได ตนแบบในการวิเคราะห จากนั้น สวนทีสอง คือการทดสอบ (Test) โดยที่ใหระบบวิเคราะห Traffic จริง แลวแจงเตือนออกมาเมื่อพบ สิ่งที่เบี่ยงเบนไปจากตนแบบ วาเปนสิ่งที่นาสงสัย ตัวอยางของเทคนิควิธีการดังกลาว ไดแก SVM [4-7], C4.5[9-11], Naïve Bayes [13-15] และ Neural Network [17-19] พบวาแตละวิธีทําการจําแนก (Classification) Anomaly จาก KDD Cup 1999 Data Set ซึ่งเปน Data Set มาตรฐานทางการทําเหมืองขอมูล ( Data Mining) ของสิ่งผิดปกติทางเครือขาย แลวไดผลที่ดีระดับนา พอใจ การบุกรุกแบบหนึ่งที่ยังเปนปญหาและพบเจออยูในปจจุบัน ก็คือการทํา Probing ตัวอยางเชน การทํา Port Scanning เพื่อ สแกนหาวามีพอรต (Port) ใดถูกใชอยู จากนั้นจึงทําการโจมตี ( Attack) ระบบตามจุดออนที่ทราบ ซึ่งหากมีผูไมประสงคดี (Hacker) ที่มีการวางแผนโจมตีอยางรอบคอบ มักจะมีการเก็บ ขอมูลกอนการโจมตีแตการวิเคราะหการสแกนนั้นยังมีความ ยากเนื่องมาจาก 2 ปจจัยคือ [2] การสแกนนั้นอาจมีการทําใน ชวงเวลาที่ยาวนาน เชน 1 ครั้ง ตอ 1 วัน ซึ่ง IDS ไมสามารถเก็บ สถานะเพื่อรูจําการสแกนที่มีชวงเวลาเกิดขึ้นยาวนานมากไดดี และแมนยํานัก และ การสแกนไมจําเปนตองมาจากแมขาย The 5th National Conference on Computing and Information Technology NCCIT 2009 425

Detection Efficiency Comparison of Probing-Type Network ... · Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Detection Efficiency Comparison of Probing-Type Network ... · Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it

การเปรียบเทียบประสิทธิภาพการตรวจจับส่ิงผดิปกติทางเครือขายชนิด Probing Detection Efficiency Comparison of Probing-Type Network Anomaly

นางสาวพลอยพรรณ สอนสุวิทย และ ผศ. ดร. ตรัสพงศ ไทยอุปถัมภ

ภาควิชาวิศวกรรมคอมพิวเตอร

คณะวิศวกรรมศาสตร มหาวิทยาลัยเชียงใหม [email protected]

บทคัดยอ การสแกนหาจุดออนของเปาหมาย (Probing) เปนหน่ึงใน

การบุกรุกทางเครือขายที่มีความสําคัญในปจจุบัน เน่ืองจากเปนวิธีการที่ ใชบุกรุกมาโดยตลอดและตรวจจับไดยากอันเน่ืองมาจากการทํา Probing จะมีคาบของเวลาที่นานและจํานวนแพ็กเก็ต (Packet) ที่นอย งานวิจัยน้ีไดศึกษาเทคนิควิธีการของการจําแนก (Classification) มาตรวจจับการทํา Probingไดแก Support Vector Machine (SVM), C4.5, Naïve Bayes และ Neural Network ซึ่งจากการศึกษาทําใหไดทราบถึงประสิทธิภาพของแตละเทคนิควิธีการวิธี เชน รอยละของความถูกตอง (%Correct Classification), รอยละของความผิดพลาด (%Incorrect Classification), คาเฉล่ียความผิดพลาด (Mean Square Error) และเวลา. งานวิจัยน้ียังไดนําเสนอแนวทางวิจัยตอในอนาคตที่เปนไปไดตอไป

คําสําคัญ: การสแกนหาจุดออน, การจําแนก, SVM

Abstract

Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it needs long period of time to probe and very few packets are involve in probing. This paper studies the classification methods for detecting probing; Support Vector Machine (SVM), C4.5, Naïve Bayes and Neural Network, and evaluates these techniques on %Correct classification, %Incorrect classification, mean square error (MSE). This paper also presents some possible research directions. Keyword: Probing, Classification, SVM

1. บทนํา การตรวจสอบชนิด Anomaly-based Detection เปน

หลักการในการวิเคราะหและตรวจจับสิ่งผิดปกติทางเครือขาย (Intrusion Detection System: IDS) [1] แบบหน่ึง มีการทํางานที่ ประกอบไปดวย 2 สวนใหญคือ สวนแรกจะรูจําสิ่งที่ปกติไวกอนซึ่งเปนสวนของการฝกสอน (Train) ขอมูล จาก Traffic ปกติ ทําใหได ตนแบบในการวิเคราะห จากน้ัน สวนที่สอง คือการทดสอบ (Test) โดยที่ใหระบบวิเคราะห Traffic จริง แลวแจงเตือนออกมาเมื่อพบ สิ่งที่เบี่ยงเบนไปจากตนแบบวาเปนสิ่งที่นาสงสัย ตัวอยางของเทคนิควิธีการดังกลาว ไดแก SVM [4-7], C4.5[9-11], Naïve Bayes [13-15] และ Neural

Network [17-19] พบวาแตละวิธีทําการจําแนก(Classification) Anomaly จาก KDD Cup 1999 Data Set ซึ่งเปน Data Set มาตรฐานทางการทําเหมืองขอมูล (Data

Mining) ของสิ่งผิดปกติทางเครือขาย แลวไดผลที่ดีระดับนาพอใจ

การบุกรุกแบบหน่ึงที่ยังเปนปญหาและพบเจออยูในปจจุบันก็คือการทํา Probing ตัวอยางเชน การทํา Port Scanning เพ่ือสแกนหาวามีพอรต (Port) ใดถูกใชอยู จากน้ันจึงทําการโจมตี (Attack) ระบบตามจุดออนที่ทราบ ซึ่งหากมีผูไมประสงคดี (Hacker) ที่มีการวางแผนโจมตีอยางรอบคอบ มักจะมีการเก็บขอมูลกอนการโจมตีแตการวิเคราะหการสแกนน้ันยังมีความยากเน่ืองมาจาก 2 ปจจัยคือ [2] การสแกนน้ันอาจมีการทําในชวงเวลาที่ยาวนาน เชน 1 ครั้ง ตอ 1 วัน ซึ่ง IDS ไมสามารถเก็บสถานะเพื่อรูจําการสแกนที่มีชวงเวลาเกิดขึ้นยาวนานมากไดดีและแมนยํานัก และ การสแกนไมจําเปนตองมาจากแมขาย

The 5th National Conference on Computing and Information Technology NCCIT 2009

425

Page 2: Detection Efficiency Comparison of Probing-Type Network ... · Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it

(Host) เดียวกันแตอาจมาจากกลุมของเครื่องแมขายแลวมีการสลับกันสแกนตามแต Subset ของพอรตที่สนใจ ซึ่งเปนการยากมากขึ้นในการที่จะรูจํา ทั้งน้ีหากปองกันการทํา Probing ไดแลวก็จะชวยปองกันการโจมตีรูปแบบอ่ืนที่อาจตามมาไดอีกดวยเมื่อทราบจุดออนแลว เชน DoS หรือ มีความสามารถดําเนินการใดๆกับเครื่องที่ถูกทํา Probing แลวได

งานวิจัยน้ีจึงไดศึกษาเปรียบเทียบการตรวจจับ Probing ใน KDD CUP 1999 Data Set โดยจะศึกษาเปรียบเทียบในดานประสิทธิภาพของแตละเทคนิควีการวิธีที่แตกตางกัน เชน รอยละของความถูกตอง (%Correct Classify), รอยละของความผิดพลาด (%Incorrect Classify), คาเฉล่ียความผิดพลาด (Mean Square Error) เวลาที่ใชประมวลผล (Time) และไดเสนอแนวทางในการพัฒนาตอในอนาคต

2. เอกสารและงานวิจัยท่ีเก่ียวของ 2.1 Probing

คือวิธีการโจมตีแบบสแกนเครือขายเมื่อพบแลวก็จะทําการคนหาจุดออนของเคร่ืองเปาหมาย แลวจะสง Packet ที่ใช โจมตีตอไป ซึ่งเปนหน่ึงใน 4 ชนิดของความผิดปกติใน Data Set มาตรฐานที่ใชในการทดลองคือ KDD CUP 1999 [2] มีอยูดวยกัน 4 รูปแบบและมีคุณลักษณะการโจมตีแตกตางกัน [3] ดังน้ี

2.1.1 IP sweep: เปนการสแกนหาแบบกวางๆและดักฟงวามีเครื่องใดทํางานอยูใน Network บาง วิธีการโดยทั่วไปคือใช ICMP Protocol ทําการ Ping Packet ไปแลวรอการตอบสนอง (Response) กลับมาซึ่งจะทําใหทราบวามีเครื่องใดทํางานอยูบาง

2.1.2 Nmap: เปนการสแกนหาคนหาบริการท่ีพวกเขาจะสามารถเจาะผานเขาไปยังระบบได เชน การทํา Port

Scanning วิธีการคือ สงขอความหน่ึงไปยังแตละพอรต ณ เวลาหน่ึง ๆ ผลลัพธที่ตอบสนองออกมาจะแสดงใหเห็นวาพอรตน้ัน ถูกใชอยูหรือไม และสามารถทดสอบดูเพ่ือหาจุดออนตอไปได

2.1.3 Satan: เปนวิธีการสแกนที่มีความคลายกับ SAINT แตใหมกวา ซึ่งจะสแกนหาจุดออน หรือขอบกพรองของระบบซึ่งทราบอยูแลว เชน NIS Password File Access,

Remote Shell Access และ Several Sendmail

Vulnerabilities เปนตน ขอบกพรองเหลาน้ีทําใหทราบขอมูลผิดพลาดของโปรแกรม (Bugs) เปนตน

2.1.4 Port Sweep: เปนการสแกนแบบกวางๆเพ่ือตรวจดูวามีพอรต ใดเปดใหบริการอยูบาง คลายกับการทํา Nmap ซึ่ง Port Sweep สามารถทําไดทั้งใน Network เดียวกัน (Internal) และ นอก Network (External)

2.2 เทคนิควิธีการในการจําแนก วิธีที่มักนํามาใชตรวจจับ Anomaly ทางเครือขายซึ่งไดผลดี

และนํามาใชในการศึกษาเปรียบเทียบน้ันมีอยู 4 วิธี ไดแก 2.2.1 SVM [3] ถูกนํามาใชแกปญหาในการการจําแนก

ขอมูลที่มี Anomaly โดยจะมีทฤษฎีพ้ืนฐานคือ ใช Hyperplane ในการแบงออกจากกัน ดังสมการตอไปน้ี สําหรับการจําแนกแบบ Binary มี Class A และ B w คือ Weigh, คือ Feature ตางๆ และ b คือ Bias

x

0 bT xw โดยที่

1 bT xw สําหรับทุก ที่เปนสมาชิกของ A x

1bT xw สําหรับทุก ที่เปนสมาชิกของ B ซึ่งมี Decision function x

bsignf Tb xwxw )(,

ทั้งน้ีในหากขอมูลไมสามารถแบงดวย Hyperplane เราจึงตองใช Kernel Function ไดแก Polynomial, Radial Basis

Function และ Sigmoid เปนตน จากงานวิจัยที่ผานมาพบวา การนํา SVM มาใชตรวจจับ

Anomaly น้ันมีประสิทธิภาพในดานรอยละความถูกตองของการ Classify ที่สูง และมี False Alarm ที่ตํ่า [4-6] ซึ่งมีการพัฒนาอัลกอริทึม (Algorithm) อยางตอเน่ืองดวยการเพ่ิมประสิทธิภาพในการทําการจําแนกการใชเทคนิควิธีการอ่ืนมาวิเคราะหรวมดวย เชน การทํา Feature Selection ดวย Principal Component Analysis [7] และ Genetic Algorithm

(GA) [8] เปนตน แตการทดลองน้ันยังตรวจจับการ Probing ไดรอยละที่ไมสูงมากนักหากเทียบกับการตรวจจับ DoS และ Normal

2.2.2 C4.5: คือการทําตนไมตัดสินใจ (Decision Tree) วิธีการหน่ึงมีพ้ืนฐานเดียวกับอัลกอริทึม ID3 ถูกออกแบบโดย Quinlan [9] ไดพัฒนาเพ่ิมเติมจาก ID3 โดยอัลกอริทึม

The 5th National Conference on Computing and Information Technology NCCIT 2009

426

Page 3: Detection Efficiency Comparison of Probing-Type Network ... · Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it

ดังตอไปน้ี กําหนดให คือ Set ของตัวอยาง โดยตัวอยางคือ , ประกอบไปดวย และ เปนตัวอยาง

ของ คือคาความนาจะเปนของแตละตัวอยางของ , เปนคาในแตละ Class Label ประกอบไปดวย Subset

และ

S

ms

A

miCi ,..,1 is

iC iP iC

v

j คือคาของตัวอยางที่จะตอบไปเปน A

m

i ii PPFunctionEntropy1 2log

)()()( AEAIAGainnInformatio Gain Ratio

)(

)()(

AI

AGainAGR

S

S

S

SAI jv

j 212

1 log)(

i ipTGini 21)(

Pruning เพ่ือตัดก่ิงของ Tree อาจเน่ืองมาจากขอมูลเดิมอาจมี Noise แลวจึงแทนที่ดวย ใบ(Leaf) มี 2 วิธีการคือ Pre-Pruning และ Post-Pruning

จากงานวิจัยที่ผานมาพบวา การนํา C4.5 มาใชตรวจจับ Anomaly โดยการทดสอบกับ KDD CUP 1999 น้ันพบวา C4.5 มีประสิทธิภาพในดานความรวดเร็วในการประมวลผล และมีรอยละความถูกตองของการวิเคราะหการ Probing ที่สูงกวา SVM [10-11] แต พบวายัง มี False Alarm ที่สูงกวาเชนกัน นอกจากน้ีมีการวิเคราะหดวย C4.5 แลวใช GA [12] ในขั้นตอน Feature Selection พบวามีการวิเคราะห Probing แลวทําใหมี False Alarm ที่ตํ่าลงอีกดวย

2.2.3 Naïve Bayes: เปนวิธีการทางสถิติที่ใชหาคาความนาจะเปนในการทําการจําแนกหาคําตอบที่เหมาะสมโดยอยูบนพ้ืนฐานของ Bayes’s Theorem [13] จะกําหนดใหแตละกลุมมีความเปนอิสระตอกัน มีสมการท่ีเก่ียวของในการคํานวณตอไปน้ี สมมติให f คือ Feature ที่มีความอินสระตอกัน C คือ Class ที่มีความอิสระตอกัน และ iP คือคาความนาจะเปนของแตละตัวอยาง

n

iiicn cCfFpcCparcffC

11 )|()(max),...,(

จากงานวิจัยที่ผานมาพบวามีการใช Bayes Network [14] สามารถตรวจจับ Anomaly ในสวนการ Probing และใช Naïve Bayes [15] พบวา มีประสิทธิภาพสูงวา Neural

Network ในดาน False Positive Rate, Cost และเวลาที่ใชประมวลผล ในสวนของงานวิจัยอื่นๆที่ใช Naïve Bayes [16]

ก็พบวามีการทดลองเปรียบเทียบผลระหวาง C4.5 และ Naïve Bayes พบวา C4.5 มีประสิทธิภาพสูงกวา Naïve Bayes

สําหรับการวิเคราะหผลรวม 5 Class แตเมื่อมาดูผลเฉพาะการ Probing พบวา Naïve Bayes กลับวิเคราะหการ Probing ไดดีกวา Decision Tree ซึ่งจะเห็นได Naïve Bayes ก็เปนวิธีการหน่ึงที่เหมาะกับการวิเคราะหการ Probing เชนกัน

2.2.4 Multilayer Perceptron (MLP): เปนโครงขายประสาทเทียมแบบหลายช้ัน [17] ซึ่งเปน Neural Network แบบหน่ึง สามารถคํานวณงานแลวมีคาความผิดพลาดตํ่า มีสมการคํานวณดังตอไปน้ี กําหนดให 1

jv คือ ผลคูณของนิวรอน j ชุดขอมูลที่ n , )(nWji คานํ้าหนักจากนิวรอน i ถึงนิวรอน

j ชุดขอมูลที่ n และ )(nyi คือ เอาตพุต Neural i = jO ,

je = คาผิดพลาดที่ Neural j ชุดขอมูลที่ n และ n คือ จํานวน Data Set ทั้งหมด Forward คือสั่งให Neural คํานวณแตละ Node เพ่ือนํามาคิดหา Error

)()()( 1

0

1 nynwnV li

p

iji

ij

Backward คือการ Update Weight

)()()1()()()1(

)()()(1)()(

)(1)()()(

1

11

nynnwnwnwnw

nwnnynyn

nOnOnen

li

lj

lji

lji

lji

lji

ck

lkj

lk

lj

lj

lj

jjjLj

งานวิจัยที่ผานมาพบวาการใช Neural Network มีการนํามาใช Anomaly [18-20] พบวาเปนวิธีการท่ีมีประสิทธิภาพสูงในการวิเคราะห Probing เน่ืองจาก Neural จะวิเคราะหไดดีกับ Anomaly ที่ทราบ Pattern แลว

2.4 วิธีการทดลอง ในการทดลองไดใช KDD CUP 1999 Data Set สําหรับ

การ Train และ การ Test โดยจะทดลองเปรียบเทียบผลกัน 4 วิธีการคือ C4.5, SVM, Naïve Bayes และ MLP ซึ่งขั้นตอนการทดลองแสดงดังรูปที่ 1 ตอไปน้ี

The 5th National Conference on Computing and Information Technology NCCIT 2009

427

Page 4: Detection Efficiency Comparison of Probing-Type Network ... · Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it

รูปที่ 1: แสดงขั้นตอนการทดลอง

2.4.1 KDD CUP 1999: ใน KDD CUP 1999

Data Set ไดทําการดาวนโหลด [21] จากไฟลที่ช่ือวา kddcup.data.gz มีจํานวนขอมูลประมาณ 4,940,000 ตัวอยาง มี Feature ทั้งหมด 42 Feature ที่ใชสําหรับการ Train ประกอบไปดวย 24 ชนิดของการโจมตีในสวนของไฟลสําหรับการ Test

มาช่ือวา corrected.gz ซึ่งประกอบไปดวยขอมูลประมาณ 311,029 ตัวอยาง ซึ่งประกอบไปดวย 14 ชนิดของการโจมตีในสวนของ Probing พบวาใน Data Set สําหรับการ Train ในสวนของ Probing มี Ipsweep 12,481 ตัวอยาง, Nmap 2,316 ตัวอยาง, Portsweep 10,413 ตัวอยาง และ Satan 15,892

ตัวอยาง ซึ่งในการทดลองไดเลือกจํานวนของแตละชนิด มาอยางละ 2,000 ตัวอยางโดยคํานึงถึงลําดับ (Sequence) การเขามาของการทํา Probing สําหรับ Data Set ของการ Test ในสวนของ Probing มี Ipsweep 306 ตัวอยาง, Nmap 84 ตัวอยาง, Portsweep 354 ตัวอยาง และ Satan 1,633 ตัวอยาง และในการ Test ใชตัวอยางทั้งหมดของการทํา Probing มาทดสอบ

2.4.2 Preprocess: งานวิจัยน้ีไดใชโปรแกรม Weka Mining [22] เวอรช่ัน 3.6 ซึ่งเปนโปรแกรมที่ใชวิเคราะหการทํา Data Mining ซึ่งไดรับความนิยมและใชงานแพรหลาย มาทําการวิเคราะห KDD CUP 1999 ทั้ง 4 เทคนิควิธีการโดยที่วิธีการวิเคราะห SVM จะใช LIBSVM [23] ซึ่งเปน Library ที่ไดรับการพัฒนาขึ้นสําหรับการวิเคราะห SVM โดยเฉพาะ ซึ่ง Data Set ที่ใชในน้ีไมมี Missing Value มี Feature ที่มากถึง 42 Feature ซึ่ง Feature โดยทุก Feature อาจไมไดมีสวนสําคัญสําหรับการวิเคราะห ผู วิจัยจึงไดใช วิธี Genetic Search มีหลักการคัดเลือก Feature มาจาก Genetic Algorithm (GA) โดย GA จะคัดเลือกลักษณะทางพันธุกรรมที่ดีที่เหลือรอดตอไปยังรุนถัดไป มีงานวิจัยไดใช GA มาทํา

Feature Selection กับ KDD CUP 1999 [8][12] มาแลว พบวาไดผลการทดลองที่ดี

KDD CUP 1999 Preprocess (Feature Selection)

Training

Comparisons and Conclusion

Testing

2.4.3 Training และ Testing: ในขั้นตอนน้ีสามารถทําการ Train ไดโดยใช Function ในโปรแกรมโดยจะเลือกวิธีการ Train ทั้ง 4 เทคนิควิธีการท่ีตองการศึกษาดังกลาวขางตน การทดลองน้ีใช 10% Cross-Validation

2.5 ผลการทดลอง 2.5.1 จากการทดลองพบวา เมื่อใช GA ในการ

คัดเลือก Feature จาก 42 Feature จะเหลือเพียง 11 Feature ดังตารางที่ 2

2.5.2 เปรียบเทียบผลจากการวิเคราะหทั้ง 4 วิธี เปรียบเทียบกันถึงประสิทธิภาพดานการ Classify ไดผลดังตารางที่ 1

ตารางท่ี 1: แสดงประสิทธิภาพดานการ Classify

พบวาวิธีการท่ีทําการจําแนกแลวไดถูกตองสูงที่สุดคือ C4.5 รองลงมาคือ MLP, SVM และ Naïve Bayes ตามลําดับและผลของคาความผิดพลาดก็เปนไปในทางเดียวกันคือ C4.5 มีคา MSE รอยละตํ่าที่สุด และ Naïve Bayes มีผลที่สูงที่สุด ซึ่งจะเห็นไดวาวิธีการของ Naïve Bayes ไมเหมาะแกการนํามาทํา การจําแนกดวย Data Set น้ีเมื่อเปรียบเทียบกับอีก 3 วิธี

2.5.3 เปรียบเทียบผลในดานของเวลาที่ใชในการประมวลผล ดังตารางที่ 3 พบวาวิธีการใชเวลาในกาประมวลผลเร็วที่สุดคือ Naïve Bayes ซึ่งใชเวลา 0.32 วินาทีในการ Test

รองลงมาคือ C4.5 ใชเวลา 0.57 วินาที, SVM ใชเวลา 9.29 วินาทีและ MLP ใชเวลาถึง 182.57 วินาทีตามลําดับ จากการวิเคราะหเวลาพบวา MLP ใชเวลานานกวาวิธีอื่นมากซึ่งแมจะมี

เปรียบเทียบ SVM C4.5 Naïve Bayes

MLP

Correctly Classify Instance

99.34% 99.66% 88.03% 99.34%

Incorrectly Classify Instance

0.66% 0.34% 11.97% 0.64 %

MSE 0.0514 0.0315 0.2004 0.0451

The 5th National Conference on Computing and Information Technology NCCIT 2009

428

Page 5: Detection Efficiency Comparison of Probing-Type Network ... · Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it

ตารางท่ี 2: แสดง Feature ที่คัดเลือกแลว

ตารางท่ี 3: แสดงเวลาที่ใชประมวลผล

SVM C4.5 Naïve Bayes MLP Train Test Train Test Train Test Train Test 13.25 9.23 1.42 0.57 0.13 0.32 466.78 182.57

คาความถูกตองในระดับสูงก็ตาม เปรียบเทียบจากตาราง

Confusion Matrix ในแตละชนิดของโจมตี 2.5.3.1 C4.5 พบวา วิเคราะหคาของโจมตี

ชนิด Satan ผิดสูงสุดถึง 11 Packet โดย C4.5 วิเคราะหออกมาวิเคราะหผิดอื่นๆมีเพียงเล็กนอยอยางละ 1 Packet เทาน้ันวาเปน Normal จึงถือวาเปน False Negative ในสวนของการวิเคราะหผิดอื่นๆมีเพียงเล็กนอยอยางละ 1 Packet เทาน้ัน

2.5.3.2 SVM พบวา วิเคราะหคาของ Portsweep และ Normal ผิดเปนจํานวน 13 และ 19 Packets

ตามลําดับ จะเห็นไดวามีจํานวน Packet ที่เปน False Negative

มากกวา C4.5 และมีการวิเคราะหผิดอีก 1 Packet คือ Classify วา Satan เปน Packet ปกติ

2.5.3.3 Naïve Bayes พบวาวิเคราะหผิดสูงมาก ซึ่งสวนที่มีการวิเคราะหผิดสูงที่สุดคือ วิเคราะหคาของ Portsweep โดยบอกวาเปน Satan สูงถึง 115 Packets และวิเคราะหวา Normal เปน Ipsweep, nmap และ Portsweep จํานวน 24,1 และ 19 Packets ตามลําดับ ทั้งน้ียังวิเคราะห Satan วาเปน Portsweep อีก 1 และ 7 Packet อีกดวย ซึ่งเห็นไดชัดวา Naïve Bayes วิเคราะหผิดสูงกวาวิธีอื่น และที่ผิดสูงมากที่สุดคือ

Portsweep

2.5.3.4 MLP พบวา วิเคราะห Normal ผิดสูงสุด 13 Packet สวนการวิเคราะหโจมตีชนิดอื่นๆก็ผิดพลาดเล็กนอยเกือบทุกชนิด ยกเวน Portsweep ซึ่ง MLP วิเคราะห Portsweep ไมผิดพลาดเลย แตกตางจากวิธีการวิเคราะหอื่นๆที่จะวิเคราะห Portsweep ผิดเปนสวนใหญ

3. แนวทางการวิจัย จากผลการทดลองที่ไดสามารถพัฒนาตอเปนงานวิจัยได

ดังตอไปน้ี 3.1 พัฒนาระบบท่ีสามารถตรวจจับ Probing ที่มีประสิทธิภาพสูงโดยรวมความสามารถของ C4.5 และ SVM เน่ืองจากทั้ง 2 เทคนิควิธีการน้ีมีการตรวจจับที่ผิดพลาดเพียงเล็กนอย ตางชนิดกัน 3.2 พัฒนาระบบที่สามารถตรวจจับ Anomaly ไดทุกชนิดนอกเหนือจากการ Probing โดยออกแบบอัลกอริทึมในการตรวจจับในทุกชนิด แลวสรางเปน Software หรือ Plug in ที่สามารถทํางานไดจริง 3.3 พัฒนาใหสามารถตรวจจับ Anomaly แบบใหมๆไดและมีประสิทธิภาพสูง

4. สรุปผลการทดลอง งานวิจัยน้ีทําการวิเคราะหรูปแบบของการถูกโจมตีของ

ระบบโดยสนใจชนิด Probing ซึ่งเปนวิธีการสแกนเพื่อหาขอบกพรองของระบบ ซึ่งการทดลองน้ีไดใช KDD CUP 1999

ช่ือ รายละเอียดของ Feature Feature ชนิด 1 Duration จํานวนวินาทีในการเช่ือมตอ ตัวเลข (ตอเน่ือง) 4 Flag สถานะปกติ หรือ ผิดพลาด (Errors) ของการเช่ือมตอ ตัวอักษร 5 Src_bytes จํานวน Data byte ของตนทาง ตัวเลข (ตอเน่ือง) 6 Dst_bytes จํานวน Data byte ของปลายทาง ตัวเลข (ตอเน่ือง) 12 Logged_in ความสําเร็จในการ Log in ตัวเลข

(1=สําเร็จ, 0=กรณีอ่ืนๆ) (ไมตอเน่ือง) 25 Serror_rate รอยละของการเช่ือมตอท่ี “SYN” Errors ตัวเลข (ตอเน่ือง) 27 Rerror_rate รอยละของการเช่ือมตอท่ี “REJ” Errors ตัวเลข (ตอเน่ือง) 30 Diff_srv_rate รอยละของการเช่ือมตอไปยังการใหบริการท่ีแตกตางกัน ตัวเลข (ตอเน่ือง) 36 Dst_host_same_src_port_rate อัตราการสงขอผิดพลาดกลับมาของเครื่องบริการปลายทาง ตัวเลข (ตอเน่ือง) 37 Dst_host_srv_diff_host_rate อัตราบริการท่ีผิดกันระหวางตนโฮสทางและปลายทาง ตัวเลข (ตอเน่ือง) 40 Dst_host_rerror_rate อัตราท่ีเครื่องโฮสปลายทางใช Port อันเดียวกัน ตัวเลข (ตอเน่ือง)

The 5th National Conference on Computing and Information Technology NCCIT 2009

429

Page 6: Detection Efficiency Comparison of Probing-Type Network ... · Probing is one of the most common Attack, that becomes increasingly important , since it is hard to detect because it

Data Set มาทดสอบกับเทคนิควิธีการของการทําการจําแนกเพ่ือหารูปแบบ (Pattern) ของขอมูลแลววิเคราะหวาเปนการ โจมตีหรือไม โดยจากการทดลองพบวา วิธี C4.5 วิเคราะหไดถูกตองแมนยําที่สุด และมีคา Error ตํ่าที่สุด ซึ่ง SVM น้ันก็ไดผลดีเชนเดียวกับ C4.5 แตมีคาความแมนยําและ Error ดอยกวาเล็กนอย ในสวนของ Naïve Bayes พบวามีคา Error มาเกินไปแมจะวิเคราะหไดเร็วที่สุดก็ตาม และ MLP น้ันวิเคราะหผลไดชาเกินไปแมวิเคราะหไดถูกตองสูงมากก็ตาม ซึ่งในการพัฒนาอัลกอริทึมน้ันใหสามารถนําไปใชไดจริงจะตองคํานึงถึงประสิทธิภาพในทุกๆดาน จึงสรุปไดวา C4.5 และ SVM สามารถจะนําไปพัฒนาตอใหมีประสิทธิภาพสูงขึ้นและใชจริงได

จากการวิเคราะหดวยวิธีการโจมตีแตละชนิดอยางละเอียดเทียบกับวิธีการที่ใชพบวา C4.5 มีการวิเคราะห Satan ที่ดอยกวาวิเคราะหโจมตีแบบอื่น เพราะวาเกิด Error ขึ้นสูงกวาการวิเคราะหโจมตีแบบอื่น ในสวนของ SVM และ Naïve Bayes

มีการวิเคราะห Portsweep และ Normal ดวยกวาการวิเคราะหโจมตีแบบอื่น และ MLP วิเคราะห Normal ผิดพลาดสูงกวาโจมตีอื่นๆ แตวิเคราะห Portsweep ผิดพลาด 0%

5. เอกสารอางอิง [1] ศุภโชค สุขเษม. (2548). ระบบตรวจจับการบุกรุก. 18 พฤศจิกายน 2551. จาก http://csn.cs.psu.ac.th/white/ids.pdf [2] K. Kendall. (1999). A Database of Computer Attacks for the Evaluation of Intrusion Detection Systems”, S.M. Thesis, MIT Department of Electrical Engineering and Computer Science, June [3] S. R. Gunn. (1997). Support vectors machines for classification and regression. Technical report. Image Speech and Intelligent Systems Research Group. University of Southampton [4] Ambwan. (2003). Proceedings of the 2003 IEEE International Joint Conference on Neural Networks. Multi class support vector machine implementation to intrusion detection, Portland: Oregon [5] Carolina, BlaZ and Mihael. (2007). Conference on Data Mining and Data Warehouses. ANOMALY DETECTION IN COMPUTER NETWORKS USING LINEAR SVMs,Ljubljana, Slovenia. [6] K and P. (2003). The International Conference on Information Networking. Network-Based Intrusion Detection with Support Vector Machines. Korea. Kyounggi-do: Springer-Verlag Berlin Heidelberg [7] X. and W. (2005).Adaptive network intrusion detection method based on PCA and support vector machines, Advanced Data Mining And

Applications conference, pp. 696 – 703, China, Springer-Verlag Berlin Heidelberg [8] Shon, Kim, Lee and Moon. (2005). Proceedings of the 2005 IEEE Workshop on Information Assurance and Security. A machine learning framework for network anomaly detection using SVM and GA, United States Military Academy, West Point, NY: IEEE [9] J.R. Quinlan. 1993. C4.5: Programs for Machine Learning. [10] W.Y.Su and Y.(2009) Ester. Data mining-based intrusion detectors. Expert Systems with Applications 36, pp.5605–5612 [11] S Peddabachigari, A Abraham and J Thomas. 2004. Intrusion Detection Systems Using Decision Trees and Support Vector Machines. International Journal of Applied Science and Computations, USA [12] Stein, G., B. Chen, A. S. Wu, and Kien A. Hua. (2005). Decision tree classifier for network intrusion detection with GA-based feature selection. In the Proceedings of the 43rd ACM Southeast Conference, March 18-20 [13] Jensen, F.V. (1996). An introduction to Bayesian Networks. University College London Press, London [14] C. Kruegel, D. Mutz, W.K. Robertson, F. Valeur. (2003). Bayesian event classification for intrusion detection. in: Proceedings of the Annual Computer SecurityApplicatio ns Conference, Las Vegas

[15] P. Mrutyunjaya and P.R. Manas. (2007). Network Intrusion Detection using Naïve Bayes. IJCSNS International Journal of Computer Science and Network Security, VOL.7 No.12 [16] N. B. Amor, S. Benferhat, and Z. Elouedi. (2004). Naive bayes vs. decision trees in intrusion detection systems. In Proceedings of the ACM symposium on Applied computing, pp. 420– 424 [17] S. Haykin, Neural Networks. (1999). A Comprehensive Foundation.Second ed., Englewood Cliffs, N.J.: Prentice Hall [18] Y. Bouzida and F. Cuppens. (2006). Neural networks vs. decision trees for intrusion detection. IEEE / IST Workshop on Monitoring, Attack Detection and Mitigation (MonAM2006) Tuebingen, Germany, September [19] J. Ryan, M.J. Lin, R. Miikkulainen, Intrusion detection with neural networks, in: M.I. Jordan, M.J. Kearns, S.A. Solla (Eds.), Advances in Neural Information Processing Systems, Vol. 10, MIT Press, Cambridge, MA, 1998,pp. 943–949. [20] Didaci, L., G. Giacinto, and F. Roli (2002). Ensemble learning for intrusion detection in computer networks. [21] http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html [22] http://www.cs.waikato.ac.nz/~ml/weka/ [23] http://www.csie.ntu.edu.tw/~cjlin/libsvm/

The 5th National Conference on Computing and Information Technology NCCIT 2009

430