38
DATA MINING

Data mining

Embed Size (px)

Citation preview

DATA MINING

ขอมลท ถกเกบไวในฐานขอมลหากเกบไวเฉย ๆ กจะไมเ กดประโยชน จงตองมการคดเ ลอกขอมลออกมาใชงานสวนทเราตองการ

ในอดตเราใชคนเปนผ สบคนขอมลตางๆ ในฐานขอมลซงผ สบคนจะท าการสรางเ งอนไขขนมาตามภ ม ปญญาของผ สบคน

ในปจจบนการว เคราะหขอมลจากฐานขอมลอยางเดยวอาจใหความรไม เพยงพอส าหรบการด า เ นนงานทมการแขงขนสงและมการเปลยนแปลงทรวดเรวจงจ า เปนทจะตองรวบรวมฐานขอมลหลาย ๆ ฐานขอมลเขาดวยกน เ รยกวา “คลงขอมล” (Data Warehouse) ดงน นเราจงจ า เปนตองใช Data Mining ในการดงขอมลจากฐานขอมลท มขนาดใหญ เพอ ทจะน าขอมลนนมาใชงานใหเ กดประโยชนสงทสด

ท ำไมจงตอง DATA MINING

คอ กระบวนการทกระท ากบขอมลจ านวนมากเพอคนหารปแบบและความสมพนธ ท ซอนอยในชดขอมลน น ในปจจบนการท า เหมองขอมลไดถกน าไปประยกตใชในงานหลายประเภท ท งในดานธรกจทชวยในการตดสนใจของผ บรหาร ในดานวทยาศาสตรและการแพทยรวมท งในดานเศรษฐกจและสงคม

กำรท ำเหมองขอมล (DATA MINING)

Data Cleaning เ ปนข นตอนส าหรบการคดขอมลทไม เ กยวของออกไป Data Integration เ ปนข นตอนการรวมขอมลทมหลายแหลงให เ ปนขอมลชดเดยวกน Data Selection เ ปนข นตอนการดงขอมลส าหรบการว เคราะหจากแหลงทบนทก Data Transformation เ ปนข นตอนการแปลงขอมลให เหมาะสมส าหรบการใชงาน Data Mining เ ปนข นตอนการคนหารปแบบทเปนประโยชนจากขอมลทมอย Pattern Evaluation เ ปนข นตอนการประเมนรปแบบทไดจากการท าเหมองขอมล Knowledge Representation เ ปนข นตอนการน าเสนอความร ทคนพบ โดยใชเทคนค

ในการน า เสนอเพอให เขาใจ

ขนตอนกำรท ำเหมองขอมล

สถาปตยกรรมของการท าเหมองขอมล

Database , Data Warehouse , World Wide Web และ Other Info Repos i tor ies เ ปนแหลงขอ มลส าห รบการท า เหมองขอ มล

Database หรอ Data Warehouse Server ท าหนา ทน า เขาขอมลตามค าขอของผ ใช Knowledge Base ไดแ ก ความ ร เฉพาะดานในงานทท าจะเ ปนประโยชน ตอการสบคน หรอประเ มน

ความนาสนใจของรปแบบผลลพธ ทได Data Mining Engine เ ปนสวนประกอบหลกประกอบดวยโมดลท รบผดชอบงานท า เหมองขอ มล

ประ เภทตางๆ ไดแ ก การหากฎความสมพน ธ การจ าแนกประเภท การจดก ลม Pat tern Evaluat ion Module ท างานรวมกบ Data Mining Engine โดยใชมาตรวดความนาสนใจ

ในการกลนกรองรปแบบผลลทธ ทได เ พอใหการคนหา มง เนน เฉพาะรปแบบทนาสนใจ User Inter face สวนตดตอประสานระหว างผ ใชกบระบบการท า เหมองขอมล ชวยใหผ ใชสามารถ

ระบงานท า เหมองขอมล ทตองการท า ดขอมลหรอโครงสรางการจด เกบขอมล ประ เ มนผลลพธ ท ได

สถำปตยกรรมของกำรท ำเหมองขอมล

Relational Database เ ปนฐานขอมล ทจด เกบอย ในรปแบบของตาราง โดยในแตละตารางจะประกอบไปดวยแถวและคอลมน ความสมพนธของขอมลท งหมดสามารถแสดงไดโดย Enti ty Rela t ionship Model

Data Warehouses เ ปนการเกบรวบรวมขอมลจากหลายแหลงมาเกบไวในรปแบบเดยวกนและรวบรวมไวในทๆ เ ดยวกน

Transactional Database ประกอบดวยขอมล ทแตละทรานเเซกชนแทนดวยเหตการณในขณะใดขณะหนง เ ชน ใบเสรจรบเ งน จะเกบขอมลในรปชอลกคาและรายการสนคา ทลกคารายซอ

Advanced Database เ ปนฐานขอมล ทจดเกบในรปแบบอนๆ เ ชน ขอมลแบบ Object-Oriented ขอมลท เ ปน Text Fi le ขอมลมลต ม เ ดย ขอมลในรปของ Web

ประเภทขอมลท ใ ชท ำเหมองขอมล

ขอมลขนาดใหญ เ กนกวาจะพจารณาความสมพนธ ท ซอนอยภายในขอมลไดดวยตาเปลา หรอโดยการใช Database Management System ( DBMS ) ในการจดการฐานขอมล

ขอมล ทมาจากหลายแหลง โดยอาจรวบรวมมาจากหลายระบบปฏบตการหรอหลาย DBMS เ ชน Oracle , DB2 , MS SQL , MS Access เ ปนตน

ขอมลทไมมการเปลยนแปลงตลอดชวงเวลาทท าการ Mining หากขอมลท มอยน น เ ปนขอมลท เปลยนแปลงตลอดเวลาจะตองแกปญหาน กอน โดยบนทกฐานขอมลน นไวและน าฐานขอมลทบนทกไวมาท า Mining แตเ นองจากขอมลน นมการเปลยนแปลงอยตลอดเวลา จงท าใหผลลพธ ทไดจาการท า Mining สมเหตสมผลในชวงเวลาหนง เทาน น ดงน นเพอใหไดผลลพธ ท มความถกตองเหมาะสมอยตลอดเวลาจงตองท า Mining ใหมทกครงในชวงเวลาท เหมาะสม

ขอมล ทมโครงสรางซบซอน เ ชน ขอมลรปภาพ ขอมลมลตม เ ดย ขอมลเหลานสามารถน ามาท า Mining ไดเ ชนกนแตตองใชเทคนคการท า Data Mining ข นสง

ลกษณะเฉพำะของขอมลทใชท ำเหมองขอมล

1. Association rule Discovery

เ ปนเทคนคหนงของ Data Mining ทส าคญ และสามารถน าไปประยกตใชไ ดจ รงกบงานตาง ๆ หลกการท างานของว ธ น คอ การคนหาความสมพนธของขอมลจากขอมลขนาดใหญทมอย เพอน าไปใชในการว เคราะห หรอมากจากการว เคราะหการซอสนคาของลกคา เ รยกวา “ Market Basket Analysis ” ซงประเมนจากขอมลในตารางทรวบรวมไว ผลการว เคราะห ทไดจะเปนค าตอบของปญหา ซงการว เคราะหแบบน เปนการใช “ กฎควำมสมพนธ ” (Associat ion Rule) เพอหาความสมพนธของขอมล

ตวอยำงเชน ระบบแนะน าหนงสอใหกบลกคาแบบอตโนมต ของ SE-ED BOOK คอ เ มอลกคา ท ซอหนงสอ 1 เ ลม อาจจะซอหนงสอเลมใดอกเ ลมหนงพรอมกนดวย เสมอ ความสมพนธ ทไดจากกระบวนการนสามารถน าไปใชคาดเดาไดว าควรแนะน าหนงสอเ ลมใดเพม เ ตมใหกบลกคา ท เพ ง ซอหนงสอจากรานไป

เทคนคตำงๆของกำรท ำเหมองขอมล

1)โครงสรำงแบบตนไมของ Decision Tree

เ ปนทนยมกนมากเนองจากเปนลกษณะทคนจ านวนมากคนเคย ท าให เขาใจไดงาย มลกษณะเหมอนแผนภ มองคกร โดยทแตละ node แสดง at t ribute แตละกงแสดงผลในการทดสอบ และ leaf , nodeแสดงคลาสทก าหนดไว

เทคนคตำงๆของกำรท ำเหมองขอมล

2. Classi f ication & Prediction

Classi f ication

เ ปนกระบวนการสราง model จดการขอมลใหอย ในกลม ทก าหนดมาให ตวอยาง เ ชน จดกลมนกเ รยนวา ดมาก ด ปานกลาง ไมด โดยพจารณาจากประวตและผลการเ รยน หรอแบงประเภทของลกคาวา เ ชอถอได หรอไมโดยพจารณาจากขอมล ทมอย กระบวนการ classi f icat ion นแบงออกเปน 3 ข นตอน ดง น

1. Model Construction (Learning) เ ปนข นการสราง model โดยการเ รยนรจากขอมลทไดก าหนดคลาสไวเ รยบรอยแลว (Training data) ซง model ทไดอาจแสดงในรปของ

เทคนคตำงๆของกำรท ำเหมองขอมล

2) หรอ Artif icial Neural Networks (ANN) เ ปนเทคโนโลย ทมาจากงานวจยดานปญญาประดษฐ Artif icial Intel l igence:

AI เพอใชในการค านวณคาฟงกชนจากกลมขอมล เ ปนวธการทให เครองเรยนรจากตวอยางตนแบบ แลวฝก( t rain)ใหระบบไดรจก ทจะคดแกปญหาทกวางขนได

โครงสรางของNeural Net จะประกอบดวย node ส าหรบ Input – Output และการประมวลผล กระจายอยในโครงสรางเปนช น ๆ ไดแก input layer , output layerและ hidden layers การประมวลผลของ Neural Net จะอาศยการสงการท างานผาน node ตาง ๆ ใน layer เหลา น

เทคนคตำงๆของกำรท ำเหมองขอมล

เทคนคตำงๆของกำรท ำเหมองขอมล

2.Model Evaluation ( Accuracy )เ ปนข นการประมาณความถกตองโดยอาศยขอมลทใชทดสอบ ( test ing

data ) ซงคลาสทแทจรงของขอมลทใชทดสอบนจะถกน ามาเปรยบเทยบกบคลาสทหามาไดจาก model เพอทดสอบความถกตอง

3.Model Usage ( Classification )เ ปน Model ส าหรบใชขอมลทไม เคยเหนมากอน ( unseen data ) โดยจะท า

การก าหนดคลาสใหกบ object ใหมทไดมา หรอ ท านายคาออกมาตามทตองการ

เทคนคตำงๆของกำรท ำเหมองขอมล

Prediction

เปนการท านายหาคาทตองการจากขอมลทมอย ตวอยางเชน หายอดขายของเดอนถดไปจากขอมลทมอย หรอท านายโรคจากอาการของคนไขในอดต เปนตน

เทคนคตำงๆของกำรท ำเหมองขอมล

3. Database clustering หรอ Segmentationเ ปน เทคนคการลดขนาดของขอมลดวยการรวมกลมตวแปรท มลกษณะเดยวกนไวดวยกน

ตวอยาง เ ชน บรษทจ าหนายรถยนตไดแยกกลมลกคาออกเปน 3 กลม คอ 1 .กลมผ มรายไดสง (>$80 ,000 ) 2 .กลมผ มรายไดปานกลาง ($25 ,000 t o $ 80 ,000 )3 .กลมผ มรายไดต า ( l e ss t han $ 25 ,000)

และภายในแตละกลมย งแยกออกเ ปน-Have Chi ld ren-Mar r ied-Las t ca r i s a used ca r-Own ca r s

จากขอ มลขางตนท าใหทางบรษท รว า เ มอ ม ลกคา เขามา ทบ รษทควรจะเสนอขายรถประเภทใด เ ชน ถา เ ปนก ลมผ ม รายไดสงควรจะเสนอรถใหม เ ปนรถครอบครวขนาดใหญพอสมควร แตถา เ ปนผ ม รายไดคอนขางต าควรเสนอรถมอสอง ขนาดคอนขาง เลก

เทคนคตำงๆของกำรท ำเหมองขอมล

4. Deviation Detection

เปนกรรมวธในการหาคาทแตกตางไปจากคามาตรฐาน หรอค าทคาดคดไววาตางไปมากนอยเพยงใด โดยทวไปมกใชว ธการทางสถต หรอการแสดงใหเหนภาพ (Visualization) ส าหรบเทคนคนใชในการตรวจสอบ ลายเซนปลอม หรอบตรเครดตปลอม รวมทงการตรวจหาจดบกพรองขอ งชนงานในโรงงานอตสาหกรรม

เทคนคตางๆของการท าเหมองขอมล

5. Link Analysis

จดมงหมายของ Link Analysis คอ การสราง link ท รยกวา “ associations” ระหวาง recode เดยว หรอ กลมของ recode ใoฐานขอมลlink analysis สามารถแบงออกเปน 3 ชนด คอ

•associations discovery•sequential pattern discovery •similar time sequence

เทคนคตำงๆของกำรท ำเหมองขอมล

การท าเหมองขอมลเวบ คอ การใชเทคนคการท าเหมองขอมลเพอคนหาและสกดขอมลและสารสนเทศจากเอกสารเวบและบรการบนเวบโดยอตโนมต เ พอน าความรทไดมาแกปญหาทตองการท งทางตรงและทางออม นอกจากนย งไดแบงประเภทของการท าเหมองขอมลเวบโดยพจารณาจากขอมลทน ามาว เคราะหออกเปน 3 ประเภท คอ Web Content Mining, Web Structure Mining และ Web Usage Mining

กำรท ำเหมองขอมลเวบ (WEB MINING)

Web Content Mining เ ปนการคนหาขอมล ท มประโยชนจากขอมล ทอยภายในเวบ เ ชน ขอความ รปภาพ เปนตน โดย Web Content Mining สามารถแบงออกเปน 2 ประเภทตามมมมองคอ มมมองทางดานการสบคนสารน เทศ (Informat ion Retr ieval) และมมมองทางดานฐานขอมล (Database) เ ปาหมายของ Web Content Mining จากมมมองของการสบคนสารนเทศคอการท า เหมองขอมล เวบเพอปรบปรงการหาขอมลหรอกรองขอมลใหผ ใชโดยพจารณาจากขอมล ทผ ใชอ างองหรอรองขอ ในขณะทเ ปาหมายของ Web Content Mining ในมมมองของฐานขอมลสวนใหญพยายามจ าลองขอมลบนเวบและรวมขอม ลน น เพอใหการสอบถามท างานด ขนมากกวาการใชค าหลก เปนตวคนหาเพยงอยาง เ ดยว

Web Structure Mining เ ปนว ธการทพยายามคนหารปแบบโครงสรางการเ ชอมโยง ทส าคญและซอนอยในเวบ ซง รปแบบนจะขนอยกบรปแบบการเ ชอมโยงเอกสารภายในเวบ โดยน า รปแบบทไดมาใชเพ อจดก ลมเวบ เพจและใชสรางขอมลสารสนเทศท เปนประโยชน เ ชน น ามาใชในการปรบโครงสรางของเวบใหสามารถใหบรการผ ใชไดอยางรวดเ รว

กำรท ำเหมองขอมลเวบ (WEB MINING)

Web Usage Mining เ ปน ว ธการ ทพยายามคนหาความหมายของขอ มล ทสรางจากชวงการท างานหนงของผ ใชหรอสรางจากพฤตกรรมของผ ใช เ ร ยกอก ชอหนงว า Web Log Min ing โดยในขณะท Web Content Min ing และ Web St ruc ture Min ing ใชประโยชนจากขอมลจ รง หรอขอมล พนฐานบนเวบแต Web Usage Min ing ท าการคนหาความรจากขอ มลการตดตอ สอสารระหว างกนของผ ใช ท ตด ตอกบเวบ โดย Web Usage Min ing ท าการรวบรวมขอ มลจากบนทกในการด า เ นนการตางๆ เ ชน บนทกการใชงานของ Proxy (Proxy Server Log) ขอมลการลงทะเ บยน (Regis t ra t ion Da ta) หรอขอมล อนอน เ ปนผลจากการท างาน รวมกนมาใช ว เคราะห ดงน น Web Usage Min ing จ ง เ ปนว ธการท างาน ท เนนใช เทคนคทสามารถท านายพฤตกรรมของผ ใชในขณะทผ ใชท า งานกบเวบ กระบวนการท างานของ Web Usage Min ing สามารถแบงออกเปน 2 ว ธ คอ

1 . ท าการจบ คขอมลการใชงานของเค รองใหบรการ เวบใหอย ใน รปของตารางความสมพนธ กอนทน าขอ มล นมาปรบใชกบ เทคนคการท า เหมองขอมลการใช เวบ

2 . ใชประโยชนจากขอมลในบนทกการใชงานโดยตรง ซงจะใช เทคนคการ เตรยมข อมล (Preprocess ing) เ พอ เตรยมขอมลกอนหาความสมพน ธ (Pa t te rn Di scovery) และว เคราะห รปแบบ (Pa t tern Ana lys i s )

กำรท ำเหมองขอมลเวบ (WEB MINING)

งานวจยจ านวนมากทน า Web Mining มาชวยในการว เคราะหงานบรการ web เพอน าไปพฒนาการใหบรการทด และนาสนใจขนสวนใหญจะเนนไปทการน าขอมลในรปของตวอกษร (Text ) มาว เคราะหรวมกบขอมลชนดอน โดยทขอมลเหลา นมกจะไดจากการบนทกรายละเอยดในทก ๆ ค รง ท มผ เขาใชบรการใน web แตละแหง

กำรประยกต WEB MINING เพอกำรบรกำร WEB

ในการท า ธร กจหาง ร าน บรการสงของทางไปรษณย ห รอการท า ธร กจแบบอ เลกทรอนกส ปจจย ทส าคญตอความส า เ รจของ ธรกจคอ ความเขาใจในตว ลกคา ย ง รขอมลมากท าให เขา ใจลกคามากขน โอกาสทจะท า ธร กจใหตรงกบความตองการของตลาดกจะมมากขนไปดวย

ขอ มลของลกคาดงกลาวมา น สามารถว เคราะหออกมาใน 3 ลกษณะดง ตอไปน1 .Demographics เ ปนขอ มลเ กยวกบ ทอย ห รอสถานทของผ ใชในขณะท เขาใชบ รการ web

ซ งจะสามารถประมวลเปนสถตบร เวณทอยอาศยของกลมผ ใชสวนมากได2 .Psychographics เ ปนขอมลดานจตวทยา ซงแสดง ถง คา นยมในดานตาง ๆ ของผ ใช โดย

สามารถแบงกลมผ ใชตามขอมลการ เขาใชบรการ web ท ง ในแงของเวลาและเ นอหา3 .Technolographics เ ปนขอมล ทแสดงถงระดบความรและความสนใจในเทคโนโลยด าน

ต างๆ ของผ ใช รวมถง เค รองคอมพวเตอร ท ตดตอเขามาดวย ซงจะชวยในการพฒนาสนคา และบรการให น าสนใจ

เ มอน าขอมล ทว เคราะหท ง 3 ลกษณะมาพจารณาจะ เ กดประโยชนอยางมากในการศกษาพฤตกรรมโดยรวมของประชากร ซงจ านวนขอมล ทน ามาใชว เคราะหมกจะมจ านวน มากและใหผลการว เคราะห ท มความแมนย า สง

WEB MINING กบกำรท ำธรกจ E-COMMERCE

Data Mining เ ปนกระบวนการสบคนขอมลอนเปนประโยชนตอการด า เ นนธรกจออกจากกองขอมลขนาดใหญทจดเกบอยในฐานขอมลของแตละองคกร

เ ปาหมายของ Data Mining คอ ท าอยางไรถงจะเอาชนะคแขงทางธรกจใหได ท าอยางไรถงจะรไดวาประชากรกลมไหนคอ ลกคา เ ปาหมาย (Who) และประชากรกลมนตองการซออะไร (What) ซอ ทไหน (Where) ซอเ มอไหร (When) และทส าคญท สดก คอ อะไรคอแรงขบเคลอนใหลกคา เปาหมายตองการสนคา ทวาน น (Why) ซงค าถามเหลาน เ มอมาผนวกเขากบรปแบบการด า เนนธรกจยคด จตอล ก สงผลใหเทคโนโลย Data Mining กลายสภาพมาเปนเครองมอการตลาดทส าคญ ขนาด ทวา นกธรกจรายใดไมใหความส าคญกบมน กอาจจะถกคแขงทางการคาของตนทงหางไปเลย

กำรประยกต WEB MINING ทำงดำนกำรตลำดบนอนเตอรเนต

จ านวนและขนาดขอมลขนาดใหญถกผลตและขยายตวอยางรวดเรว การสบคนความรจะมความหมายก ตอเ มอฐานขอมลทใชมขนาดใหญมาก ปจจบนมจ านวนและขนาดขอมลขนาดใหญทขยายตวอยางรวดเรว โดยผานทาง Internet ดาวเทยม และแหลงผลตขอมล อน ๆ เ ชน เค รองอานบารโคด , เครดตการด , อคอมเม รซ

ขอมลถกจดเกบเพอน าไปสรางระบบการสนบสนนการตดสนใจ ( Decision Support System) เพอ เปนการงายตอการน าขอมลมาใชในการว เคราะหเพอการตดสนใจ สวนมากขอมลจะถกจดเกบแยกมาจากระบบปฏบตการ ( Operational System ) โดยจดอยในรปของคลงหรอเหมองขอมล ( Data Warehouse ) ซง เปนการงายตอการน า เอาไปใชในการสบคนความร

ปจจยทท ำ ใ หกำรท ำ เหมองขอมลเ ปนท ไ ด รบควำมนยม

ระบบ computer สมรรถนะสงมราคาต าลง เทคนค Data Mining ประกอบไปดวย Algori thm ท มความซบซอนและความตองการการค านวณสง จงจ า เ ปนตอง ใชงานกบระบบ computer สมรรถนะสง ปจจบนระบบ computer สมรรถนะสงมราคาต าลงพรอมดวยเ รมม เทคโนโลย ทน า เครอง microcomputer จ านวนมากมาเ ชอมตอกนโดยเครอขายความเรวสง(PC Cluster )ท าใหไดระบบ computer สมรรถนะสงในราคาต า

การแขงขนสงในดานอตสาหกรรมและการคา เ นองจากปจจบนมการแขงขนอยางสงในดานอตสาหกรรมและการคา มการผลตขอมลไวอยางมากมายแตไมไดน ามาใชใหเ กดประโยชน จง เ ปนการจ า เปนอยางยง ทตองควบคมและสบคนความร ทถกซอนอยในฐานขอมลความร ทไดรบสามารถน าไปว เคราะหเพอการตดสนใจในการจดการในระบบตาง ๆ ซงจะเหนไดวาความร เหลาน ถอวา เปนผลตผลอกชนหนงเลยทเดยว

ปจจยทท ำ ใ หกำรท ำ เหมองขอมลเ ปนท ไ ด รบควำมนยม

ก าหนดลกษณะประจ า เปาหมายใหเปนลกษณะประจ าสดทาย บางข นตอนใชว ธสรางตนไมการตดสนใจตองการลกษณะประจ า ท ม คาไมตอเ นอง

เทาน น ดงน น เราจ า เ ปนตองเปลยนลกษณะประจ า ทม คาตอเ นองใหเ ปนลกษณะประจ า ท ม คาไมตอเ นอง

- ในกรณทมระเบยนนอย เราอาจใชk-fold cross val idation หรอ leave-one-out

- ในกรณทมระเบยนมากพอเราควรแบง กนระเบยนบางสวนเปน Validation, Test data และทเหลอน ามาใชเ ปน Training data สดสวนทใชอาจเปน 3/10, 3/10กบ4/10

กำรเตรยมแฟมขอมล

โปรแกรม WEKA (Waikato Environment for Knowledge Analysis) เ รมพฒนาต งแตป 1997 โดยมหาวทยาลย Waikato ประเทศนวซแลนด เ ปน

ซอฟตแวรประเภท free ware โปรแกรม Weka พฒนามาจากภาษาจาวาท งหมด ซงเ ขยนมาเพอเนนงานทางดานการเ รยนรดวยเครอง (Machine Learning) และการท าเหมองขอมล (Data Mining) โปรแกรมจะประกอบไปดวยโมดลยอย ๆ ส าหรบใชในการจดการขอมลและเปนโปรแกรม ทสามารถใช Graphic User Interface (GUI) และใชคาสงในการใหซอฟตแวรประมวลผล สามารถรนไดหลายระบบปฏบตการ มเค รองมอ ทใชท างานในดานการท า data mining ทรวบรวมแนวคดอลกอร ทม มากมายซงอลกอรทม สามารถเลอกใชงานโดยตรงไดจาก 2 ทางคอจากชดเครองมอ ทมอลกอรทม มาใหหรอเลอกใชจากอลกอรทมทไดเ ขยนเปน โปรแกรมลง ไปเปนชดเค รองมอเพม เ ตมและชดเครองมอมฟงกชน ส าหรบการท างานรวมกบขอมล ไดแก Pre-Processing , Classification

SOFTWARE ทใชท ำเหมองขอมล

SOFTWARE ท ใ ชท ำเหมองขอมล

ขอด

- เ ปนซอฟตแวรเสร ทสามารถดาวนโหลดไดฟร- สามารถท างานไดทก ระบบปฏบต การ- เ ชอมตอ SQL Database โดยใชJava Database Connectivi ty- มการเตรยมขอมล และเทคนคในการสรางแบบจ าลองทครอบคลม- มลกษณะทงายตอการใชงานเนองจากใช

ขอเสย

ย งไมแนใจแตจะวดคณภาพของวธกบ accuracy ทไดมากกวา เพราะในทางปฏบตจรง บางขอมลใชว ธ Apriori จะใหความเทยงตรงสงกวาใช FP-Tree บางขอมล ใช ว ธ FP-tree กจะใหความเทยงตรงสงกวา Apriori ดงน น ในทางปฏบตตองเอา Model ทไดมา Evaluated เพอ เ ลอก ว ธ ท เหมาะสม

SOFTWARE ท ใ ชท ำเหมองขอมล

โปรแกรม Orange Canvas

เ ปนแหลงทมาของการสรางภาพเปดและว เคราะหขอมลส าหรบมอใหมและผ เ ชยวชาญการท า เหมองขอมลผานทางภาพเขยนโปรแกรมหรองหลามสครปต สวนประกอบส าหรบการเ รยนรเครอง Add-ons ส าหรบชวสารสนเทศและการเหมองแรขอความเตมไปดวยคณสมบตส าหรบการว เคราะหขอมล

SOFTWARE ท ใ ชท ำเหมองขอมล

ขอด

– ท าใหการเชอมตองายยง ขน– ท าใหการว เคราะหขอมลส าหรบมอใหมไดงายขน

ขอเสย

– ถาเชอมตอไมดอาจท าใหการเชอมตอผดพลาดได

SOFTWARE ทใชท ำเหมองขอมล

โปรแกรม MATLAB

เ ปนโปรแกรมคอมพว เตอรสมรรถนะสง เพอใชในการค านวณทางเทคนค MATLABไดรวมการค านวณ การเขยนโปรแกรมและการแสดงผลรวมกนอย ในตวโปรแกรมเดยวไดอยางมประสทธภาพ และอยในลกษณะท งายตอการใชงาน นอกจากนลกษณะของการเขยนสมการในโปรแกรมกจะเหมอนการเขยนสมการคณตศาสตร งานทวไปทใช MATLAB เ ชน การค านวณทวไปการสรางแบบจ าลองและการทดสอบแบบจ าลอง การว เคราะหขอมล การแสดงผลในรปกราฟ การท างานของ MATLAB จะท างานไดท งในลกษณะของการตดตอโดยตรง (Interact ive) คอการเขยนค าส ง เขาไปทละค าส ง เพอให MATLAB ประมวลผล หรอสามารถทจะรวบรวมชดค าส ง เ ปนโปรแกรมกได ขอส าคญอยางหนงของ MATLAB กคอขอมลทกตวจะถกเกบในลกษณะของ array คอในแตละตวแปรจะไดรบการแบงเ ปนสวนยอยเลกๆขน ซงการใชตวแปรเปน array ในMATLABไมจ า เ ปนทจะตองจอง dimension เหมอนกบการเขยนโปรแกรมในภาษาข นต าทวไป ซงท าใหสามารถทจะแกปญหาของตวแปรทอยในลกษณะของ matrix และ vector ไดโดยงาย

SOFTWARE ท ใ ชท ำเหมองขอมล

SOFTWARE ท ใ ชท ำเหมองขอมล

ขอเสย

คอฟงกชนทน ามาใชงานมนอยท าให เ ขยนโปรแกรมท มความซบซอนไดไม ด เ ทา ทควรเพราะมประสทธภาพและความเรวในการประมวลผลต า

ขอด

- ม ฟงกชนคณตศาสตรให เ ลอกใชในการค านวณมากมาย-Algor i thm พฒนาได งาย สามารถแกไขปญหาทางดานคณตศาสตร ท มความซบซอนได ง าย - มโครงสรางแบบจ าลอง (Simul ink) ทสามารถน าไปสรางบลอกไดอะแกรมเพ อใชทดสอบ และประเ มนผลระบบ Dynamic ต างๆ กอนน าไปใชงานจรง-สามารถว เคราะหและตรวจสอบขอมลไดง ายและรวดเ รว-น าไปใชงานในทางดวนกราฟกท งในดานการแสดงภาพต งแตสองมตและสามมต ตลอดจนสามารถน าภาพมาตอกน และ เกบไวเ พอ ทจะสราง เ ปนภาพเค ลอนไหวไดอกดวย-ประยกตใช ในการสราง รปแบบ Graphica l User In t e r face ไดโดยการ เ ลอกใช objec t และเมน ตางๆ โดย MATLAB จะม เค รองมอให เ ลอกใช เ ชน เมน รายการ ปมกด และ f i e lds ob jec t ต างๆ เ พอใหผ ใชสามารถเ ลอกน าไปใชในการท างานปฏสมพน ธกนระหว างผ ใชกบ เค รองคอมพว เตอรได-ท าการประมวลผลรวมกบโปรแกรมอนได เ ชน For t ran , Bor land C /C++, Mic rosof t V i sual C++ - MATLAB เ ปนระบบ i n t erac t ive ซ งขอมล พนฐานเ ปนอาร เรยท ไ มตองการม ต ท าให MATLAB สามท าการแกปญหาทางเทคนคตางๆ ไดมากใช เวลาในการประมวลผลนอย และดกว าโปรแกรมภาษา C และ For t ran

SOFTWARE ท ใ ชท ำเหมองขอมล

ธรกจคาปลกสามารถใชงาน Data Mining ในการพจารณาหากลยทธให เ ปนทสนใจกบผ บรโภคในรปแบบตาง ๆ เ ชน ทวางในช นวางของจะจดการอยางไรถงจะเพมยอดขายได เ ชนท Midas ซง เ ปนผ แทนจ าหนายอะไหลส าหรบอตสาหกรรมรถยนต งานทตองท า คอการจดการกบขอมลทไดรบจากสาขาท งหมด ซงจะตองท าการรวบรวมและว เคราะหอยางทนทวงท

กจการโทรคมนาคม เ ชนท Bouygues Telecom ไดน ามาใชตรวจสอบการโกงโดยว เคราะหรปแบบการใชงานของสมาชกลกขายในการใชงานโทรศพท เ ชน คาบเวลาทใชจดหมายปลายทาง ความถ ทใช ฯลฯ และคาดการณขอบกพรองทเปนไปไดในการช าระเ งน เทคนคนย งไดถกน ามาใชกบลกคาโทรศพทเคลอนทซงระบบสามารถตรวจสอบไดวา ทใดท เ สยงทจะสญเสยลกคาสงในการแขงขน France Telecom ไดคนหาว ธรวมกลมผ ใชให เ ปนหนงเดยวดวยการสรางแรงดงดดในเรองคาใชจายและพฒนาเ รองความจงรกภกดตอตวสนคา

กำรประยกตใชงำนกำรท ำเหมองขอมล

การว เคราะหผลตภณฑ เกบรวบรวมลกษณะและราคาของผลตภณฑท งหมดสรางโมเดลดวยเทคนค Data Mining และใชโมเดลในการท านายราคาผลตภณฑตว อ น ๆ

การว เคราะหบตรเครดต- ชวยบรษทเครดตการดตดสนใจในการทจะให เครดตการดกบลกคาหรอไม- แบงประเภทของลกคาวามความเ สยงในเ รองเครดต ต า ปานกลาง หรอสง- ปองกนปญหาเ รองการทจรตบตรเครดต

การว เคราะหลกคา- ชวยแบงกลมและว เคราะหลกคา เพอ ทจะผลตและเสนอสนคาไดตรงตาม

กลมเปาหมายแตละกลม- ท านายวาลกคาคนใดจะเลกใชบรการจากบรษทภายใน 6 เ ดอนหนา

กำรประยกตใชงำนกำรท ำเหมองขอมล

1. นายนนธรฐ แบแซ 5614130222. นายกะรต บญรมย 5614130313. น .ส .สวภทร ตะผด 5614130324. นายณฐวฒ กนทา 5614130415. นายวบลพรรณ อนตะ 561413051

สาขาเทคโนโลยสารสนเทศส านกวชาเทคโนโลยสารสนเทศ

จดท าโดย