View
4
Download
0
Category
Preview:
Citation preview
Introduction to Data Mining with RapidMiner Studio 7
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
Eakasit Pacharawongsakda, Ph.D.
Certified RapidMiner Analyst
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
แนะนำการใชงาน RapidMiner Studio 7
บทท 1
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
หวขอตางๆ
1. แนะนำ Data Mining และ RapidMiner Studio 7
2. เรมตนใชงาน RapidMiner Studio 7
3. องคประกอบของ RapidMiner Studio 7
4. การจดการขอมลใน RapidMiner Studio 7
5. ตวอยางการสรางโมเดล Decision Tree
6. เอกสารอางอง (Reference)
3
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
1. แนะนำ Data Mining และ RapidMiner Studio 7
คงปฏเสธไมไดวาเราไดกาวเขาสยคทมขอมลขนาดมหาศาลซงเกดจากการใชงานในชวตประจำ
วนของเราเอง เชน การซอสนคาในซปเปอรมารเกต หรอ การใชงานเครอขายสงคม (social network) แบบตางๆ อาทเชน เฟซบค (Facebook) หรอ ทวตเตอร (Twitter) เมอขอมลมจำนวนมากขนยอมทำใหเกดความตองการนำขอมลเหลานมาใชเพอกอใหเกดประโยชนมากทสด วธ
การหนงทนยมใชกนมากในปจจบนคอการวเคราะหหาความสมพนธทซอนอยในขอมล วธการนคอ “การขดเหมองขอมล” (data mining) หรอเรยกทบศพทวา ดาตา ไมนนง (ซงในหนงสอเลมนผมขอเรยกชอทบศพทเพอใหเปนสากลและเขาใจไดงายกวาครบ) การวเคราะหขอมลดวยวธดาตา ไมนนงนมตวอยางความสำเรจใหเหนอยเยอะครบ แตผมขอยกตวอยางมาใหดสก 2
ตวอยางกอน โดยตวอยางแรกเปนตวอยางคลาสสกครบ นนกคอการทหางวอลมารท (Walmart) ไดทำการคนพบพฤตกรรมการซอสนคาของลกคาทเปนเพศชายวา ในชวงเยนของวนศกรลกคากลมนมกจะมาซอสนคาสองอยางควบคกนไป นนกคอ “เบยรและผาออม” โดยจากการวเคราะหเจาะลกลงไปกพบเหตผลวาการทสนคาสองอยางนมการซอรวมกนบอยๆ เพราะวา พอบานสวน
ใหญมกจะซอเบยรไปดมในชวงสดสปดาหและเกดคดถงลกนอยของตวเองขนมาจงซอผาออม
ตดไมตดมอไปดวย (ถาเปนบานเราอาจจะพบวาพฤตกรรมแบบนเกดขนเพราะพอบานถกภรรยาใชใหมาซอผาออมใหลกแลวอยากดมเบยรดวยหรอเปลากไมรนะครบ ^^) หลงจากทหางวอล
มารทรถงพฤตกรรมแบบนทางหางกสามารถทจะจดวางสนคาสองชนดนใหสามารถคนหาได
งายๆ หรอมองเหนไดงายเพอเพมโอกาสทลกคาจะไดซอตดไมตดมอกนไปดวยครบ สวนตวอยางทสองกยงคงมาจากหางสรรพสนคาเหมอนกนครบ นนคอหางทารเกต (Target) หางทารเกตนเปนหางทเกดขนมาทหลงทำใหการจะแขงขนกบหางวอลมารททมอยกอนแลวกคงไมใช
เรองงาย ดงนนทางหางจงพยายามหาวธทจะดงดดใหลกคามาซอสนคากบทางหางใหมากขนและรกษาฐานลกคาทมอยใหเชอใจและอยากกลบมาซอสนคาทหางของตนเองใหไดมากทสด จากการวจยทางการตลาดของหางทารเกตพบวา เมอครอบครวมสมาชกใหมเกดขนคนในครอบครวกจะเรมมการจบจายใชสอยมากขนเพอรองรบการขยายขนาดของครอบครว ดงนนเมอ
ทราบเชนนแลวทางหางทารเกตจงไดทำการวเคราะหพฤตกรรมของลกคาผหญงทมาซอสนคา
และพบวาเมอลกคาเหลานเรมตงครรภ ลกคาจะมพฤตกรรมการซอสนคาทเปลยนไป เชน เรมมการซอวตามนบำรงมากขน เปลยนไปกนอาหารทมประโยชน หรอแมกระทงซอตเสอผาเพม
4
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
จากรปแบบพฤตกรรมลกษณะนทำใหทางหางสามารถสงโปรโมชนทเกยวกบการตงครรภหรอสนคา
สำหรบเดกใหกบลกคากลมนได นอกจากนหางทารเกทยงมความมนใจวาถาลกคาเชอใจทจะซอสนคาใหกบบตรทเกดขนใหมแลวลกคาเหลานกจะเชอใจซอสนคาชนดอนๆ ของทางหางไปอกเรอยๆ (รายละเอยดเพมเตมดไดจากหวขอ “เอกสารอางอง” ชวงทายของบทนครบ)
แนนอนวาถาเราอยในบรษทใหญๆ อยางหางวอลมารทหรอหางทารเกตการซอซอฟตแวรเชงพาณชย
ซงมราคาหลาย (สบ) ลานบาท เชน SAS Enterprise Miner หรอ IBM Intelligent Miner เพอมาทำการวเคราะหหาพฤตกรรมเหลานกคงไมใชเรองยากและกคมคากบการลงทน แตถาเราเปนเจาของกจการขนาดยอมถงปานกลาง (หรอทเรยกวา SME) หรอเปนนสต นกศกษา อาจารย การลงทนแบบนกอาจจะเปนไปไดยากมาก ดงนนในหนงสอเลมนผมจงอยากจะแนะนำใหรจกกบซอฟตแวรประเภท โอเพนซอรส (open source) ซงสามารถดาวนโหลดมาใชงานไดโดยไมมคาใชจาย หรอ ฟรนนเองครบ ถาพดถงซอฟตแวรประเภทโอเพนซอรสทใชในการวเคราะหขอมลดวยดาตา ไมนนงในประเทศไทยเรามกจะคนเคยกบซอฟตแวรทชอวา Weka มากกวา ผมเองคลกคลกบดาตา ไมนนงและไดลองใชงานซอฟตแวร Weka มาเปนระยะเวลาหลายปจนไดเขยนบทความการใชงาน Weka เบองตนลงในนตยสาร โอเพนซอรส ทเดย (OpenSource2Day) ซงเปนนตยสารเลมแรกและเลมเดยวในเมองไทยทเนนการใชงานซอฟตแวร โอเพนซอรส หลงจากนนผมกไดรางหลกสตรการใชงานซอฟตแวร Weka และจดการอบรมมาเปนจำนวนเกอบ 20 รน แมวาซอฟตแวร Weka จะใชงานไดงายและสะดวกมากถาตองการนำไปพฒนาตอยอดในระบบ web application ทพฒนาขนมาเอง แตในหลายๆ ครงผมมกจะพบกบขอจำกดทางการใชงานหรอการแสดงผลในรปแบบตางๆ และนนกเปนเหตผลหนงทผมไดเรมลองหาซอฟตแวร โอเพนซอรสอนๆ มาใชงานแทน Weka และผมกคดวาซอฟตแวร RapidMiner Studio 7 ทผมจะแนะนำการใชงานในหนงสอเลมนมสงทนาสนใจและทำงานไดเหนอกวาซอฟตแวร Weka ครบ ผมขอสรปขอทดกวาของซอฟตแวร RapidMiner Studio 7 ดงนครบ
• รองรบการใชงานไฟลไดหลายประเภท เชน ไฟล Excel 2007
• สามารถแสดงขอมลไดหลายรปแบบ เชน scatter plot 3D
• สามารถแสดงผลโมเดลทสวยงามและแกไขการแสดงผลใหสามารถอานไดงายขน
• สามารถบนทกไฟลโมเดลออกเปนไฟลภาพประเภทตางๆ เชน PNG, JPG หรอ PDF
• มวธการเตรยมขอมล (preprocess) และการวเคราะหไดหลากหลายรปแบบ
5
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
ดงนนในหวขอนผมจงขอแนะนำใหทานไดรจกกบซอฟตแวรทชอวา RapidMiner Studio 7 กอนทเราจะเรมตนใชงานกนในหวขอ “เรมตนใชงาน” ครบ
ซอฟตแวร RapidMiner Studio 7 แรกเรมพฒนาขนจากบรษททชอวา Rapid-I ในประเทศ
เยอรมน และเมอชวงปลายป 2013 ทผานมาไดรบทนกอนโตจากนกลงทนในประเทศสหรฐอเมรกาจงเปลยนชอบรษทจาก Rapid-I เปน RapidMiner แทน และยายสำนกงานใหญมาอยประเทศสหรฐอเมรกา เราสามารถดาวนโหลดซอฟตแวร RapidMiner Studio 7 ซงเปนเวอรชนปจจบนไดจากเวบไซต http://rapidminer.com ครบ และเลอกทเมน Download ดาน
ขวาบน (ดงแสดงในรปท 1-1)
รปท 1-1 เวบไซต rapidminer.com
6
คลกเมนดาวนโหลด
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
หลงจากนนเลอกระบบปฏบตการทเราตองการจะใชงาน จากหนาตางในรปท 1-2
รปท 1-2 เลอกระบบปฏบตการทตองการตดตง
การตดตงซอฟตแวร RapidMiner Studio 7 สำหรบระบบปฏบตการตางๆ สามารถดขนตอนอยางละเอยดไดจาก http://docs.rapidminer.com/studio/installation/
2. เรมตนใชงาน RapidMiner Studio 7
เมอตองการเรมใชงานให double click ท icon เพอเรมใชงานซอฟตแวร หนาตาง Welcome ของ RapidMiner Studio 7 กจะแสดงออกมาดงในรปท 1-3 ครบ
7
เลอกระบบปฏบตการ (OS) ทตดตงในเครอง
รปท 1-3 แสดงหนาตาง Welcome ของ RapidMiner Studio 7
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
หลงจากนนจะพบกบหนาตางเรมตนการใชงานดงแสดงในรปท 1-4 ซงมเมนตางๆ ใหเราเลอกดงนครบ
GET STARTED แสดงคลปวดโอแนะนำการใชงาน RapidMiner Studio 7 เบองตน
LEARN แสดง Tutorial ตางๆ ทเราสามารถเลอกดไดครบ
NEW PROCESS เปนการเรมตนการใชงาน RapidMiner Studio 7 เมอคลกเลอกทเมน
น จะแสดง รายละเอยดดงในรปท 1-5 ครบ
OPEN PROCESS เปนการเลอกโพรเซส (Process) ทไดบนทกไวกลบมาใชงานอกครงครบ
8
A
B
C
D
A
B
C
D
รปท 1-4 แสดงหนาตางเรมตนการใชงานของ RapidMiner Studio 7
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
3. องคประกอบตางๆ ของ RapidMiner Studio 7
ในขนตอนแรกนเราจะทำการสรางโพรเซสใหมขนมาเพอลองสรางโมเดลดวยเทคนค Decision Tree ครบ ดงนนในขนตอนแรกเราจะคลกทเมน NEW PROCESS กอน ซงกจะเหนโพรเซสตวอยางทเตรยมไวใหหลายโพรเซสครบ เชน โพรเซสสำหรบการทำ Direct Marketing หรอ Credit Risk ครบ แตตอนนเราจะคลกทเมน Blank Process หลงจากนนเราจะพบหนาจอดงแสดงในรปท 1-6 ซงเปนหนาจอหลกของ RapidMiner Studio 7 ซงเราสามารถออกแบบโพรเซสตางๆ ในหนาตางนครบ แตกอนจะไปดการสรางโพรเซสผมขอสรปองคประกอบตางๆ ของ RapidMiner Studio 7 ใหดกอนครบ
9
รปท 1-5 แสดงหนาตางตวอยางโพรเซสตางๆ เมอเลอก New Process
คลกทเมน NEW PROCESS
1
2
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
จากรปท 1-6 สามารถแบงสวนตางๆ ออกไดเปน 5 สวนใหญๆ ดงนครบ
10
Repository
A
Operator
B
Process
C
Parameter
D
help
E
รปท 1-6 แสดงองคประกอบหลกของหนาตาง Design
Repository
สวนนจะใชในการจดการไฟลตางๆ หลกการของ RapidMiner
Studio 7 จะเกบไฟลขอมลหรอโพรเซสตางๆ ไวใน โฟลเดอรเพอความสะดวกในการเรยกใชงานครงถดไป ในสวนของ Repository นจะแบงออกเปน 2 สวน ดงน
• สวนการเพมขอมลและจดการสวนตางๆ ของ Repository
• แสดง Repository ตางๆ ทไดสรางขนมา หรอมเตรยมไวใหแลว
b
a
b
A
a
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
11
Operators
สวนนจะเกบโอเปอเรตอรในการใชงานตางๆ ไวเปนกลมตามหนาททคลายคลงกน และในสวนของโอเปอเรเตอรนยงมทสำหรบการคนหาโอเปอเรเตอรอกดวยครบ
โอเปอเรเตอรแตละตวจะประกอบดวย
ชอของโอเปอเรเตอร
อนพต พอรต (Input port) เปนสวนรบขอมล เขามาประมวลผล
เอาทพต พอรต (Output port) เปนสวนสง ผลลพธทประมวลได
ชออนพต พอรตและเอาทพต พอรตแสดง ดวยตวอกษร 3 ตวแรกของชอพอรต เชน exa ยอมาจาก example set
B
a
a b c
b
c
C
แสดงโพรเซสทกำลงทำงาน
เพม Note ในโพรเซส
เชอมโอเปอเรเตอรตางๆในโพรเซสแบบอตโนมต
แสดงการแนะนำโอเปอเรเตอร
Processสวนนเปนอกสวนทสำคญของ RapidMiner Studio เพราะหลกการทำงานของซอฟตแวรนคอ การนำโอเปอเรเตอรตางๆ มา ประกอบกนใหเปนโพรเซสขนมา
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
12
Parameters
สวนนจะเปนสวนทแสดงพารามเตอร
(parameter) ท เกยวของกบแตละโอเปอเรเตอร เชน โอเปอเรเตอร Read Excel ทใชเพออานไฟลประเภท Excel จะมพารามเตอรทเกยวของ เชน
ชอและทอยของไฟล Excel เปนตน
D
Help
สวนนจะเปนสวนทแสดงขอความชวย
เหลอหรอรายละเอยดของโอเปอเร
เตอรทเลอกใชงานอย ซงประกอบดวยรายละเอยดเบองตน ความหมาย
ของแตละพารามเตอร และตวอยางการใชงานในสวนทายสด
E
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
เมนดานบนของหนาตาง Design มรายละเอยดดงนครบ
13
เมนสำหรบการสรางโพรเซสใหม
เมนสำหรบการโหลดไฟลตางๆ จาก Repository
เมนสำหรบการบนทกโพรเซส หรอบนทกโพรเซสเปนชอใหม
เมนสำหรบการทำ undo หรอ redo
เมนสำหรบสงใหโพรเซสทำงาน (run)
เมนสำหรบสงใหโพรเซสยกเลกทำงานชวคราว (stop)
เมนสำหรบปรบเปลยนมมมองของ RapidMiner Studio 7
ba a
b
หนา Design แสดงหนาสำหรบการสรางโพรเซส
หนา Results แสดงหนาผลลพธการทำงาน
เมนสำหรบแสดงวธการใชงานในรปแบบตางๆ
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
4. การจดการขอมลใน RapidMiner Studio 7
RapidMiner Studio 7 สามารถ import ขอมลประเภทตางๆ เขาไปใชงานได เชน ประเภท
CSV หรอ Excel โดยขอมลเหลานจะเกบไวใน Repository ทสรางไว ในบทนเราจะสราง Repository สำหรบเกบขอมลและโพรเซสทเราสรางขนไวครบ ขนตอนการสราง Repository มดงตอไปนครบ
• คลกทไอคอน หลงจากนนเลอกเมน Create repository
• เลอก New local repository
• กดปม Next
14
1
1
2
3
2
3
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
• เปลยนชอ Alias เปน Chapter1
• คลกทปม Finish
หลงจากนนจะเหน Chapter1 ใหมเพมขนมาในสวนของ Repository ครบ ในขนตอนถดไปเราจะทำการ import ไฟล Excel ทเปนขอมลการตอบรบโปรโมชนของลกคาแตละรายซงประกอบดวย
• zipcode
• name
• age
• lifestyle
• family status
• car
• sports
• earnings
• label
15
4
5
4
3
Repository ทสรางขนมาใหม
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
5. ตวอยางการสรางโมเดล Decision Tree
ในหวขอนผมจะแนะนำการใชงาน RapidMiner Studio 7 เบองตนเพอสรางโมเดลการจำแนกประเภทขอมล (classification) โดยใชเทคนคทเรยกวา Decision Tree ครบ เทคนคนเปนทนยมใชเนองจากโมเดลทสรางไดสามารถแปลความหมายออกมาไดงายกวาโมเดลอนๆ ผมจะอธบายไปทละขนตอนและถาสวนไหนมความรเพมเตมทควรทราบผมกจะอธบายเพมในสวน “ขอมลเพมเตม (More Information)” ครบ เรามาเรมกนเลยดกวานะครบ
ในสวน Repository คลกทปม
เนองจากเราตองการอานขอมลจากไฟลประเภท Excel ดงนนคลกทปม
เลอกไฟล customer_response.xlsx และกดปม Next เพอไปขนตอนตอไป (สามารถดาวนโหลดไดจากเวบไซต http://dataminingtrend.com/2014/rapidminer-studio/chapter1/)
16
1
2
2
3
3
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
ขนตอนนเราสามารถเลอก Worksheet ของไฟล Excel และและ cell ทเราตองการ import ขอมลเขาไปได สำหรบตวอยางนเราไมตองทำอะไรครบ เพราะมแค Worksheet ทชอวา RapidMiner Data เพยงอนเดยวและขอมลทงหมดไดเลอกไวแลวครบ ใหคลกท ปม Next ไดเลยครบ
หนาจอถดมาจะแสดงประเภทของขอมลและหนาทของแตละแอตทรบวตครบ สำหรบขอมลนมขอทตองแกไขเนองจากขอมล zip code ทเปนรหสไปรษณยในทนแสดงเปนตวเลขทงหมดทำให
ซอฟตแวรมองวาเปนขอมลประเภทตวเลข แตจรงๆ เราตองการใหเปนขอมลประเภท นอมนอล (nominal) (ใน RapidMiner Studio 7 จะเรยกขอมลทเปนประเภท categorical วาเปน nominal ครบ) ดงนนคลกทรปเฟองในสวนของแอตทรบวต zip code และเลอกเมน Change Type และเลอกเปนประเภท polynominal ครบ (polynominal คอ ขอมลทมคาแตกตางกนมากกวา 2 คา)
17
3
4
4.1
คลกขวาทแอตทรบวต zip code
4.2 4.3
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
ในขนตอนถดมาเราจะทำการเปลยนหนาทของแอตทรบวต label ใหเปนประเภทลาเบล (label) โดยการคลกขวาทแอตทรบวต label และเลอกเมน Change Role หลงจากนนหนาตางกำหนดหนาทของแอตทรบวตจะแสดงขนมาใหเราเลอกเปน label รายละเอยดของแอตทรบวตตางๆ อธบายในสวนของ ขอมลเพมเตม 1-1 เรองของแอตทรบวต ครบ
18
ขอมลเพมตม 1-1 เรองของแอตทรบวต ในหวขอนจะแนะนำคำศพทเกยวกบขอมลทนำเขามาใชงานใน RapidMiner Studio 7 โดยปกตแลว
ขอมลทเรามกจะนำมาวเคราะหจะอยในรปแบบของตารางดงในรปดานลางน
ในแตละคอลมนของตารางนจะเรยกวา แอตทรบวต (attribute) และแตละแถวของตารางจะเรยกวา
ตวอยาง (example) เราสามารถแบงแยกแอตทรบวตออกตามหนาทการใชงานไดเปน 2 แบบหลกคอ
1. แอตทรบวตทวไป (attribute) เปนแอตทรบวตปกตทจะใชในการสรางโมเดลหรอเรยกวาเปน
ฟเจอร (feature) หรอตวแปรตน (independent variable)
2. ลาเบล (label) แบบนจะเปนแอตทรบวตขนดพเศษทมกจะใชแสดงคำตอบของสงทเรา
ตองการจะสรางโมเดลมาทำนาย หรอ เรยกวา คลาส (class) หรอตวแปรตาม (dependent
variable)
zip code name age lifestyle family status play50168 Tom 62 cozily married no response66479 Jane 34 active married no response16592 Mark 69 healthy single response50068 Jimmy 57 cozily married response
แอตทรบวตทวไป ลาเบล
5
5
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
หลงจากนนแอตทรบวต label จะเปลยนเปนสเขยวเพอแสดงวาเปนแอตทรบวตทมหนาทเปนประเภทลาเบล หลงจากนนกดปม Next เพอไปขนตอนสดทายของการ import ไดเลยครบ
ขนตอนสดทายของการ import คอตงชอของชดขอมลนครบ ซงเราจะบนทกเปนชอวา customer_response และเกบไวใน repositoy Chapter1 ทเราไดทำการสรางไวครบ
19
แสดงแอตทรบวตประเภทลาเบล
6
7.1
7.2
7
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
ขอมลท import เขาไปแลวจะแสดงใหเหนในหนาตาง Result ครบ
จากรปจะแสดงตารางขอมลท import เขามาและใชในการสรางโมเดล Decision Tree นอกจากนในหนาจอนยงมอกหลายสวนซงจะอธบายอยางละเอยดใน บทท 2 การจดการขอมล แตในบทนจะขออธบายสวนสำคญหลกๆ 4 สวนดงนครบ
แสดงจำนวนตวอยางและแอตทรบวตทปรากฏในขอมลซงในไฟลตวอยางนมจำนวน 100 ตวอยาง 1 แอตทรบวตประเภทลาเบลและ 8 แอตทรบวตทวไป
สวนการกรองขอมล (filter) ซงมใหเลอกไดวาจะดขอมลทงหมด หรอขอมลทมความผดพลาดอย เปนตน
ในสวนของตารางนเราสามารถคลกทชอแอตทรบวตเพอทำการเรยงลำดบขอมลได โดยตารางขอมลจะแบงแอตทรบวตออกเปน 2 แบบ คอ
• แอตทรบวตทเปนลาเบลแสดงดวยคอลมนสเขยว
• แอตทรบวตทวไปแสดงดวยคอลมนทเปนสเทา
20
8
A B
C
A
B
C
D
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
แสดงคาสรปทางสถตของแอตทรบวตตางๆ เมอคลกทไอคอนนแลวหนาจอจะเปลยนไปแสดงดงในรปซงแสดงคาทางสถตของขอมลทอยในแตละแอตทรบวต โดยจะแสดงชอ ประเภทของขอมลทเกบอย กราฟแสดงคาความถของคาขอมลในแตละแอตทรบวต (รายละเอยดตดตามไดใน บทท 2 การจดการขอมล)
ขนตอนถดมาใหลากขอมล customer_response จากสวน Repository มาวางไวในสวน Process กอนครบ
21
D
9
9.1
9.2
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
สำหรบการสรางโมเดล Decision Tree ทำไดโดยการเลอก โอเปอเรเตอร Decision Tree จากสวนของ Operators เราสามารถหาโอเปอเรเตอรนไดโดยการพมพคำวา Decision Tree ในสวนของการคนหา (search) และกดปม Enter หลงจากนนโปเปอเรเตอร Decision Tree จะแสดงขนมาหรอจะเลอกจากหมวด Modeling > Classification and Regression > Tree Induction กไดครบ
ลากโอเปอเรเตอร Decision Tree มาวางในสวนของ Process และลากเสนเชอมจากพอรตทชอ
วา out (ซงยอมาจากคำวา output) ของโอเปอเรเตอร Retreive ไปยงพอรตทชอวา tra (ยอมาจากคำวา training) ของโอเปอเรเตอร Decision Tree เพอเปนการสงขอมลไปสรางโมเดล
หลงจากนนลากเสนเชอมจากพอรต mod (ยอมาจาก model) และพอรต exa (ยอมาจาก example) ของโอเปอเรเตอร Decsion Tree ไปยงพอรต res (ยอมาจาก result) ทงสองพอรตของ Main Process เพอไปแสดงในสวนของหนาจอผลลพธโดยพอรต mod จะทำการสงโมเดล
22
11
10
10.1
10.2
11.1
11.2
12
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
Decision Tree ทสรางไดออกไปแสดงในรปตนไม และพอรต exa จะสงขอมลท import เขามา ไปแสดงในรปแบบตาราง
คลกปม Run เพอสงใหโพรเซสทำงานครบ
หลงจากนน RapidMiner Studio 7 จะทำการสรางโมเดลและแสดงออกมาในหนาตาง Results ดงนครบ
23
12
13
13
(data)3 base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Data Mining with RapidMiner Studio 7
โมเดลของ Decision Tree ทสรางไดจะปรากฏขนมาดงแสดงในรปโดยในแทบนสวนสำคญทขออธบาย 3 สวนดงนครบ
• ในโมเดล Decision Tree จะมโหนดตางๆ อย 2 ประเภทคอ
• โหนดทเปนแอตทรบวตแสดงดวยรปสเหลยมทมมมโคง
• โหนดลาเบลแสดงดวยรปสเหลยมทมกราฟแสดงสตางๆ อยดวย ในตวอยางนม 2 ลาเบล คอ response และ no response ถาโมเดลตอบวาเปน response จะมกราฟสแดงปรากฏอยและ no response จะมกราฟสนำเงนปรากฏอยดวย
• สวนของ Zoom จะใชสำหรบการยอ (zoom out) หรอขยาย (zoom in) ครบ
• สวนของ Mode จะใชสำหรบปรบโหมดของการใชงานเมาส ซงม 2 โหมด คอ
• Transform mode โดยโหมดนเปนการใชเมาสในการเลอนตำแหนงของ Decision Tree ทงตน
• Picking mode โดยโหมดนเปนการใชเมาสเพอทำการลากโหนดทตองการเพอขยายให Decision Tree ดไดงายขน
6. เอกสารอางอง
• Foster Provost and Tom Fawcett, Data Science for Business What you need to know about data mining and data-analytic thinking, O'Reilly Media, July 2013
• Rapid-I, RapidMiner 5.0 Manual, 2010
หมายเหต
บทความนยนดใหแจกจายหรอสงตอไดแตขอสงวนลขสทธ ตาม พ.ร.บ. ลขสทธ พ.ศ. 2537 หามลอกเลยนแบบไมวาสวนหนงสวนใดของหนงสอ/เอกสารเลมน นอกจากจะไดรบอนญาตเปนลายลกษณอกษร
ดร. เอกสทธ พชรวงศศกดา หางหนสวนสามญ ดาตา ควบ
eakasit@datacube.asia http://facebook.com/datacube.th http://www.dataminingtrend.com
24
Recommended