Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Data Mining
Chapter3 Data Preprocessing
2
Why Data Preprocessing ?
CRISP-DM = Cross-Industry Standard Process for Data Mining
• Workflow มาตรฐานส าหรบการท า DM • ประกอบดวย 6 ขนตอน • พฒนาโดย บรษท DaimlerChryler, SPSS,NCR
Business Understanding + Data Understanding + Data Preparation ใชเวลาถง 80% ของทงหมด
2
3
เปนขนตอนกอนท ำเหมองขอมล เนองจำกขอมลในควำมเปนจรงมควำมบกพรอง คอ
- ขอมลไมสมบรณ (incomplete data) เชน คำของคณลกษณะขำดหำย
(missing value) ขำดคณลกษณะทนำสนใจหรอขำดรำยละเอยดของขอมล
- ขอมลรบกวน (noisy data) เชน ขอมลมคำผดพลำด (error) หรอมคำ
ผดปกต (Outliers)
- ขอมลไมสอดคลอง (Inconsistent data) เชน ขอมลเดยวกน แตตงชอตำงกน หรอ
ใชคำแทนขอมลทตำงกน
กำรเตรยมขอมล
4
Data Cleaning Data Integration Data Transformation Data Reduction
Data Preprocessing Technique
5 Forms of data preprocessing 5
6
Real-world data tend to be incomplete, noisy and incosistent.
Data cleaning(or data cleansing) routines attempt to fill in missing values, smooth out noise while identifying outlier and correct inconsistencies in the data.
Data Cleaning
7
ถำนกศกษำ เปนผจดกำรของบรษทแหงหนง และตองกำรวเครำะหขอมล
กำรขำยสนคำ และขอมลของลกคำ
นกศกษำ พบวำ มหลำยๆรำยกำร ไมมกำรบนทกคำในแตละฟลด หรอ แอททรบวต เชน ไมมกำรบนทกขอมลรำยไดของลกคำ
ค ำถำม ???
นกศกษำจะมวธกำรจดกำรคำทขำดหำยเหลำนไดอยำงไร
กำรจดกำร missing value
8
1. Ignore the tuple 2. Fill in the missing value manually 3. Use a global constant to fill in the missing value 4. Use the attribute mean to fill in the missing value 5. Use the attribute mean for all samples belonging to the
same class as the given tuple 6. Use the most propable value to fill in the missing value
วธกำรจดกำรคำทขำดหำย
9
ตดทงรำยกำรทมขอมลสญหำย นยมใชกบกำรท ำเหมองขอมลแบบจ ำแนกประเภท (Classification) ในกรณทคำคณลกษณะขำดหำยไปเปนจ ำนวนมำก
Ignore the tuple
10
เตมคำทขำดหำยดวยมอ วธนไมเหมำะสมกรณทชดขอมลมขนำดใหญ และมขอมลขำดหำยจ ำนวนมำก
Fill in the missing value manually
11
เตมคำคณลกษณะของขอมลทขำดหำยทกคำ ดวยคำคงทคำหนง เชน ไมรคำ หรอ unknown
Use a global constant to fill in the missing value
12
ใชคำเฉลยของคณลกษณะ เตมคำขอมลทขำดหำย เชน ถำทรำบวำลกคำทรำยไดเฉลยเดอนละ 12,000 บำท จะใชคำนแทนคำรำยไดของลกคำทขำดหำย
Use the attribute mean to fill in the missing value
13
ใชคำเฉลยคณลกษณะของตวอยำงทจดอยในประเภทเดยวกน เพอเตมคำขอมลทขำดหำย เชน
เตมคำรำยไดของลกคำทขำดหำย ดวยคำเฉลยของลกคำทอยในกลมอำชพ เดยวกน
Use the attribute mean for all samples belonging to the same class as the given tuple
14
ใชคำทเปนไปไดมำกทสด เตมแทนคำขอมลทขำดหำย เชน คำทไดจำกสมกำรควำมถดถอย (Regression) คำทไดจำกกำรอนมำน โดยใชสตรของเบย (Bayesian formula) หรอตนไมตดสนใจ (Decision tree) เชน
ใชขอมลลกคำ มำสรำงตนไมตดสนใจ เพอท ำนำยรำยไดของลกคำ แลวน ำไปแทนคำทขำดหำย
วธนนยมกนแพรหลำย เนองจำกท ำนำยคำขอมลทขำดหำย โดยพจำรณำจำกคำของขอมลชดปจจบน และควำมสมพนธระหวำงคณลกษณะในชดขอมล
Use the most propable value to fill in the missing value
15
ขอมลรบกวน เปนขอมลทมควำมผดพลำดแบบสม หรอคลำดเคลอนจำกกำรวด สำเหตของควำมผดพลำด อำจสบเนองมำจำก
- อปกรณเกบรวบรวมขอมลท ำหนำทผดพลำด - ปญหำกำรบนทกหรอปอนคำขอมล - ปญหำกำรสงขอมล (data transmission)ผดพลำด - ขอจ ำกดทำงเทคโนโลย เชน ขอจ ำกดของขนำดบฟเฟอร
ขอมลรบกวน (Noisy data)
16
ท ำไดหลำยวธ เชน Binning Methods Regression Clustering
กำรจดกำรขอมลรบกวน
17
กำรปรบขอมลใหเรยบดวยวธกำรแบบ binning ท ำโดย
-เรยงล ำดบขอมล แลวใชหลกกำรตดแบง (partition) แบงขอมลออกเปนสวนแตละสวนเรยกวำ bin แลวท ำกำรปรบขอมลในแตละ bin โดยใชคำทไดจำกเพอนบำนใกลเคยง (neighborhood) ใน bin หรอ bucket เดยวกนเชน คำเฉลยของ bin (bin means) คำกลำงของ bin (bin medians) หรอคำขอบของ bin (bin boundaries)
Binning Methods
18 Binning methods for data smoothing.
19
วธควำมถดถอย ใชกำรท ำนำยคำของตวแปรจำกสมกำรควำมถดถอยทหำได ดวยวธควำมผดพลำดนอยทสด (Least-square error) จำกชดตวอยำงตวแปร สมกำรควำมถดถอยแบงเปนควำมสมพนธระหวำง 2 ตวแปร หรอมำกกวำ ไดแก
- ควำมถดถอยเชงเสน (Linear Regression)
- ควำมถดถอยพหเชงเสน (Multiple Linear Regression)
Regression
20
ควำมถดถอยเชงเสน (Linear Regression)
Regression method เปนวธกำรอธบำย (explanatory) โดยมตวแปรอนทสมพนธกบตวแปรทเรำตองกำรพยำกรณ และสำมำรถสรำง model เพอแสดงควำมสมพนธนนได สมกำรควำมถดถอยเชงเสน เขยนในรปสมกำร y = w0 + w1x 1
21
ถำก ำหนด D แทนเซตของขอมลทประกอบดวยคำตวแปร x ทสมพนธกบ คำตวแปร y ซงแทนดวยคล ำดบ (x1,y1),(x2,y2),..,(xD,yD) คำสมประสทธควำมถดถอย หำไดจำกสมกำร
3
2
22
Straight-line regression using the method of least square. Table below shows a set of paired data where x is a number of years of work experience of a college graduate and y is the number of salary .
Example
X years experience Y salary (in $1000s)
3 30
8 57
9 64
13 72
3 36
6 43
11 59
21 90
1 20
16 83 22
23
Although the points do not fall on a straight line, the overall pattern suggests a linear relationship between x (years experience) and y (salary)
24
25
กำรวเครำะหกำรจดกลม จะชวยตรวจหำ และก ำจดคำทผดปกต เชน คำทสงหรอต ำกวำปกต จะไมสำมำรถจดอยในกลมใดๆ และตกอยนอกกลม
Clustering
26
Outliers may be detected by clustering, where similar values are organized into groups, or “clusters.” Intuitively, values that fall outside of the set of clusters may be considered outliers (Figure 2.12)
27
28
เปนกำรรวบรวมขอมลจำกแหลงทเกบตำงๆมำไวทเดยวกน กำรผสำนขอมลจำกแหลงตำงๆ เพอชวย
1. ลดหรอหลกเลยงควำมซ ำซอนของขอมล (Data Redundancies) ซงจะ
น ำไปสปญหำควำมไมสอดคลองกนของขอมล (Data inconsistencies)
2. เพมควำมเรวและคณภำพในกำรท ำเหมองขอมล
กำรผสำนขอมล (Data Integration)
29
กำรผสำนโครงสรำงกำรเกบขอมล (Schema Integration) โดยใช metadata ชวยในกำรบงช entities ในแหลงเกบขอมลตำงๆ เชน คณลกษณะ Custid ในแหลงขอมล A เปนคณลกษณะเดยวกบ CustNumber ในแหลงขอมล B หรอไม
ตรวจหำและแกไข คำขอมลทขดแยง เชน คำคณลกษณะเดยวกน แตใชหนวยวดตำงๆกน ในแตละแหลงขอมล
กำรก ำจดคำขอมลซ ำซอน เชน คำคณลกษณะในแหลงขอมลหนง อำจเปนคำทไดจำกกำรค ำนวณในอกแหลงขอมลหนง อำท คำรำยไดรำยป
คำสหสมพนธ เปน 0 หมำยถง ตวแปรทงสองเปนอสระ ไมมควำมสมพนธ ระหวำงกน
งำนทตองท ำในกำรผสำนขอมล
30
กำรแปลงขอมลทพบบอยในกำรท ำเหมองขอมลคอ กำรท ำนอรมอลไลซ (Normalization) โดยแปลงคำขอมลใหอยในชวงสนๆ ทอลกอรทมกำรท ำเหมองขอมลสำมำรถน ำไปใชประมวลผลได
วธกำรท ำนอรมอลไลซขอมลไดแก Min-Max Normalization Decimal Scaling Z-Score
กำรแปลงขอมล (Data Transformation)
31
เปนกำรแปลงขอมลเชงเสนจำกชวงทเปนไปไดเดมของคำอนพต ใหเปนชวงขอมลใหมทก ำหนด ปกต ชวง 0-1
สมมต v คอคำคณลกษณะเดม v’ คอคำคณลกษณะใหม minA , maxA คอคำต ำสดและสงสดเดมของคณลกษณะ A new_minA , new_maxA คอคำต ำสดและสงสดใหมของคณลกษณะ A
Min-Max Normalization
จะไดวำ
32
Example
- Min-max normalization. Suppose that the minimum and maximum values for the attribute income are $12,000 and $98,000 respectively. We would like to map income to the range [0.0, 1.0]. By min-max normalization, a value of $73,600 for income is transformed
to 73,600−12,000
98,000−12,000 (1.0 - 0)+0 = 0.716
33
เปนกำรปรบกำรกระจำยของขอมลใหมคำเทำกบ 0 และคำเบยงเบนมำตรฐำนเทำกบ 1
หำไดจำกสตร
Z-Score
34
Example Z-score normalization
Suppose that the mean and standard deviation of the values for
the attribute income are $54,000 and $16,000 respectively.
With z-score normalization,a value of $73,600 for income is
transformed to 73,600−54,00016,000 = 1.225
35
เปนกำรแปลงคำขอมลเดมใหเปนเลขทศนยม ต ำแหนงทศนยมก ำหนดโดยคำสมบรณทมคำมำกทสด เชน คำทเปนไปไดของคณลกษณะ A อยในชวงระหวำง -999 ถง 997 จะไดวำคำสมบรณทมำกทสดคอ |-999| = 999 ดงนนเรำจะหำรขอมลแตละคำดวย 1000 ผลลพธคอคำ -999 จะถกแปลงเปน -0.999
Decimal scaling
36
Example Decimal scaling
37
กำรลดรปขอมล (Data Reduction)
• คลงขอมลเกบขอมลจ ำนวนมำก ขนำดเปน เทรำไบต ดงนนกำรวเครำะห หรอกำรท ำเหมองขอมลทซบซอน ตองใชเวลำนำนในกำรประมวลผลขอมล ปรมำณมำกๆ • กำรลดรป เปนกำรกระท ำเพอแทนขอมล ดวยรปแบบกะทดรด กนเนอท นอยกวำ แตสำมำรถน ำไปใชวเครำะห แลวเกดผลลพธทเทำกนหรอเทยบเทำ กน กบกำรวเครำะหจำกขอมลทงหมด
38
วธกำรในกำรลดรปขอมล
• Data Aggregation • Dimensionality Reduction • Numerosity Reduction • Discretization and Concept Hierarchy Generation
39
เปนกำรลดรปขอมลทมกพบใน Data Cube ซงเปนแบบจ ำลองขอมลหลำยมต (Multidimensional data model)
ขอมลรวม (Data Aggregation)
40
41
“Can we reduce the data volume by choosing alternative, ‘smaller’ forms of data representation?” Techniques of numerosity reduction can indeed be applied for this purpose. กำรลดรปขอมลโดยใชเทคนคน ม 2 ประเภทคอ 1. Parametic Methods 2. Non-Parametic Methods
Numerosity Reduction
42
Parametric Methods
มสมมตฐำนวำ สำมำรถสรำงแบบจ ำลองทเหมำะเขำกบขอมลได จะท ำ กำรประมำณคำพำรำมเตอรของแบบจ ำลอง จดเกบเฉพำะคำพำรำมเตอร วธกำรแบบนไดแก กำรสรำงแบบจ ำลองขอมลดวยวธควำมถดถอย ซงใชเทคนคทำงสถต ในกำรประมำณคำตวแปรตำม
43
Non-Parametric Methods
วธนไมไดสรำงแบบจ ำลองขอมล แตจะใชเครองมอ เชน แผนภำพ ฮสโตแกรม (Histogram) หรอวธกำรจดกลม (Clustering) แสดงกำร กระจำยของขอมล และเกบคำตวแทนกลม แทนคำขอมลจรง หรอ อำจใชวธทำงสถต เชน กำรสมตวอยำง (Sampling)
44
การท าใหขอมลเปนแบบไมตอเนอง (Discretization)
คำ Attribute ของขอมลสำมำรถแบงไดเปน 3 ประเภท ไดแก 1. Nominal / Categorical 2. Ordinal 3. Continuous
กำรท ำใหขอมลเปนแบบไมตอเนอง เปนกำรลดรปขอมลเลขจ ำนวนจรง โดยแบงคำขอมลดบออกเปนชวง แลวแทนคำแตละชวงดวยคำชวง (Interval Label) เนองจำกอลกอรทมกำรท ำเหมองขอมลบำงอยำง รบเฉพำะขอมลแบบ Categorical
45
ล าดบชนแนวคด (Concept Hierarchy)
สำมำรถลดรปขอมล Categorical หรอขอมลทไมตอเนอง ดวยกำรสรำง ล ำดบชนแนวคด โดยกำรนยำมล ำดบกำรเทยบ (mapping) กลมแนวคดใน ระดบลำง ไปส แนวคดในระดบทสงขน แนวคด เปนค ำทใชบรรยำยลกษณะกลมของขอมล ขอมลดบ เชน อำย ซงมหลำกหลำยคำ อำจแทนคำแตละชวงดวยแนวคด เชน วยเยำว วยกลำงคน และวยชรำ
46
ตวอยาง ล าดบชนแนวคดของทอย
Province
City
Community
Street 674,329 distinct value
3,567 distinct value
65 distinct value
15 distinct value
47
1. ก ำหนดขอมลทน ำมำวเครำะห ประกอบดวยแอททรบวตอำย (age) ในแตละ เรคอรดประกอบดวยคำของแอททรบวต age ดงน 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35,
35, 35, 36, 40, 45, 46, 52, 70 (a) ใชเทคนค min-max normalization เพอแปลงคำอำย 35 ป ใหอยในชวง ตวเลข [0:0;1:0] (b) ใชเทคนค z-score normalization เพอแปลงคำอำย 35 ป ก ำหนดสวน เบยงเบนมำตรฐำนของอำยมคำเทำกบ 12.94 ป (c) ใชเทคนค decimal scaling เพอแปลงคำอำย 35 ป เปนตวเลขทศนยม
แบบฝกหด
48
2. ตำรำงทก ำหนดดำนลำง แสดงคะแนนสอบกลำงภำค และปลำยภำค ของนกศกษำกลมหนง
a) ใชวธกำรของ least squares เพอสรำง สมกำรส ำหรบท ำนำยคะแนนปลำยภำค เมอ ก ำหนดคะแนนกลำงภำคมำให - ถำนกศกษำคนหนงไดคะแนนกลำงภำค 85 คะแนน เขำจะไดคะแนนปลำยภำคก คะแนน