33
Chapter 3 Data Preprocessing 01/06/57 1 Data Preprocessing โดย ผศ.วิภาวรรณ บัวทอง

Chapter 3 Data Preprocessing · Data Cleaning 5 Data Preprocessing โดย ผศ.วิภาวรรณ บัวทอง 01/06/57 Real-world data tend to be incomplete, noisy

  • Upload
    others

  • View
    53

  • Download
    0

Embed Size (px)

Citation preview

Chapter 3Data Preprocessing

01/06/571 Data Preprocessing โดย ผศ.วภาวรรณ บวทอง

การเตรยมขอมล

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง2

เปนขนตอนกอนท าเหมองขอมล เนองจากขอมลในความเปนจรงอาจยงตองการตรวจสอบความถกตอง ซงอาจมขอมลลกษณะดงน คอ

- ขอมลไมสมบรณ (incomplete data) เชน คาของคณลกษณะขาด หาย(missing value) ขาดคณลกษณะทนาสนใจหรอขาด รายละเอยด ของขอมล - ขอมลรบกวน (noisy data) เชน ขอมลมคาผดพลาด (error) หรอม

คาผดปกต (Outliers) - ขอมลไมสอดคลอง (Inconsistent data) เชน ขอมลเดยวกน แตตง ชอตางกน หรอใชคาแทนขอมลทตางกน

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง3

• Data Cleaning เปนขนตอนส าหรบการคดขอมลทเปนสวนรบกวนหรอขอมลทไมเกยวของออกไป

• Data Integration เปนขนตอนการรวมแหลงขอมล ซงมขอมลหลายแหงมารวมไวทเดยวกน

• Data Transformation เปนขนตอนการแปลงขอมลในขนตอนการคดเลอก ใหเหมาะส าหรบขนตอนการท าเหมองขอมล

• Data Reduction เปนขนตอนการลดมตขอมล เพอเปนตวแทนจ านวนขอมลทงหมด

Data Preprocessing Technique

Forms of data preprocessing

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง4

Data Cleaning

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง5

Real-world data tend to be incomplete, noisy and inconsistent. Data cleaning(or data cleansing) routines attempt to

fill in missing values, smooth out noise while identifying outlier and correct inconsistencies in the data.

วธการจดการคาทขาดหาย

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง6

ถานกศกษา เปนผจดการของบรษทแหงหนง และตองการวเคราะหขอมลการขายสนคา และขอมลของลกคา นกศกษา พบวา มหลายๆรายการ ไมมการบนทกคาในแตละ

ฟลด หรอ แอททรบวต เชน ไมมการบนทกขอมลรายไดของลกคา ค าถาม ???

นกศกษาจะมวธการจดการคาทขาดหายเหลานไดอยางไร

วธการจดการคาทขาดหาย

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง7

1. Ignore the tuple ตดทงรายการทมขอมลสญหาย นยมใชกบการท าเหมองขอมล

แบบจ าแนกประเภท (Classification) ในกรณทคาคณลกษณะขาดหายไปเปนจ านวนมาก

2. Fill in the missing value manuallyเตมคาทขาดหายดวยมอ วธนไมเหมาะสมกรณทชดขอมลมขนาดใหญ และมขอมลขาดหายจ านวนมาก

3. Use a global constant to fill in the missing valueเตมคาคณลกษณะของขอมลทขาดหายทกคา ดวยคาคงทคาหนง เชน ไมรคา หรอ unknown

วธการจดการคาทขาดหาย (ตอ)

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง8

4. Use the attribute mean to fill in the missing valueใชคาเฉลยของคณลกษณะ เตมคาขอมลทขาดหาย เชน ถาทราบวาลกคาทรายไดเฉลยเดอนละ 12,000 บาท จะใชคานแทนคารายไดของลกคาทขาดหาย

5. Use the attribute mean for all samples belonging to the same class as the given tupleใชคาเฉลยคณลกษณะของตวอยางทจดอยในประเภทเดยวกน เพอเตมคาขอมลทขาดหาย เชน เตมคารายไดของลกคาทขาดหาย ดวยคาเฉลยของลกคาทอยในกลมอาชพ เดยวกน

วธการจดการคาทขาดหาย (ตอ)

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง9

6. Use the most probable value to fill in the missing value ใชคาทเปนไปไดมากทสด เตมแทนคาขอมลทขาดหาย เชน คาทไดจากสมการความถดถอย (Regression) คาทไดจากการอนมาน โดยใชสตรของเบย (Bayesian formula) หรอตนไมตดสนใจ (Decision tree) เชน ใชขอมลลกคา มาสรางตนไมตดสนใจ เพอท านายรายไดของลกคา แลวน าไปแทนคาทขาดหาย วธนนยมกนแพรหลาย เนองจากท านายคาขอมลทขาดหาย โดยพจารณาจากคาของขอมลชดปจจบน และความสมพนธระหวางคณลกษณะในชดขอมล

ขอมลรบกวน (Noisy data)

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง10

ขอมลรบกวน เปนขอมลทมความผดพลาดแบบสม หรอคลาดเคลอนจากการวด สาเหตของความผดพลาด อาจสบเนองมาจาก

- อปกรณเกบรวบรวมขอมลท าหนาทผดพลาด

- ปญหาการบนทกหรอปอนคาขอมล - ปญหาการสงขอมล (data transmission) ผดพลาด

- ขอจ ากดทางเทคโนโลย เชน ขอจ ากดของขนาดบฟเฟอร

การจดการขอมลรบกวน

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง11

ท าไดหลายวธ เชน Binning Methods Regression Clustering

Binning Methods

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง12

การปรบขอมลใหเรยบดวยวธการแบบ binning ท าโดยเรยงล าดบขอมล แลวใชหลกการตดแบง (partition) แบงขอมลออกเปนสวนแตละสวนเรยกวา bin แลวท าการปรบเรยบขอมลในแตละ bin โดยใชการปรบเรยบขอมลแบบทองถน (local smoothing) โดยใชคาทไดจากเพอนบานใกลเคยง (neighborhood) ใน bin หรอ bucket เดยวกนเชน คาเฉลยของ bin (bin means) คากลางของ bin (bin medians) หรอคาขอบของ bin (bin boundaries)

Binning methods for data smoothing

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง13

Regression

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง14

วธความถดถอย ใชการท านายคาของตวแปรจากสมการความถดถอยทหาได ดวยวธความผดพลาดนอยทสด (Least-square error) จากชดตวอยางตวแปร สมการความถดถอยแบงเปนความสมพนธระหวาง 2 ตวแปร หรอมากกวา ไดแก

- ความถดถอยเชงเสน (Linear Regression)- ความถดถอยพหเชงเสน (Multiple Linear Regression)

ความถดถอยเชงเสน (Linear Regression)

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง15

Regression method เปนวธการอธบาย (explanatory) โดยมตวแปรอนทสมพนธกบตวแปรทเราตองการพยากรณ และสามารถสราง model เพอแสดงความสมพนธนนได

สมการความถดถอยเชงเสน เขยนในรปสมการ

1

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง16

ถาก าหนด D แทนเซตของขอมลทประกอบดวยคาตวแปร x ทสมพนธกบคาตวแปร y ซงแทนดวยคล าดบ (x1,y1),(x2,y2),..,(xD,yD)

คาสมประสทธความถดถอย หาไดจากสมการ

3

2

ความถดถอยเชงเสน (Linear Regression) (ตอ)

Example

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง17

Straight-line regression using a method of least squares. Table 3.1 shows a set of paired data where x is a number of years of work experience of a college graduate and y is a salary

Table 3.1

Example (ตอ)

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง18

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง19

Example (ตอ)

Clustering

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง20

การวเคราะหการจดกลม จะชวยตรวจหา และก าจดคาทผดปกต เชน คาทสงหรอต ากวาปกต จะไมสามารถจดอยในกลมใดๆ และตกอยนอกกลมOutliers may be detected by clustering, where similar

values are organized into groups, or “clusters.” Intuitively, values that fall outside of the set of clusters may be considered outliers (Figure 3.2)

Clustering (ตอ) –เทคนคทใชจะกลาวถงในบทถดไป-

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง21

Figure 3.2

Data Integration

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง22

เปนการรวบรวมขอมลจากแหลงทเกบตางๆมาไวทเดยวกน การผสานขอมลจากแหลงตางๆ เพอชวย

1. ลดหรอหลกเลยงความซ าซอนของขอมล (Data Redundancies) ซงจะน าไปสปญหาความไมสอดคลองกนของขอมล (Data inconsistencies)2. เพมความเรวและคณภาพในการท าเหมองขอมล

Process of Data Integration

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง23

การผสานโครงสรางการเกบขอมล (Schema Integration) โดยใช metadata ชวยในการบงช entities ในแหลงเกบขอมลตางๆ เชน คณลกษณะ Cusid ในแหลงขอมล A เปนคณลกษณะเดยวกบ CustNumber ในแหลงขอมล B หรอไม

ตรวจหาและแกไข คาขอมลทขดแยง เชน คาคณลกษณะเดยวกน แตใชหนวยวดตางกน ในแตละแหลงขอมล

การก าจดคาขอมลซ าซอน เชน คาคณลกษณะในแหลงขอมลหนง อาจเปนคาทไดจากการค านวณในอกแหลงขอมลหนง อาท คารายไดรายป

คาสหสมพนธ เปน 0 หมายถง ตวแปรทงสองเปนอสระ ไมมความสมพนธ ระหวางกน

Data Transformation

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง24

การแปลงขอมลทพบบอยในการท าเหมองขอมลคอ การท านอรมอลไลซ (Normalization) โดยแปลงคาขอมลใหอยในชวงสนๆ ทอลกอรทมการท าเหมองขอมลสามารถน าไปใชประมวลผลได วธการท านอรมอลไลซขอมลไดแก Min-Max Normalization

Decimal ScalingZ-Score

Min-Max Normalization

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง25

เปนการแปลงขอมลเชงเสนจากชวงทเปนไปไดเดมของคาอนพต ใหเปนชวงขอมลใหมทก าหนด ปกต ชวง 0-1

สมมตให v คอคาคณลกษณะเดม v’ คอคาคณลกษณะใหม minA , maxA คอคาต าสดและสงสดเดมของคณลกษณะ A

new_nimA , new_maxA คอคาต าสดและสงสดใหมของ คณลกษณะ Aไดสตร

Example

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง26

Z-Score

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง27

เปนการปรบการกระจายของขอมลใหมคาเทากบ 0 และคาเบยงเบนมาตรฐานเทากบ 1

หาไดจากสตร

Example

Decimal scaling

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง28

เปนการแปลงคาขอมลเดมใหเปนเลขทศนยม ต าแหนงทศนยมก าหนดโดยคาสมบรณทมคามากทสด เชน คาทเปนไปไดของคณลกษณะ A อยในชวงระหวาง -999 ถง 997 จะไดวาคาสมบรณทมากทสด คอ |-999| = 999 ดงนนเราจะหารขอมลแตละคาดวย 1000 ผลลพธคอคา -999 จะถกแปลงเปน -0.999

Example

Data Reduction

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง29

คลงขอมลเกบขอมลจ านวนมาก ขนาดเปน เทราไบต ดงนนการวเคราะห หรอการท าเหมองขอมลทซบซอน ตองใชเวลานานในการประมวลผลขอมลปรมาณมากๆ

การลดรป เปนการกระท าเพอแทนขอมล ดวยรปแบบกะทดรด กนเนอทนอยกวา แตสามารถน าไปใชวเคราะห แลวเกดผลลพธทเทากนหรอเทยบเทากน กบการวเคราะหจากขอมลทงหมด

Technique of Data Reduction

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง30

Data Aggregation

Dimensionality Reduction

Numerosity Reduction Discretization and Concept Hierarchy Generation

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง31

แบบฝกหด

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง32

1. ก าหนดขอมลทน ามาวเคราะห ประกอบดวยแอททรบวตอาย (age) ในแตละ เรคอรดประกอบดวยคาของแอททรบวต age ดงน 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70 (a) ใชเทคนค min-max normalization เพอแปลงคาอาย 35 ป ใหอยในชวง ตวเลข [0:0;1:0] (b) ใชเทคนค z-score normalization เพอแปลงคาอาย 35 ป ก าหนดสวน เบยงเบนมาตรฐานของอายมคาเทากบ 12.94 ป (c) ใชเทคนค decimal scaling เพอแปลงคาอาย 35 ป เปนตวเลขทศนยม

01/06/57Data Preprocessing โดย ผศ.วภาวรรณ บวทอง33

2. ตารางทก าหนดดานลาง แสดงคะแนนสอบกลางภาค และปลายภาค ของนกศกษากลมหนง

a) ใชวธการของ least squares เพอสรางสมการส าหรบท านายคะแนนปลายภาค เมอก าหนดคะแนนกลางภาคมาให

- ถานกศกษาคนหนงไดคะแนนกลางภาค86 คะแนน เขาจะไดคะแนนปลายภาคก

คะแนน