229-611 Data Warehousing and Data Mining

Preview:

DESCRIPTION

229-611 Data Warehousing and Data Mining. ผศ.ดร. วิภาดา เวทย์ประสิทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์ ห้อง CS 108 E-mail : wwettayaprasit@yahoo.com Website : http://staff.cs.psu.ac.th/wiphada. วัตถุประสงค์. - PowerPoint PPT Presentation

Citation preview

229-611 Data Warehousing and Data

Mining

ผศ.ดร . วิ�ภาดา เวิทย์ ประสิ�ทธิ์��ภาควิ�ชาวิ�ทย์าการคอมพิ�วิเตอร มหาวิ�ทย์าลั�ย์

สิงขลัานคร�นทร ห อง CS 108 E-mail : wwettayaprasit@yahoo.com

Website : http://staff.cs.psu.ac.th/wiphada

Chapter 12344-662 Data Warehousing and Data Mining

วิ�ตถุ"ประสิงค วิ�ตถุ"ประสิงค 1.  ให้�นั�กศึ�กษามี�ความีรู้� �ความีเข้�าใจเก��ยวก�บการู้

จ�ดการู้เห้มี�องข้�อมี�ลได�2.  ให้�นั�กศึ�กษาสามีารู้ถทำ าเห้มี�องข้�อมี�ลได�3. ให้�นั�กศึ�กษาสามีารู้ถศึ�กษาค�นัคว�าด�วยตนัเอง

เก��ยวก�บการู้ทำ า เห้มี�องข้�อมี�ลได�

Chapter 13344-662 Data Warehousing and Data Mining

เนั�"อห้า• Chapter 1 : Introduction• Chapter 2 : Data Warehouse• Chapter 3 : Data Mining• Chapter 4 : Basic Data Mining Techniques• Chapter 5: Data Mining a Closer Look• Chapter 6 : Cross Validation • Chapter 7 : Decision Tree• Chapter 8 : Association Rules • Chapter 9 : The K- Means Algorithm• Chapter 10 : Neural Networks• Chapter 11 : Statistical Techniques • Chapter 12 : Rule Base System

Chapter 14344-662 Data Warehousing and Data Mining

เอกสิารประกอบการสิอน 1. Data Mining A tutorial-Based Primer, Richard J. Roiger and Michael W. Geatz, Pearson Education Inc., 2003. 2. Mining Very Large Databases with Parallel Processing, Alex A. Freitas and Simon H. Lavington, Kluwer Academic Publishers, 1998. 3. การู้ออกแบบและพั�ฒนัาคล�งข้�อมี�ล (Data Warehouse), ก'ตต' ภั�กด�ว�ฒนัะก*ล, บรู้'ษ�ทำเคทำ�พั� คอมีพั+ แอนัด+ คอนัซั�ลทำ+, 2546 4. ค�มีภั�รู้+รู้ะบบสนั�บสนั*นัการู้ต�ดส'นัใจ และรู้ะบบผู้��เชี่��ยวชี่าญ (Decision Support Systems and Expert Systems), ก'ตต'พังษ+ กลมีกล0อมี, บรู้'ษ�ทำ เคทำ�พั� คอมีพั+ แอนัด+ คอนัซั�ลทำ+, 2546

Chapter 1

Introduction

Chapter 16344-662 Data Warehousing and Data Mining

Content

• Data Warehouse (คล�งข้�อมี�ล)• Data Warehousing (การู้คล�งข้�อมี�ล)• Data Mining (เห้มี�องข้�อมี�ล)

Chapter 17344-662 Data Warehousing and Data Mining

ปั2ญห้าข้องการู้นั าฐานัข้�อมี�ลห้ลายแบบมีารู้วมีก�นั• 1. H/W S/W ห้ลายชี่นั'ด• 2. Data Redundancy เก'ดความีซั "าซั�อนัข้องข้�อมี�ล• 3. Data Inconsistency ข้�อมี�ลไมี0สอดคล�องก�นั• 4. Coding System รู้ะบบการู้ให้�รู้ห้�สเก'ดปั2ญห้า

มีาตรู้าฐานัซั�อนั (Multiple Standard)

• การู้พั�ฒนัารู้ะบบแบบย*�งฉาง (Silo-based System)– งานัใครู้งานัมี�นั

Chapter 18344-662 Data Warehousing and Data Mining

ทำ��มีาข้องคล�งข้�อมี�ล• Business Integration

– ต�องการู้มี�มีาตรู้าฐานัเด�ยวในัการู้เก5บข้�อมี�ลข้ององค+กรู้

• มี� 2 แบบ• 1. Partial Business Integration

– Point to Point Business Integration– Middleware Business Integration

• 2. Overall Business Integration

Chapter 19344-662 Data Warehousing and Data Mining

ทำ��มีาข้องคล�งข้�อมี�ล• 1. Partial Business Integration

– Point to Point Business Integration• เชี่��อมีโยงรู้ะห้ว0างรู้ะบบ 2 รู้ะบบให้�ต'ดต0อก�นัได�• แต0ละรู้ะบบงานัทำ างานัทำดแทำนัก�นัไมี0ได�• มี�ปั2ญห้า Spaghetti Phenomenon

– Middleware Business Integration• มี�กล*0มี H/W S/W ทำ��เปั7นัต�วกลางในัการู้แปัลงและแลกเปัล��ยนั

ข้�อมี�ลรู้ะห้ว0างรู้ะบบงานัต0างๆ • มี�ปัรู้ะส'ทำธิ'ภัาพัมีากข้�"นั

Chapter 110344-662 Data Warehousing and Data Mining

Point to Point Business Integration

Chapter 111344-662 Data Warehousing and Data Mining

ทำ��มีาข้องคล�งข้�อมี�ล• 2. Overall Business Integration

• ออกแบบและพั�ฒนัารู้ะบบให้มี0 โดยรู้วมีเอาเนั�"อห้าข้องข้�อมี�ลทำ�"งห้มีดในัองค+กรู้ให้�เปั7นัห้นั��งเด�ยว ไมี0แยกออกเปั7นัส0วนัๆ

• ห้ลายองค+กรู้เปั7นัรู้ะบบเด�ยว เนั�"อห้าเด�ยวก�นั• Unified Standard• Maximize data consistency• Minimize data redundancy

Chapter 112344-662 Data Warehousing and Data Mining

Data Warehouse (คล�งข้�อมี�ล)

• คล�งข้�อมี�ล ห้มีายถ�ง .... ห้ล�กการู้ห้รู้�อว'ธิ�การู้ เพั��อรู้วมีรู้ะบบ สารู้สเทำศึเพั��อ การู้ปัรู้ะมีวลผู้ลรู้ายการู้ข้�อมี�ลทำ��เก'ดข้�"นั ในัแต0ละว�นัแต0ละสายงานั มีารู้วมีเปั7นัห้นั0วยเด�ยวก�นั

เพั��อสนั�บสนั*นัการู้ต�ดส'นัใจให้�มี�ปัรู้ะส'ทำธิ'ภัาพัมีากย'�งข้�"นั

• คล�งข้�อมี�ล ห้มีายถ�ง.... ข้�อมี�ลในัแห้ล0งข้�อมี�ลห้ลายๆแห้ล0ง เพั��อปัรู้ะกอบการู้ต�ดส'นัใจให้�มี�ปัรู้ะส'ทำธิ'ภัาพัมีากย'�งข้�"นั

• คล�งข้�อมี�ล ไมี0ใชี่0ผู้ล'ตภั�ณฑ์+ ห้รู้�อรู้ะบบส าเรู้5จรู้�ปั• คล�งข้�อมี�ล มี�ความีเปั7นัส0วนัต�วข้องแต0ละองค+กรู้ (Organization Customized System)

Chapter 113344-662 Data Warehousing and Data Mining

ค*ณล�กษณะข้องคล�งข้�อมี�ล

• 1. Subject-Oriented • 2. Integrated • 3. Time-Variant• 4. Non-Volatile

Chapter 114344-662 Data Warehousing and Data Mining

ค*ณล�กษณะข้องคล�งข้�อมี�ล

• 1. Subject-Oriented – ข้�อมี�ลถ�กจ�ดกล*0มีให้�เห้มีาะสมีก�บการู้ส�บค�นั จ�ดตามีปัรู้ะเด5นัห้ล�กข้อง

องค+กรู้ เชี่0นั• ล�กค�า ส'นัค�า ยอดข้าย

– ข้�อมี�ลจะ....ไมี0ถ�กจ�ดตามีห้นั�าทำ��การู้งานั....ข้องโปัรู้แกรู้มีใดโปัรู้แกรู้มีห้นั��ง เชี่0นั

• การู้ควบค*มีคล�งส'นัค�า การู้ออกใบก าก�บภัาษ�

• 2. Integrated – จ�ดข้�อมี�ลให้�อย�0ในัรู้�ปัแบบเด�ยวก�นั จากแห้ล0งข้�อมี�ลห้ลายแห้ล0ง

Chapter 115344-662 Data Warehousing and Data Mining

ค*ณล�กษณะข้องคล�งข้�อมี�ล• 3. Time-Variant

– ข้�อมี�ลต�องมี�ความีถ�กต�อง เพัรู้าะเก5บไว�ใชี่�นัานั - 510 ปั=

• 4. Non-Volatile– การู้ปัรู้�บปัรู้*งข้�อมี�ลเปั7นัการู้เพั'�มีข้�อมี�ลให้มี0เข้�าไปัเรู้��อยๆ ไมี0ใชี่0การู้แทำนัทำ��

ข้�อมี�ลเก0า– ข้�อมี�ลในัคล�งข้�อมี�ล....ไมี0จ าเปั7นั...ต�องทำ าการู้ Normalize เห้มี�อนัในั

ฐานัข้�อมี�ล (Data based)

Chapter 116344-662 Data Warehousing and Data Mining

ข้�อด�ข้องคล�งข้�อมี�ล• 1. ให้�ผู้ลตอบแทำนัในัการู้ลงทำ*นัส�ง• 2. ได�เปัรู้�ยบค�0แข้0ง ว'เครู้าะห้+ข้�อมี�ลเพั��อก าห้นัดเปั7นั

แผู้นักลย*ทำธิ+ได�ก0อนัค�0แข้0ง เชี่0นัพัฤต'กรู้รู้มีผู้��บรู้'โภัค• 3 . เพั'�มีปัรู้ะส'ทำธิ'ภัาพัในัการู้ต�ดส'นัใจ มี�ข้�อมี�ลครู้บ

ถ�วนัจากอด�ตจนัถ�งปั2จจ*บ�นั

Chapter 117344-662 Data Warehousing and Data Mining

ข้�อเส�ยข้องคล�งข้�อมี�ล• 1. ข้�"นัตอนัการู้กรู้องข้�อมี�ลใชี่�เวลานัานั ต�องอาศึ�ยผู้��

ทำ��มี�ความีชี่ านัาญในัการู้กรู้องข้�อมี�ล• 2. แนัวโนั�มีในัการู้กรู้องข้�อมี�ลเพั'�มีมีากข้�"นัเรู้��อยๆ

เพั'�มีความีซั�บซั�อนัให้�กรู้ะบวนัการู้ทำ างานั • 3.ใชี่�เวลานัานัในัการู้พั�ฒนัาคล�งข้�อมี�ล• 4 .รู้ะบบคล�งข้�อมี�ลมี�ความีซั�บซั�อนัส�ง

Chapter 118344-662 Data Warehousing and Data Mining

Data Warehousing (การู้คล�งข้�อมี�ล)

• การู้คล�งข้�อมี�ล ค�อ การู้ออกแบบ และสรู้�างโครู้งสรู้�างข้องข้�อมี�ลในัคล�งข้�อมี�ล รู้วมีถ�ง– ว'ธิ�การู้ได�มีาข้องข้�อมี�ล– ว'ธิ�การู้สรู้�างผู้ลล�พัธิ+จากข้�อมี�ลทำ��มี�– ว'ธิ�การู้ด�แลรู้�กษา และว'ธิ�การู้ปัรู้�บปัรู้*งปัรู้ะส'ทำธิ'ภัาพั

Chapter 119344-662 Data Warehousing and Data Mining

สถาปั2ตยกรู้รู้มีข้องคล�งข้�อมี�ล

• 1. Data Acquisition System

• 2. Data Staging Area

• 3. Data Warehouse Database /Data Store

• 4. Data Provisioning Area /Data Mart

• 5. End User Terminal

• 6. Metadata Repository

Chapter 120344-662 Data Warehousing and Data Mining

สถาปั2ตยกรู้รู้มีข้องคล�งข้�อมี�ล

Chapter 121344-662 Data Warehousing and Data Mining

สถาปั2ตยกรู้รู้มีข้องคล�งข้�อมี�ล

• 1. Data Acquisition System – รู้�บข้�อมี�ลจากภัายนัอก

• 2. Data Staging Area – Data Cleansing ลดความีซั "าซั�อนัข้องข้�อมี�ล– Filtering เล�อกเฉพัาะข้�อมี�ลทำ��มี�ปัรู้ะโยชี่นั+

• 3. Data Warehouse Database /Data Store– Data Model การู้ออกแบบจ าลองข้�อมี�ล – การู้จ�ดเก5บข้�อมี�ล

Chapter 122344-662 Data Warehousing and Data Mining

สถาปั2ตยกรู้รู้มีข้องคล�งข้�อมี�ล• 4. Data Provisioning Area / Data Mart

– การู้รู้ายงานัผู้ลล�พัธิ+ต0างๆทำ��จ าเปั7นัส าห้รู้�บการู้ว'เครู้าะห้+ข้�อมี�ล• 5. End User Terminal

– Simple Report Tool

– Multi Dimensional Tools

– Data Mining Tools

• 6. Metadata Repository – ใชี่�เก5บข้�อมี�ลทำ��ใชี่�ควบค*มีการู้ทำ างานัในัคล�งข้�อมี�ล

Chapter 123344-662 Data Warehousing and Data Mining

การู้ว'เครู้าะห้+ข้�อมี�ลในัคล�งข้�อมี�ล

• 1. Query and Report Generator• 2. Multidimensional Data Analysis• 3. Online Analysis Processing (OLAP)• 4. Data Mining Tools

Chapter 124344-662 Data Warehousing and Data Mining

การู้ว'เครู้าะห้+ข้�อมี�ลในัคล�งข้�อมี�ล

Chapter 125344-662 Data Warehousing and Data Mining

การู้ว'เครู้าะห้+ข้�อมี�ลในัคล�งข้�อมี�ล

Chapter 126344-662 Data Warehousing and Data Mining

Online Analysis Processing (OLAP)• กรู้ะบวนัการู้ปัรู้ะมีวลผู้ลข้�อมี�ลทำางคอมีพั'วเตอรู้+ ทำ��ชี่0วยให้�ว'เครู้าะห้+ข้�อมี�ลในัมี'ต'ต0างๆ

(Multidimensional Data Analysis)

• การู้ด าเนั'นัการู้ก�บ OLAP– 1. Roll up / Consolidation

• การู้ปัรู้�บรู้ะด�บความีละเอ�ยดข้องข้�อมี�ล จากรู้ะด�บทำ��ละเอ�ยด...มีาส�0ทำ��..ห้ยาบข้�"นั– 2. Drill Down

• การู้ปัรู้�บรู้ะด�บความีละเอ�ยดข้องข้�อมี�ล จากรู้ะด�บทำ��ห้ยาบ...ไปัส�0ทำ��.. ละเอ�ยดมีากข้�"นั– 3. Slice

• การู้เล�อกพั'จารู้ณาผู้ลล�พัธิ+บางส0วนัทำ��เรู้าสนัใจ โดยเล�อกเฉพัาะค0าทำ��ถ�กก าก�บด�วยข้�อมี�ลบางค0าข้องแต0ละมี'ต'เทำ0านั�"นั

– 4. Dice • กรู้ะบวนัการู้พัล'กแกนัห้รู้�อมี'ต'ข้องข้�อมี�ล ให้�ตรู้งตามีความีต�องการู้ข้องผู้��ใชี่�งานั

Chapter 127344-662 Data Warehousing and Data Mining

Data Mining (เห้มี�องข้�อมี�ล)

• เห้มี�องข้�อมี�ล เปั7นัเครู้��องมี�อทำ��ชี่0วยให้�ผู้��ใชี่�เข้�าถ�งข้�อมี�ลได�โดยตรู้งจากฐานัข้�อมี�ลข้นัาดให้ญ0

• เห้มี�องข้�อมี�ล เปั7นัเครู้��องมี�อ และ Application ทำ��สามีารู้ถแสดงผู้ลการู้ว'เครู้าะห้+ข้�อมี�ลทำางสถ'ต'ได�

• เห้มี�องข้�อมี�ล ห้มีายถ�งการู้ว'เครู้าะห้+ข้�อมี�ล เพั��อแยกปัรู้ะเภัทำ จ าแนักรู้�ปัแบบและความีส�มีพั�นัธิ+ข้องข้�อมี�ลจากคล�งข้�อมี�ลห้รู้�อฐานัข้�อมี�ลข้นัาดให้ญ0 นั าสารู้สนัเทำศึไปัใชี่�ในัการู้ต�ดส'นัใจธิ*รู้ก'จ

• ได�องค+ความีรู้� �ให้มี0 (Knowledge Discovery)

• อาจอย�0ในัรู้�ปัแบบข้องกฎเกณฑ์+ (Rule)

Chapter 128344-662 Data Warehousing and Data Mining

เทำคนั'คการู้ทำ าเห้มี�องข้�อมี�ล• 1. Classification • 2. Clustering• 3. Association• 4. Visualization

Chapter 129344-662 Data Warehousing and Data Mining

เทำคนั'คการู้ทำ าเห้มี�องข้�อมี�ล• 1. Classification : เทำคนั'คในัการู้จ าแนักกล*0มีข้�อมี�ลด�วยค*ณล�กษณะต0างๆทำ��

ได�มี�การู้ก าห้นัดไว�แล�ว– สรู้�างแบบจ าลองเพั��อการู้พัยากรู้ณ+ค0าข้�อมี�ล (Predictive Model) ในั

อนัาคต เรู้�ยกว0า ......Supervised Learning

– มี� 2 รู้�ปัแบบ• Tree Induction

• Neural Network

• 2. Clustering : เทำคนั'คในัการู้จ าแนักกล*0มีข้�อมี�ลให้มี0ทำ��มี�ล�กษณะคล�ายก�นัไว�กล*0มีเด�ยวก�นั โดยไมี0มี�การู้จ�ดกล*0มีข้�อมี�ลต�วอย0างไว�ล0วงห้นั�า เรู้�ยกว0า .......Unsupervised Learning

• 3. Association : เทำคนั'คในัการู้ค�นัพับองค+ความีรู้� �ให้มี0 ด�วยการู้เชี่��อมีโยงกล*0มีข้องข้�อมี�ลทำ��เก'ดข้�"นัในัเห้ต*การู้ณ+เด�ยวก�นัไว�ด�วยก�นั

• 4. Visualization :เทำคนั'คทำ��ใชี่�ในัการู้แสดงผู้ลในัรู้�ปัแบบกรู้าฟิAกห้รู้�อ ข้�อมี�ลห้ลายมี'ต'

p.85

Chapter 130344-662 Data Warehousing and Data Mining

ค*ณล�กษณะข้องเห้มี�องข้�อมี�ล• 1. ชี่�"แนัวทำางการู้ต�ดส'นัใจและคาดการู้ณ+ผู้ลล�พัธิ+• 2. เพั'�มีความีเรู้5วในัการู้ว'เครู้าะห้+ข้�อมี�ล จากฐานัข้�อมี�ลข้นัาดให้ญ0• 3. ค�นัห้าส0วนัปัรู้ะกอบทำ��ซั0อนัอย�0ในัเอกสารู้ รู้วมีถ�งความีส�มีพั�นัธิ+

รู้ะห้ว0างส0วนัปัรู้ะกอบต0างๆ• 4. จ�ดกล*0มีเอกสารู้ตามีห้�วข้�อต0างๆตามีนัโยบายบรู้'ษ�ทำ

Chapter 131344-662 Data Warehousing and Data Mining

ต�วอย0างการู้นั าเห้มี�องข้�อมี�ลมีาใชี่�งานั• 1. การู้ตลาด

– ทำ านัายยอดข้ายเมี��อมี�การู้ลดจ านัวนัส'นัค�าลง• 2. การู้เง'นัการู้ธินัาคารู้

– คาดการู้ณ+โอกาสในัการู้ชี่ ารู้ะห้นั�"ข้องล�กค�า• 3. การู้ค�าข้าย• 4. โรู้งงานั การู้ผู้ล'ต• 5. ตลาดห้ล�กทำรู้�พัย+• 6. ธิ*รู้ก'จการู้ปัรู้ะก�นั• 7. H/W S/W คอมีพั'วเตอรู้+• 8. กรู้ะทำรู้วงกลาโห้มี• 9. โรู้งพัยาบาล

Chapter 132344-662 Data Warehousing and Data Mining

ปัรู้ะโยชี่นั+ข้องเห้มี�องข้�อมี�ล• 1. ค�นัห้าข้�อมี�ลโดยอาศึ�ยเทำคโนัโลย�ข้องเห้มี�องข้�อมี�ล• 2. ใชี่�สถาปั2ตยกรู้รู้มีแบบ Client/Server

• 3. ผู้��ใชี่�รู้ะบบไมี0จ าเปั7นัต�องทำ�กษะในัการู้เข้�ยนัโปัรู้แกรู้มี• 4. ผู้��ใชี่�ต�องก าห้นัดข้อบเข้ตและเปัBาห้มีายข้องรู้ะบบให้�ชี่�ดเจนั เพั��อ

ความีรู้วดเรู้5วและถ�กต�องตามีความีต�องการู้• 5. การู้ปัรู้ะมีวลผู้ลแบบข้นัานัจะชี่0วยเพั'�มีปัรู้ะส'ทำธิ'ภัาพัและ

ความีเรู้5วในัการู้ค�นัห้าข้�อมี�ล

Chapter 133344-662 Data Warehousing and Data Mining

Homework 1• 1. จงห้าความีห้มีายข้องค านั'ยามีต0อไปันั�" มีาอย0างนั�อย 2 แห้ล0ง อ�างอ'งพัรู้�อมีบอกทำ��มีาข้องแห้ล0งอ�างอ'งด�วย

– Data Warehouse (คล�งข้�อมี�ล)– Data Mining (เห้มี�องข้�อมี�ล)

• 2. จงห้าว0า Data Mining Tool มี�อะไรู้บ�าง พัรู้�อมีทำ�"งอธิ'บายมีาพัอส�งเข้ปั สิ$ง ราย์งาน (next week in class)

» Hard Copy » File» Presentation 2 min (no slide)

Jim Miller

Recommended