Data warehouse & Data Warehousing

Preview:

DESCRIPTION

คลังข้อมูล และการคลังข้อมูล

Citation preview

Data Warehousing

Company LOGO

บทท� 1 คลงขอมล และการคลงขอมล (Data warehouse and Data Warehousing)

Contents

ปญหาในการเกบและวเคราะหขอมล1

ส�งท�ควรพจารณากอนสรางคลงขอมล2

ความหมายและคณลกษณะของคลงขอมล3

COMPANY LOGO2

ความหมายและคณลกษณะของคลงขอมล3

ความหมายและกระบวนการของการคลงขอมล4

ความแตกตางระหวางฐานขอมลกบคลงขอมล5

ปญหาในการเกบและวเคราะหขอมล

ความตองการ การวเคราะห วางแผน และตดสนใจอยางถกตอง รวดเรวความตองการ การวเคราะห วางแผน และตดสนใจอยางถกตอง รวดเรว

การใชขอมลเปนเคร�องมอสาคญในการตดสนใจ

COMPANY LOGO3

มขอมลจานวนมากแตขาดการจดเรยง

การจดระบบระเบยบขอมล

สรางคลงขอมลสรางคลงขอมล

ปญหาในการเกบและวเคราะหขอมล

การสรางคลงขอมล จงเกดข�นเพ�อเปนท�เกบรวบรวมขอมลสาคญและจาเปนจาก

แหลงตางๆ ซ�งเปนประโยชนตอการตดสนใจของผบรหาร เพ�อใหผบรหารสามารถ

เรยกใชขอมลท�ตองการไดอยางรวดเรวและมประสทธภาพมากข�น

COMPANY LOGO4

ขอมลเชงบรหารน�จะสามารถชวยลดปญหาท�เกดจากการใชขอมลจากฐานขอมล

ปฏบตการ (operational database) ซ�งเปนการเกบขอมลในรปแบบ

transaction system ได

ปญหาในการเกบและวเคราะหขอมล

ซ�งโดยท�วไปปญหาท�พบเม�อตองการขอมลท�ชวยในการตดสนใจ จากฐานขอมล

ปฏบตการ (operational database) ไดแก

- ขอมลท�นาเสนอมรปแบบเดยว - ไมสามารถหาคาตอบในเชงพยากรณได

COMPANY LOGO5

- ไมสามารถหาคาตอบในเชงพยากรณได- ไมตอบสนองการทา query ท�ซบซอนไดดเทาท�ควร- ขอมลถกจดเกบอยตามฐานขอมลของระบบงานตางๆ ซ�งยากแกการเรยกใชและขาดความสมพนธทางธรกจ

ส�งท�ควรพจารณากอนสรางคลงขอมล

เน�องจากการลงทนสรางคลงขอมลข�นมาใชเพ�อสนบสนนการทางานขององคกร

น�นจาเปนตองมคาใชจายในการลงทนมหาศาล ดงน�น เม�อองคกรตดสนใจสราง

คลงขอมลข�นแลว จงควรใหความสนใจในส�งตางๆ 8 ประการ ดงน�

1. ควรมเปาหมายท�ชดเจนรวมของการสรางระบบน�ของคนในองคกร เหมอนการ

COMPANY LOGO6

1. ควรมเปาหมายท�ชดเจนรวมของการสรางระบบน�ของคนในองคกร เหมอนการตอบคาถามวาทาไมคณถงคดจะสรางคลงขอมล?

2. ทาความเขาใจสถาปตยกรรมของระบบ

3. เทคโนโลยท�ใชควรอยในวสยท�เหมาะสม ท�งดานของตวเงนและความยากงายในการเรยนร ท�งน�หมายรวมท�งฮารดแวร ซอฟตแวร และเครอขาย

ส�งท�ควรพจารณากอนสรางคลงขอมล

4. จาเปนอยางย�งท�จะใหผใชข�นปลายท�เปนเจาของงานเขามามสวนรวมทางานดวยต�งแตตนโครงการ

5. ทมพฒนาเขาใจเปนอยางดถงความแตกตางกนระหวางฐานขอมลปฏบตการและฐานขอมลสนบสนนการตดสนใจ

COMPANY LOGO7

และฐานขอมลสนบสนนการตดสนใจ

6. จดใหมการฝกอบรม โดยเฉพาะอยางย�งการฝกอบรมเก�ยวกบเคร�องมอท�องคกรจะใชพฒนา

7. ควรหาบคลากรท�มประสบการณในการพฒนาคลงขอมล

8. โปรแกรมท�จะใชนาเสนอขอมลในคลงขอมล ตองสามารถเรยนรไดงายและผใชสามารถใชงานไดอยางมประสทธภาพ

นยามของคลงขอมล

Kimball’s Definition of a Data Warehouse

A data warehouse is a copy of

COMPANY LOGO8

transactional data specifically

structured for querying and

analysis

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

คลงขอมล (Data Warehouse) หมายถง ฐานขอมลขนาดใหญขององคกรหรอ

หนวยงานหน�งๆ ซ�งมการเกบรวบรวมขอมลจาก

ฐานขอมลระบบงานประจาวน หรอเรยกอกอยางวา operational database

ฐานขอมลอ�นภายนอกองคกร หรอเรยกวา external database

COMPANY LOGO9

ฐานขอมลอ�นภายนอกองคกร หรอเรยกวา external database

ใหมารวมไวเปนศนยกลางของขอมล และสามารถเกบขอมลยอนหลงไดหลายๆ ป

(Historical Data)

โดยขอมลท�ถกจดเกบในคลงขอมลน�น จะถกนามา

วเคราะหและแสดงขอมลแบบหลายมต (Multidimensional Analysis / OLAP)

วเคราะหขอมลโดยใชเหมองขอมล (Data Mining)

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

คณลกษณะของคลงขอมล

จากนยามของคลงขอมลสามารถสรปคณลกษณะของคลงขอมลไดดงน�

1. Subject oriented

COMPANY LOGO10

1. Subject oriented

2. Integration

3. Time-variant

4. Non-volatile

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

1. Subject oriented การแบงโครงสรางตามเน�อหา หมายถง คลงขอมลถกออกแบบมาเพ�อ

มงเนนไปในแตละเน�อหาท�สนใจ หรอ Report ท�ตองการ ไมไดเนนไปท�การทางานหรอกระบวนการแตละอยางโดยเฉพาะเหมอนอยางฐานขอมลปฏบตการ

COMPANY LOGO11

ทางานหรอกระบวนการแตละอยางโดยเฉพาะเหมอนอยางฐานขอมลปฏบตการ

เลอกเกบขอมลในระดบปฏบตการเฉพาะสวนท�นามาใชในเชงวเคราะหมากกวาการเกบขอมลเพ�อตอบคาถามแบบรายละเอยดปลกยอย

เชน คลงขอมลท�มงเนนท�เร�องยอดขาย

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

2. Integration

การรวมเปนหน�ง ซ�งถอไดวาเปนคณลกษณะท�สาคญท�สดของคลงขอมล

คอการรวบรวมขอมลจากหลายฐานขอมลปฏบตการเขาดวยกน และทาใหขอมลมมาตรฐานเดยวกน

COMPANY LOGO12

มมาตรฐานเดยวกน

เชน กาหนดใหมคาตวแปรของขอมลในเน�อหาเดยวกนใหเปนแบบเดยวกนท�งหมด

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

App A m,f

App B 1,0

App C x,y

App D male,female

ฐานขอมลประจาวน คลงขอมล

encodingm,f

Attribute measurement

COMPANY LOGO13

App A cm

App B inches

App A description

App B description

App C description

App A key char(10)

App B key “99999”

App C key char(12)

Attribute measurementcm

Multiple Sources

? description

char(12)

Conflicting Keys

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

3. Time-variant

ความสมพนธกบเวลา หมายถง ลกษณะของขอมลในคลงขอมล จะเปน

ลกษณะของขอมลประวตศาสตร (Historical Data) คอจะเกบขอมลยอนหลงเปนเวลาหลายๆ ป เพ�อท�จะนาไปวเคราะหเปรยบเทยบหาแนวโนมของขอมล

COMPANY LOGO14

เปนเวลาหลายๆ ป เพ�อท�จะนาไปวเคราะหเปรยบเทยบหาแนวโนมของขอมล

ซ�งแตกตางจากลกษณะขอมลในฐานขอมลปฏบตการ (Database) หรอ

การจดการขอมลรายวน (Online Transaction Process : OLTP)

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

ฐานขอมลประจาวน

ขอบเขตของเวลา – ขอมลปจจบนถงขอมลยอนหลง 60-90 วน

ขอมลจะถกเกบในรปแบบระเบยนขอมลท�เปน

คลงขอมล

ขอบเขตของเวลา – มอายการจดเกบ 5-10 ป

ขอมลจะถกเกบในลกษณะของขอมลสรปในชวงเวลาตางๆ ตามหวขอท�สนใจ

COMPANY LOGO15

ขอมลจะถกเกบในรปแบบระเบยนขอมลท�เปนขอมลปจจบน

โครงสรางของฐานขอมลไมเนนสรางคยของตาราง เปนคาของขอมลท�เก�ยวของกบเวลา

OLTP: Online Transaction Processing

ในชวงเวลาตางๆ ตามหวขอท�สนใจ

โครงสรางของฐานขอมลเนนสรางคยของตาราง เปนคาของขอมลท�เก�ยวของกบเวลา

OLAP: Online Analytical Processing

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

4. Non-volatileความเสถยรของขอมล หมายถงขอมลในคลงขอมลจะไมเปล�ยนแปลง

(เวนแตในกรณท�ขอมลท�โหลดเขาไปไมถกตองจรง)

ดงน�น หลงจากการโหลดขอมล OLTP ลงคลงขอมลแลวน�น จะตองม

COMPANY LOGO16

ดงน�น หลงจากการโหลดขอมล OLTP ลงคลงขอมลแลวน�น จะตองมความถกตอง ไมมการแกไข (Update), ลบ (Delete)

** จะมเพยงการเพ�ม (Insert) และการเขาถงขอมล (Retrieve) เทาน�น

ความหมาย และคณสมบตของคลงขอมล (Data warehouse)

ฐานขอมลประจาวน คลงขอมล

isrt chng

COMPANY LOGO17

isrt

dlet

dlet

chng

access

load

access

ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)

การคลงขอมล (Data Warehousing) คอ กระบวนการ หรอวธการท�ใชใน

การสรางคลงขอมล (Data Warehouse) อาทเชน การออกแบบและสรางโครงสราง

ขอมลใน Data warehouse, วธการเพ�อใหไดมาซ�งขอมล, วธการสรางผลลพธ รวม

ไปถงดแลรกษา และวธการปรบปรงประสทธภาพ เปนตน

COMPANY LOGO18

ไปถงดแลรกษา และวธการปรบปรงประสทธภาพ เปนตน

กระบวนการหลกใน Data Warehousing ประกอบไปดวย

Data Acquisition (การรวบรวมขอมล)

Data Staging (การนาเขาขอมล)

Data Store (การจดเกบขอมล)

Data Provisioning (การเตรยมขอมลเพ�อใชงาน)

ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)

Data

Resources

Data

Staging

Data Store Data

Provisioning

COMPANY LOGO19

Data Acquisition

ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)

Data Acquisition (การรวบรวมขอมล)

หมายถง วธการ และระบบท�จะทาใหขอมลจาก Data Resource ถกนาเขาส Data Warehouse โดยตองผานกระบวนการ Data Staging กอน

COMPANY LOGO20

Data Acquisition

ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)

Data Staging (การนาเขาขอมล)

เปนวธการนาเขาขอมล พรอมท�งปรบขอมล เพ�อลดความซ�าซอน และขอผดพลาดของขอมล (Cleansing) รวมไปถงการเลอกเฉพาะขอมลท�เปนประโยชน (Filtering) เพ�อนามาเกบไวในคลงขอมล

COMPANY LOGO21

Data Acquisition

ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)

Data Store (การจดเกบขอมล)

การนาเอาขอมลท�ผานการ Cleansing และ Filtering แลว มาเกบบนทกลงใน Data Warehouse ซ�งสวนท�ทาหนาท�จดเกบขอมลน�น เรยกวา

“Data Warehouse Database”

COMPANY LOGO22

“Data Warehouse Database”

ความหมาย และกระบวนการของการคลงขอมล (Data warehousing)

Data Provisioning (การเตรยมขอมลเพ�อใชงาน)

การนาเอาขอมลท�มอยในคลงขอมล มาประมวลผล เพ�อใหไดสารสนเทศท�ตองการ เพ�อรอการใชงานตอไป

COMPANY LOGO23

การวเคราะหขอมลในคลงขอมล

แหลงขอมลเพ�อการปฏบตงาน

ReportGenerator

Data Mining

รายงาน

ผล

ผล

การใชงาน

COMPANY LOGO24

OLAPGenerator

Data Warehouse

แหลงขอมลเพ�อการวเคราะห

Data MiningTools

ขอมล

ผล

ผล

คลงขอมล ชวงเวลาท�องคกรไมไดปฏบตงาน ชวงเวลาท�องคกรปฏบตงาน

ผใชงาน

การวเคราะหขอมลในคลงขอมล

ความยงยากมนอยใชปรมาณขอมลนอยใชเวลาในการประมวลผลหรอเตรยมขอมลนอย

ความยงยากมมากใชปรมาณขอมลมากใชเวลาในการประมวลผลหรอเตรยมขอมลมาก

COMPANY LOGO25

Query and ReportMultidimensional

Data AnalysisData Mining

มเคร�องมอชวยในการสรางมากมาย มเคร�องมอชวยในการสรางนอย

ความแตกตางระหวาง ฐานขอมล กบ คลงขอมล

เปรยบเทยบ OLTP คลงขอมล

เปาหมาย เปนการจดการกบขอมลรายวน มการดงและวเคราะหขอมลจากสารสนเทศ

ผใช พนกงาน ผบรหาร

COMPANY LOGO26

โครงสราง RDBMS RDBMS

ตวแบบขอมล Normalized Dimensional

ชนดของขอมล ขอมลท�ใช run ระบบธรกจ สารสนเทศเพ�อสนบสนนการตดสนใจ

เง�อนไขของขอมล มการเปล�ยนแปลง แกไข ปรบปรง

Historical , descriptive , read only และ non-volatile ดงน�นขอมลจะตองถกclean ใหเปนรปแบบเดยวกนกอน

ขอด-ขอเสย ของคลงขอมล

ขอด

- ใหผลการตอบแทนจากการลงทนสง

- องคกรเกดความไดเปรยบคแขงขน

- เพ�มประสทธภาพในการตดสนใจ

ขอเสย

- ข�นตอนการกล�นกรองและโหลดขอมลเขาสคลงขอมลใชเวลานาน และตองอาศยผท�มความชานาญ

COMPANY LOGO27

- เพ�มประสทธภาพในการตดสนใจของผตดสนใจ

อาศยผท�มความชานาญ

- แนวโนมความตองการขอมลมมากข�นเร�อย ๆ

- ใชเวลานานในการพฒนาคลงขอมล

- ระบบคลงขอมลมความซบซอนสง

Do you have any Question ??

Company LOGO

Homework

1. เพราะเหตใด จงตองมการสรางคลงขอมล (Data Warehouse)

2. คลงขอมล (Data Warehouse) คออะไร

3. จงอธบายถงคณลกษณะของคลงขอมล (Data Warehouse)

4. จงอธบายถงกระบวนการหลกของ Data Warehousing

COMPANY LOGO29

4. จงอธบายถงกระบวนการหลกของ Data Warehousing

5. ขอมลในคลงขอมล (Data Warehouse) สามารถนามาวเคราะห

ในรปแบบใดไดบาง

6. จงบอกความแตกตางระหวาง ฐานขอมล กบ คลงขอมล มา 3 ประเดน

Recommended