43
VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO DỮ LIỆU: KHẢO SÁT LÍ THUYẾT VÀ XÂY DỰNG ỨNG DỤNG Thc hin: Nguyn Minh Hng – 0712012 Lê Văn Huy – 0712192 GVHD: PGS.TS Đng Th Bch Thy

VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

Embed Size (px)

Citation preview

Page 1: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO DỮ LIỆU: KHẢO SÁT LÍ THUYẾT VÀ XÂY DỰNG ỨNG DỤNG

Thưc hi n: Nguyên Minh Hung – 0712012ê Lê Văn Huy – 0712192

GVHD: PGS.TS Đông Thi Bich Thuy

Page 2: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

1. Giơi thi uê

• Nhu câu tich hơp dư li uê

CSDLHọc tập

trưc tuyến

CSDLGiáo vụ

Bảng điểm

OLAP

Báo biểu

CSDLKho dư liệu

Page 3: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

1. Giơi thi uê

• Mục tiêu cua đê tai:– Xây dưng kho dư li uê– Xây dưng quy trinh tich hơp dư li uê– Sư dụng công cụ ma nguôn mơ miên phi– Dê triển khai– Dê sư dụng

Page 4: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

1.Giơi thi uê

• Đôi tương va pham vi nghiên cưu:– Các kiến truc kho dư li u điển hinhê– Quy trinh tich hơp dư li u (ETL)ê– Công cụ ma nguôn mơ PDI– Xây dưng kho dư li u tư CSDL cua moodle, file ê

điểm đinh dang excel– Xây dưng phân mêm đong goi quy trinh tich hơp

dư li u trên HĐH Windows.ê

Page 5: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

2. Các kiến truc kho dư li uê

• Kiến truc DDS đơn

Quy trinh tich hơp dư liệu

DDSETL

CSDLDư liệu nguôn

Bảng điểmDư liệu

nguôn

Vung xư li

ETL Ứng dụng đâu cuôi

Page 6: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

2. Các kiến truc kho dư li uê

• Kiến truc NDS + DDS

Quy trinh tich hơp dư liệu

DDSETL

CSDLDư liệu nguôn

Bảng điểmDư liệu

nguôn

Vung xư li

ETL Ứng dụng đâu cuôi

NDS

ETL

Page 7: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

2. Các kiến truc kho dư li uê

• Kiến truc ODS + DDS

Quy trinh tich hơp dư liệu

DDSETL

CSDLDư liệu nguôn

Bảng điểmDư liệu

nguôn

Vung xư li

ETL Ứng dụng đâu cuôi

ODS

ETL

Ứng dụng tác nghiệp

Page 8: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

3. Mô hinh hoa đa chiêu

• So sánh CSDL tác nghi p va CSDL phục vụ kho êdư li uê

• Đinh nghia: Đây la ki thuật thiết kế cơ sơ dư liệu cho kho dư liệu đặc biệt để hỗ trơ truy vấn đâu cuôi một cách hiệu quả. [6]

Page 9: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

3. Mô hinh hoa đa chiêu

• Lươc đô hinh sao

SINH VIEN

THOI GIANNGAY THANG

MON HOC

TRUY CAP

Các bảng chiêu

Bảng dư kiện

Page 10: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

3. Mô hinh hoa đa chiêu

• Chiêu: Các đối tượng tham gia vào một sự kiện hay là ngữ cảnh của sự kiện đó [5]

• Dư ki n:êCon số thể hiện độ đo của một sự kiện gọi là dữ kiện [5]

Page 11: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

3. Mô hinh hoa đa chiêu

• Giảm dang chuân va phân cấp trên chiêu– Mục đich– Phương pháp

Page 12: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

4. Tich hơp dư li uê

• Mục đich– Kết hơp dư li u tư nhiêu nguôn khác nhauê– T p trung dư li u đa kết hơp vao m t khung nhin â ê ô

chung

Page 13: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

4. Tich hơp dư li uê

• Quy trinh tich hơp dư li uê

ETL

CSDLDư liệu nguôn

Bảng điểmDư liệu

nguôn

Biến đổiA -> a

Rut trichA

CSDL cuaKho dư liệu

Napa

Extract Transform Load

Page 14: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

4.1. Rut trich dư li u ê

• Năm băt thay đổi trên dư li u nguônê– Khái ni m:ê• La quá trinh theo doi các thay đổi trên dư li u nguônê• C p nh t dư li u tương ưng vao h thông đichâ â ê ê

– Tác dụng:• Giảm ảnh hương lên h thông nguônê• Giảm thơi gian xư ly

– Các phương pháp: 4 phương pháp

Page 15: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

4.1. Rut trich dư li u ê

• Xư ly dư li u đâu vaoê– Vung xư ly

Page 16: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

4.2. Biến đổi dư li uê

• Kiểm tra tinh hơp lê• Lam sach dư li uê• Giải nghia va ánh xa dư li uê• Tao va quản ly khoa• Tổng hơp dư li uê

Page 17: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

4.3. Nap dư li uê

• Nap va duy tri các chiêu– Chiêu thay đổi ch mâ– Bảng câu nôi– Chiêu thơi gian

• Nap dư ki nê– Dư li u lơnê– Tham chiếu đến các bảng chiêu

Page 18: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

5. Công cụ Pentaho Data Integration

Page 19: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

5. Công cụ Pentaho Data Integration

• Các loai đôi tương cua Kettle:– Biến đổi (transformation)

Page 20: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

5. Công cụ Pentaho Data Integration

• Các loai đôi tương cua Kettle:– Công vi c (job)ê

Page 21: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

5. Công cụ Pentaho Data Integration

• Các thanh phân chinh:– Giao di n phát triển đô họaê

Page 22: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

5. Công cụ Pentaho Data Integration

• Các thanh phân chinh:– B l p lichô â

Page 23: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

5. Công cụ Pentaho Data Integration

• Các thanh phân chinh:– Công cụ dong l nh (Pan/Kitchen)ê

Page 24: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Yêu câu cua ưng dụng:– Yêu câu phân tich trên dư li uê– Yêu câu h thôngê

Page 25: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Danh sách các nghi p vụê

Nghiệp vụ Ngữ cảnh

Thời

gian

Người

dùng

Học

phần

Vai trò Chức

năng

Phân tích các truy cập vào

hệ thống x x x x x

Phân tích kết quả học tập

x x

Page 26: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Mô hinh kiến truc cua ưng dụng

Page 27: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Cấu truc dư li u nguôn: các bảng cân lấy êthông tin

Tên bảng Ý nghĩa

mdl_course Chứa thông tin về các học phần

mdl_course_categories Chứa thông tin về các nhóm học phần

mdl_module Chứa thông tin về các thành phần của hệ thống Moodle

mdl_role_assignment Chứa thông tin về phân quyền người dùng

mdl_context Chứa thông tin bổ sung cần cho các truy vấn

mdl_user Chứa thông tin về người dùng

mdl_log Chứa thông tin về các truy cập

Page 28: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Thiết kế vung xư ly:– Vung xư ly dư li u lấy tư CSDLê

Page 29: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Thiết kế vung xư ly:– Vung xư ly dư li u lấy tư fileê

Tên cột Ý nghĩa

TermNumber Thứ tự học kì trong năm học

TermName Tên học kì

AcademicYear Năm bắt đầu của năm học

AcademicYearName Tên năm học

BeginDate Ngày bắt đầu học kì

EndDate Ngày kết thúc học kì

Tên cột Ý nghĩa

CourseID Chứa mã học phần

StudentID Chứa mã sinh viên

Value Điểm số của sinh viên

Cấu trúc tập tin Excel chứa thông tin về học kì, năm học

Cấu trúc tập tin Excel chứa kết quả học tập

Page 30: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Thiết kế CSDL chuân hoa:

Page 31: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Thiết kế CSDL cua kho dư li uê

Page 32: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Thiết kế CSDL cua kho dư li uê– Thiết kế các chiêu liên quan đến thơi gian

Page 33: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Thiết kế CSDL cua kho dư li uê– Lưa chọn loai thay đổi ch m cho các chiêuâ

Page 34: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Thiết kế CSDL cua kho dư li uê– Sư dụng bảng câu nôi đôi vơi chiêu đa tri va đ ê

quy

Page 35: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Xây dưng quy trinh tich hơp dư li uêBăt đâu Nếu vung xư li

co dư liệu

Lấy dư liệu mơi tư CSDL Moodle đưa

vao vung xư liSai

Kiểm tra tinh hơp lệLam sach dư liệu

Giải nghia va đổi tên

Đung

Đưa dư liệu vao vung CSDL chuân

hoá

Nếu đa nap chiêungay tháng, thơi gian

Nap chiêu ngay tháng, thơi gian

Tao khoá đai diện va nap các bảng chiêu

con lai

Nap bảng dư kiệntruy cập va bảngdư kiện điểm sô

Tinh dư kiện thơi gian truy cập vasô lươt truy cập

Tao các bảng câu nôi

Kết thucXoá dư liệu trong vung xư li

Sao chép các tập tin ngay tháng, điểm sô

vao vung xư li

Tao khoá nghiệp vụ

Sai

Đung

Cập nhật thông tin học ki, ngay nghỉ

Page 36: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Năm băt các thay đổi trên dư li uêBăt đâu

So sánh tưng dong dư liệutrong Moodle vơi NDS

dưa trên khoá nghiệp vụ

Cập nhật các thuộc tinh con lai trong

NDS

Nếulast_update < time_modified

HoặcKhông tôn tai trong NDS

last_update: Thời điểm cập nhật cuối cùng vào NDStime_modified: Thời điểm dữ liệu Moodle bị thay đổiĐung

Sai

Kết thuc

last_update = time_modified

Sai

Nếu đa so sánh hết Đung

last_update: Thời điểm cập nhật cuối cùng vào NDS

Băt đâu

So sánh tưng dong dư liệutrong Moodle vơi NDS

dưa trên khoá nghiệp vụ

Cập nhật các thuộc tinh con lai trong

NDS

Nếu giá tri các thuộc tinh bi thay đổiHoặc

Không tôn tai trong NDS

Đung

Sai

Kết thuc

last_update = thơi điểm hiện hanhSai

Nếu đa so sánh hết Đung

Lấy dữ liệu mới/thay đổi dựa trên thời gian Lấy dữ liệu mới/thay đổi bằng cách so sánh khác biệt về giá trị thuộc tính

Page 37: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Xư li xung đột vơi các nguôn dư liệu cung cấu truc:– Tao khoa tư nhiên va khoa đai di nê

Page 38: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Xây dưng ưng dụng đong goi– Mô hinh cua ưng dụng

File XML cấu hinh

Ứng dụng đong goi

Đọc/ghi cấu hinh

Công cụ dong lệnh (Kitchen)

File batchTao/Cập nhật

file batch Truyên tham sô

File job (.ktj)

Thưc thi công việc

Xuất log

Kho dư liệu

CSDLDư liệu nguôn

Bảng điểmDư liệu

nguôn

ETL

Tich hơp dư liệu

Page 39: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• Xây dưng ưng dụng đong goi– Các chưc năng:• Tao tai khoản ngươi dung• Cấu hinh các nguôn dư liệu• Cấu hinh kho dư liệu• Cấu hinh ngay tháng hệ thông• Cấu hinh đương dẫn thư mục chưa Kettle va các tập tin

công việc (file job)

Page 40: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

6. Xây dưng ưng dụng thư nghi mê

• L p lich:â• (hinh ảnh công cụ l p lich)â

Page 41: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

7. Kết lu nâ

• Các kết quả đat đươc– Thiết kế hoan chỉnh kho dư liệu phục vụ cho môi

trương học tập trưc tuyến – Cai đặt hoan chỉnh quy trinh tich hơp dư liệu tư

nhiêu nguôn co thể loai va cấu truc khác nhau– Ứng dụng thư nghiệm

Page 42: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

7. Kết lu nâ

• Nhưng vấn đê con tôn tai:– Quy trinh tich hơp dư liệu chưa co khả năng tư

giám sát (audit) bằng siêu dư liệu (metadata)– Phân mêm đong goi chưa co bộ lập lich tich hơp

ma phải sư dụng bộ lập lich cua bên thư 3

Page 43: VẤN ĐỀ TÍCH HỢP DỮ LIỆU VÀO KHO

7. Kết lu nâ

• Hương phát triển:– Mơ rộng kho dư liệu cho nhiêu yêu câu phân tich

khác.– Mơ rộng hỗ trơ tich hơp dư liệu cho nhiêu nguôn

hệ thông học tập trưc tuyến khác (Sakai, APS…)– Tich hơp bộ lập lich vao phân mêm đong goi.