22
ĐẠI HC QUC GIA HÀ NI TRƯỜNG ĐẠI HC CÔNG NGHNGUYỄN THỊ THU TRANG KHAI PHÁ DLIU PHÁT HIN LUT KT HP NG DỤNG ĐỐI VI KHO DLIU CA NGÂN HÀNG Ngành: Công nghthông tin Chuyên ngành: Công nghphn mm Mã s: 60 48 10

LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Embed Size (px)

Citation preview

Page 1: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THU TRANG

KHAI PHÁ DỮ LIỆU PHÁT HIỆN LUẬT KẾT HỢP

VÀ ỨNG DỤNG ĐỐI VỚI KHO DỮ LIỆU CỦA NGÂN HÀNG

Ngành: Công nghệ thông tin

Chuyên ngành: Công nghệ phần mềm

Mã số: 60 48 10

Page 2: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. VŨ ĐỨC THI

Hà Nội - 2008

MỤC LỤC

MỞ ĐẦU ..................................................................................................................... 9

Chương 1: KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN .............. 11

1.1. Hệ thống xử lý giao dịch trực tuyến (OLTP) ................................................. 11

1.2. Kho dữ liệu (Data warehouse) ....................................................................... 11

1.3. Hệ thống phõn tớch dữ liệu trực tuyến (OLAP) ............................................ 14

1.3.1. Giới thiệu ................................................................................................ 14

1.3.2. Mụ hỡnh tổ chức dữ liệu (Data model) .................................................. 17

1.3.2.1. Lược đồ hỡnh sao (Star schema) ..................................................... 18

Page 3: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

1.3.2.2. Lược đồ bụng tuyết (Snowflake schema) ........................................ 19

Chương 2: KHAI PHÁ DỮ LIỆU PHÁT HIỆN LUẬT KẾT HỢPError! Bookmark not defined.

2.1. Giới thiệu .......................................................Error! Bookmark not defined.

2.1.1. Định nghĩa luật kết hợp ...........................Error! Bookmark not defined.

2.1.1.1. Vớ dụ về luật kết hợp .......................Error! Bookmark not defined.

2.1.1.2. Cỏc định nghĩa cơ bản .....................Error! Bookmark not defined.

2.1.2. Luật kết hợp nhị phõn .............................Error! Bookmark not defined.

2.1.3. Luật kết hợp định lượng ..........................Error! Bookmark not defined.

2.1.4. Luật kết hợp đơn chiều ...........................Error! Bookmark not defined.

2.1.5. Luật kết hợp đa chiều ..............................Error! Bookmark not defined.

2.1.6. Luật kết hợp đa mức ...............................Error! Bookmark not defined.

2.1.6.1. Giới thiệu .........................................Error! Bookmark not defined.

2.1.6.2. Khai phỏ luật kết hợp đa mức ..........Error! Bookmark not defined.

2.2. Thuật toỏn Apriori .........................................Error! Bookmark not defined.

2.3. Đỏnh giỏ .........................................................Error! Bookmark not defined.

2.4. Khai phỏ luật kết hợp với OLAP ...................Error! Bookmark not defined.

2.4.1. Xõy dựng Data-cube ...............................Error! Bookmark not defined.

2.4.2. Khai phỏ cỏc tập mục phổ biến dựa trờn Data-cubeError! Bookmark not defined.

2.4.3. Đỏnh giỏ ..................................................Error! Bookmark not defined.

2.5. Sinh luật kết hợp từ tập mục phổ biến ...........Error! Bookmark not defined.

2.5.1. Thuật toỏn đơn giản sinh luật kết hợp từ tập mục phổ biếnError! Bookmark not defined.

2.5.2. Khai phỏ luật kết hợp dựa trờn Data-cubeError! Bookmark not defined.

2.5.3. Đỏnh giỏ ..................................................Error! Bookmark not defined.

Chương 3: XÂY DỰNG ỨNG DỤNG MINH HOẠError! Bookmark not defined.

3.1. Giới thiệu .......................................................Error! Bookmark not defined.

3.2. Xõy dựng khung ứng dụng (Framework) ......Error! Bookmark not defined.

3.2.1. Tập hợp, làm sạch và chuẩn hoỏ dữ liệu Error! Bookmark not defined.

3.2.2. Xõy dựng Data-cube ...............................Error! Bookmark not defined.

3.2.3. Khai phỏ luật kết hợp từ Data-cube ........Error! Bookmark not defined.

3.3. Đỏnh giỏ .........................................................Error! Bookmark not defined.

KẾT LUẬN ...............................................................Error! Bookmark not defined.

TÀI LIỆU THAM KHẢO ........................................................................................ 19

Danh sỏch tài liệu tham khảo tiếng Việt ........................................................... 19

Danh sỏch tài liệu tham khảo tiếng Anh ........................................................... 20

Danh sỏch Websites tham khảo ........................................................................ 21

Page 4: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

DANH SÁCH CÁC BẢNG TRONG LUẬN VĂN

Bảng 2.1: Ví dụ một CSDL giao dịch. ......................Error! Bookmark not defined.

Bảng 2.2: Ví dụ về các tập mục phổ biến. ................Error! Bookmark not defined.

Bảng 2.3: Các luật kết hợp được sinh từ tập mục phổ biến ACW.Error! Bookmark not defined.

Bảng 2.4: Ví dụ CSDL giao dịch bán hàng. .............Error! Bookmark not defined.

Bảng 2.5: Thuật toán Apriori. ...................................Error! Bookmark not defined.

Bảng 2.6: Cơ sở dữ liệu minh hoạ thuật toán Apriori.Error! Bookmark not defined.

Bảng 2.7: Minh hoạ CSDL thống kê tài khoản giao dịch.Error! Bookmark not defined.

Bảng 2.8: Tiêu chí rời rạc hoá CSDL thống kê TKGD.Error! Bookmark not defined.

Bảng 2.9: CSDL thống kê TKGD sau khi rời rạc hoá.Error! Bookmark not defined.

Bảng 2.10: Pivot-table ứng với CSDL thống kê TKGD.Error! Bookmark not defined.

Bảng 2.11: Thuật toán tìm tập mục phổ biến từ Data-cube của Hua Zhu.Error! Bookmark not defined.

Bảng 2.12: Thuật toán DataCubeSimpleGenFrequentItemsets.Error! Bookmark not defined.

Bảng 2.13: Thuật toán sinh luật kết hợp từ tập mục phổ biến.Error! Bookmark not defined.

Bảng 2.14: Thủ tục GenRules. ..................................Error! Bookmark not defined.

Bảng 2.15: Thuật toán DataCubeSimpleMining. .....Error! Bookmark not defined.

Bảng 3.1: Đoạn mã thực hiện chuẩn hoá dữ liệu. .....Error! Bookmark not defined.

Bảng 3.2: Đoạn mã thực hiện xây dựng Data-cube. .Error! Bookmark not defined.

Bảng 3.3: Đoạn mã thực hiện khai phá luật kết hợp từ Data-cube.Error! Bookmark not defined.

Page 5: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

DANH SÁCH CÁC HÌNH TRONG LUẬN VĂN

Hình 1.1: Kiến trúc tiêu biểu của Data warehouse. .................................................. 12

Hình 1.2: Minh hoạ Data-cube.................................................................................. 15

Hình 1.3: Minh hoạ dữ liệu được tính toán và lưu trữ bởi OLAP-engine. ............... 16

Hình 1.4: Các thao tác cơ bản trong OLAP. ............................................................. 17

Hình 1.5: Lược đồ hình sao (Star schema). .............................................................. 18

Hình 1.6: Minh hoạ phân cấp thuộc tính trong lược đồ hình sao. ............................ 19

Hình 1.7: Lược đồ bông tuyết (Snowflake schema). Error! Bookmark not defined.

Hình 2.1: Sự phân cấp mức độ trừu tượng của dữ liệu.Error! Bookmark not defined.

Hình 2.2: Khai phá luật kết hợp đa mức với minsup giống nhau tại các mức.Error! Bookmark not defined.

Hình 2.3: Khai phá luật kết hợp đa mức với minsup giảm dần.Error! Bookmark not defined.

Hình 2.4: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc.Error! Bookmark not defined.

Hình 2.5: Khai phá luật kết hợp đa mức với minsup giảm dần kết hợp lọc k-mục.Error! Bookmark not defined.

Hình 2.6: Minh hoạ thuật toán Apriori. ....................Error! Bookmark not defined.

Hình 3.1: Minh hoạ dữ liệu thô. ................................Error! Bookmark not defined.

Hình 3.2: Minh hoạ các tiêu chí lọc và rời rạc hoá dữ liệu.Error! Bookmark not defined.

Hình 3.3: Dữ liệu sau khi chuẩn hoá (Xem dạng Grid).Error! Bookmark not defined.

Hình 3.4: Dữ liệu Data-cube (Dạng Grid và Pivot). .Error! Bookmark not defined.

Hình 3.5: Luật kết hợp khai phá từ Data-cube. .........Error! Bookmark not defined.

Page 6: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

KÝ HIỆU VÀ TỪ VIẾT TẮT

Stt Ký hiệu viết

tắt

Nghĩa tiếng Việt Nghĩa tiếng Anh

1 CSDL Cơ sở dữ liệu Database

2 HQTCSDL Hệ quản trị cơ sở dữ liệu Database Management System

3 KPDL Khai phá dữ liệu Data Mining

4 KDD Khai phá tri thức Knowledge Discovery in

Database

Page 7: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

THUẬT NGỮ

Stt Thuật ngữ Diễn giải

1 Database Cơ sở dữ liệu

2 Database Management

System Hệ quản trị cơ sở dữ liệu

3 Data cube Khối dữ liệu đa chiều

4 Data mart CSDL chuyên đề hoặc Kho dữ liệu chuyên

đề

5 Data Mining Khai phá dữ liệu

6 Data warehouse Kho dữ liệu

7 Decision-making support

system Hệ hỗ trợ quyết định

8 Dimension table Bảng chiều dữ liệu

9 Fact table Bảng giá trị chi tiết

10 Frequent items set Tập mục phổ biến

11 KDD Knowledge Discovery in Database

Khai phá tri thức

12 OLAP On-Line Analytical Processing

Hệ thống Phân tích dữ liệu trực tuyến

13 OLTP On-Line Transaction Processing

Hệ thống xử lý giao dịch trực tuyến

14 Star schema Lược đồ hình sao

15 Snowflake schema Lược đồ bông tuyết

Page 8: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

16 SQL Structured Query Language

Ngôn ngữ truy vấn có cấu trúc

Page 9: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

MỞ ĐẦU

Khai phá dữ liệu trong những năm gần đây đã và đang được ứng dụng rộng rãi

trong nhiều lĩnh vực như: Ngân hàng, Tài chính và thị trường chứng khoán,

Thương mại, Giáo dục, Y tế, Sinh học, Bưu chính viễn thông, … với nhiều hướng

tiếp cận khác nhau như: Phân lớp/Dự đoán, Phân cụm, Luật kết hợp, … Các kỹ

thuật chính được áp dụng trong khai phá dữ liệu phần lớn được thừa kế từ lĩnh vực:

Cơ sở dữ liệu, Máy tự học (Machine learning), Trí tuệ nhân tạo, Lý thuyết thông

tin, Xác suất thống kê, … và nổi trội trong đó là phương pháp Khai phá dữ liệu

phát hiện luật kết hợp với cơ sở lý thuyết vững chãi và đầy tính ứng dụng thực tiễn.

Mặc dù trên thế giới, Khai phá dữ liệu bằng luật kết hợp đã và đang là một

trong những phương pháp phô dung va hiệu quả, được nhiều nhà khoa học va cac

tô chưc, doanh nghiêp tìm hiểu, nghiên cứu, thử nghiệm, phát triển và kết quả đã

thu được những thành công lớn đặc biệt trong lĩnh vực Ngân hàng và Tài chính

trên những Kho dữ liệu khổng lồ. Tuy nhiên ở nước ta, các nhà quản trị thậm chí

còn chưa biết làm sao tổ chức dữ liệu của mình thành một Kho dữ liệu, họ mới chỉ

dừng lại ở việc trích rút được những báo cáo đơn giản đáp ứng các nghiệp vụ hàng

ngày, chưa có khái niệm về Kho dữ liệu, về phân tích OLAP, chứ chưa nói đến là

Khai phá dữ liệu từ Kho dữ liệu đó. Chính vì vậy đề tài tập trung vào vấn đề rất

thực tiễn này: Khai phá dữ liệu phát hiện luật kết hợp và Ứng dụng đối với Kho

dữ liệu của ngân hàng.

Luận văn được tổ chức thành 3 chương:

Chương 1: Kho dữ liệu và Phân tích dữ liệu trực tuyến

Trình bày những nét khái quát nhất về Kho dữ liệu (Data warehouse) và

Phân tích dữ liệu trực tuyến (OLAP).

Chương 2: Khai phá dữ liệu phát hiện luật kết hợp

Trình bày các vấn đề chung, cơ bản nhất về Luật kết hợp, giải thuật kinh

điển Apriori và Khai phá luật kết hợp dựa trên OLAP.

Chương 3: Xây dựng ứng dụng minh hoạ

Page 10: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Triển khai ứng dụng minh hoạ đối với Kho dữ liệu Ngân hàng.

Page 11: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

KHO DỮ LIỆU VÀ PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN

Hệ thống xử lý giao dịch trực tuyến (OLTP)

Hầu hết các doanh nghiệp trên thế giới đã và đang áp dụng công nghệ thông tin

trong việc lưu trữ và quản lý dữ liệu. Hệ thống OLTP (On-Line Transaction

Processing: Hệ thống xử lý giao dịch trực tuyến) ra đời với khả năng lưu trữ dữ

liệu lâu dài, hướng giao dịch (Transaction-oriented) nên được áp dụng rất phổ biến

vì dữ liệu mà các doanh nghiệp thực hiện tác nghiệp chủ yếu đều dưới dạng các

giao dịch. Cũng vì vậy mà hầu hết các hệ quản trị CSDL phổ biến hiện nay như:

Oracle, SQL Server, DB2, MySQL, ... đều hỗ trợ OLTP. CSDL trong các hệ OLTP

thường được thiết kế thoả mãn 3NF hoặc cao hơn. Đặc điểm của hệ thống OLTP là

lưu toàn bộ các dữ liệu giao dịch chi tiết hàng ngày, điều đó cũng có nghĩa là mức

độ tổng quát, trừu tượng của dữ liệu này rất thấp. Với công cụ SQL, OLTP có thể

nhanh chóng trả lời được những câu hỏi dạng: Tổng doanh thu từ mặt hàng A trong

6 tháng đầu năm là bao nhiêu, hay Mặt hàng nào bán chạy nhất trong 6 tháng đầu

năm, ....

Tuy nhiên đứng trên góc độ của nhà quản lý họ cần hệ thống trả lời những câu

hỏi dạng: Đưa ra danh sách 10 mặt hàng có doanh thu tốt nhất của từng quý từ

trước cho tới nay, với mỗi mặt hàng, chỉ ra tháng nào trong quý mặt hàng đó có

doanh thu lớn nhất (1). Hay nếu doanh thu của mặt hàng A tăng thì có thể dự đoán

doanh thu của mặt hàng B tăng hay giảm với xác suất là bao nhiêu (2). Với câu hỏi

dạng (1) hệ thống OLTP gặp rất nhiều khó khăn khi trả lời, để trả lời chúng một

cách nhanh chóng chúng ta cần phải sử dụng những công cụ chuyên dụng và cao

cấp hơn như OLAP (xem 0). Còn với những câu hỏi dạng (2) thì việc hệ thống

OLTP trả lời là một điều viễn tưởng, muốn trả lời câu hỏi dạng này chúng ta cần

phải sử dụng công cụ đặc biệt là Data mining (xem Chương 2).

Kho dữ liệu (Data warehouse)

Data warehouse (Kho dữ liệu) được đề xuất bởi W.H.Inmon vào đầu những

năm 1990, là nơi lưu trữ thông tin tích hợp từ nhiều nguồn (Multi-sources), hướng

chủ đề (Subject-oriented), mang tính lịch sử (Time-variant), ổn định (Nonvolatile),

hỗ trợ truy vấn (Query), phân tích (Analyse) thông tin và trợ giúp ra quyết định

(Decision-making support) [105].

Page 12: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Qua khái niệm trên ta thấy dữ liệu và thông tin sẽ được trích rút từ nhiều nguồn

khác nhau với các định dạng khác nhau. Nếu người sử dụng muốn thực hiện các

truy vấn, hệ thống sẽ chỉ thực hiện tìm kiếm dữ liệu tại Data warehouse một cách

thống nhất thay vì tìm kiếm trên các CSDL (Cơ sở dữ liệu) nguồn bằng các công

cụ chuyên biệt tương ứng, từ đó tiết kiệm nhiều thời gian xử lý của người sử dụng.

Hình 0.1: Kiến trúc tiêu biểu của Data warehouse.

Hệ thống Data warehouse gồm có 3 thành phần chính sau:

Các CSDL nguồn: Dữ liệu thô sẽ được tập hợp từ nhiều nơi: bên trong, bên ngoài, tự có,

đi mua, dữ liệu di sản lịch sử hay dữ liệu hoạt động hiện tại (Operational

database), các dữ liệu này và mọi sự thay đổi của chúng sẽ được quản lý bởi một

phân hệ giám sát đặc biệt (Monitor / Wrapper modules).

Page 13: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Ở đây, dữ liệu được tập hợp từ rất nhiều nguồn: bản thân doanh nghiệp, bên ngoài

doanh nghiệp, thậm chí là đi mua, ... được lưu trữ trên rất nhiều loại khuôn dạng:

Oracle, DB2, SQL Server, Microsoft Access, ..., thậm chí là Microsoft Excel file

hay Text file. Tất cả dữ liệu này và mọi sự thay đổi của chúng sẽ được quản lý bởi

phân hệ Monitor / Wrapper.

Lõi của Data warehouse: Tại đây, dữ liệu sẽ được tổng hợp từ các nguồn dữ liệu trên,

thông thường từ các khuôn dạng khác nhau thành một dạng thống nhất và trở

thành trung tâm lưu trữ của toàn bộ hệ thống.

Ở đây, dữ liệu thô được Trích chọn (Extract), Làm sạch (Clean), Chuyển đổi

(Transform) trước khi được Tải (Load) vào Data warehouse. Phân hệ Monitor /

Wrapper sẽ thực hiện định kỳ cập nhật những thay đổi (Refresh) sao cho đảm bảo

sự nhất quán dữ liệu.

Các Data mart (CSDL chuyên đề) cũng được hình thành tại đây, xuất phát từ nhu

cầu cụ thể tập trung phân tích một lĩnh vực chuyên biệt mà người sử dụng quan

tâm. Dữ liệu sẽ được trích rút từ Data warehouse hình thành nên các Data mart

giúp việc truy vấn và phân tích được nhanh chóng, tập trung và tối ưu hơn.

Các công cụ phân tích: Các công cụ này hỗ trợ các truy vấn, tạo báo cáo, OLAP, thậm chí

là hỗ trợ khai phá dữ liệu (phân tích xu hướng, dự đoán, đưa ra các luật ... ).

- Các công cụ này cho phép người sử dụng dễ dàng, chủ động khai thác và tạo

các câu truy vấn (query), tạo lập báo cáo, tạo lập các bản phân tích một cách

nhanh chóng với độ chính xác cao mà không cần yêu cầu kiến thức về

CSDL.

- Cho phép xoay chiều và tạo các báo cáo theo nhiều dạng khác nhau như

dạng bảng ngang (Horizontal), bảng dọc (Vertical), bảng chéo (Cross), cũng

như các dạng đồ thị khác nhau.

- Cung cấp các công cụ thao tác với dữ liệu như Drill (phân tích dữ liệu theo

chiều sâu), Roll up (tổng hợp), Slice (cắt lát dữ liệu), Dice (cắt khối dữ liệu)

hay Pivot (xoay dữ liệu).

Page 14: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

- Các công cụ đặc biệt giúp phân tích xu hướng, dự đoán, đưa ra các luật, tri

thức.

Hệ thống phân tích dữ liệu trực tuyến (OLAP)

Giới thiệu

Mặc dù dữ liệu được lưu trữ trong Data warehouse đã được trích chọn, làm sạch

và chuyển đổi về khuôn dạng chuẩn, xong việc truy vấn và đặc biệt là việc phân

tích thông tin trên một khối lượng dữ liệu khổng lồ đòi hỏi phải có những công cụ

đặc biệt.

Kỹ thuật OLAP (OnLine Analytical Processing: Xử lý phân tích dữ liệu trực

tuyến) được hiểu là một tập hợp những những kỹ thuật được phát triển để phân tích

dữ liệu trong Data warehouse [102] đáp ứng được các tiêu chí: Trực tuyến

(Online), nhanh chóng, trực quan và hiệu quả đối với phân tích dữ liệu đa chiều.

OLAP thực hiện một quá trình tạo ra và quản lý dữ liệu đa chiều phục vụ cho phân

tích một cách trực quan, nó cho phép truy vấn trên một CSDL khổng lồ một cách

nhanh chóng và hiệu quả đáng kể so với kỹ thuật truy vấn kinh điển bằng SQL trên

CSDL quan hệ. Để thực hiện được điều đó, OLAP-engine (cơ chế OLAP) phải

thực hiện tính toán trước các toán tử nhóm (Aggregation operator) đồng thời tổ

chức lại dữ liệu và kết quả tính toán dưới dạng các Khối dữ liệu đa chiều (Data-

cube).

Việc thực hiện OLAP bao gồm 3 giai đoạn:

- Truy vấn dữ liệu từ Data warehouse.

- Xây dựng Data-cube.

- Phân tích trực tuyến dựa trên Data-cube.

Khái niệm Data-cube (Khối dữ liệu đa chiều) lần đầu tiên được đề xuất bởi J. Gray

và các cộng sự [101], nó bao gồm các chiều dữ liệu và các thước đo, cho phép

người sử dụng nhìn vào dữ liệu được lưu trữ trong Data warehouse qua nhiều góc

độ và nhiều chiều dữ liệu. Ví dụ, chúng ta cùng xem xét một Data-cube có 3 chiều

dữ liệu Product, Supplier, Customer và 1 thước đo là SalesTotal qua hình sau:

Page 15: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Hình 0.2: Minh hoạ Data-cube.

Data-cube ở trên có thể được thể hiện qua biểu thức SQL sau:

select Product, Supplier, Customer, Sum(SalesNumber) as SaleTotal

from Sales

group by Product, Supplier, Customer

with cube

;

OLAP-engine sẽ thực hiện tính toán trước các toán tử nhóm và lưu trữ dữ liệu tính

toán này vào các trường bổ sung, ký hiệu là “Any” hoặc “*” như minh hoạ sau:

Page 16: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Hình 0.3: Minh hoạ dữ liệu được tính toán và lưu trữ bởi OLAP-engine.

Sau khi xây dựng xong Data-cube, OLAP cung cấp một số thao tác giúp người sử

dụng phân tích dữ liệu gồm:

- Roll-up (Cuộn) thực hiện tính toán gộp theo một hoặc nhiều chiều dữ liệu.

- Drill-down (Đào sâu) thao tác này ngược lại với Roll-up, nó cung cấp các dữ

liệu ở mức chi tiết theo các chiều dữ liệu.

- Slice (Cắt lát) thực hiện “cắt” lấy một “lát” dữ liệu theo 1 chiều nào đó của

Data-cube.

- Dice (Cắt khối) thực hiện “cắt” lấy một “khối con” dữ liệu của Data-cube.

- Pivot (Xoay) cho phép xoay Data-cube theo các chiều dữ liệu, từ đó cung

cấp cho người sử dụng nhiều góc nhìn vào dữ liệu.

Các thao tác trên Data-cube được minh hoạ qua hình sau:

c1 c2 c3 *

p1 56 4 50 110

p2 11 8 1 20

* 67 12 51 130

c1 c2 c3 *

p1 44 4 48

p2 1 1

* 44 4 1 49

c1 c2 c3 *

p1 12 50 62

p2 11 8 19

* 23 8 50 81

s1

s2

*

Sales(*,*,*)

Sales(p1,*,s2

)

Page 17: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Hình 0.4: Các thao tác cơ bản trong OLAP.

Mô hình tổ chức dữ liệu (Data model)

Hầu hết các hệ quản trị CSDL hiện nay là CSDL quan hệ và ở các dạng chuẩn

hoá nhất định (3NF hoặc cao hơn), tuy nhiên nếu sử dụng trực tiếp CSDL quan hệ

để phân tích trực tuyến sẽ gặp rất nhiều khó khăn, đặc biệt là về tốc độ. Để có thể

phân tích trực tuyến, dữ liệu cần thiết phải được tính toán trước (chấp nhận dư

thừa) và tổ chức lại dưới dạng đặc biệt. Hầu hết Data warehouse hiện nay đều lưu

trữ dữ liệu theo mô hình dữ liệu đa chiều (Multidimensional data model) dạng lược

đồ hình sao (Star schema) hoặc dạng lược đồ bông tuyết (Snowflake schema).

Page 18: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Lược đồ hình sao (Star schema)

Mô hình Star schema (Lược đồ hình sao) được đề xuất bởi R. Kimball [108], là

mô hình phổ biến nhất hiện nay. Mỗi Star schema chứa 1 bảng dữ liệu chi tiết (Fact

table) và một vài bảng chiều dữ liệu (Dimension table). Cụ thể:

- Fact table lưu trữ toàn bộ dữ liệu chi tiết và một danh sách các khoá ngoại

(Forein key) tương ứng với các Dimension table.

- Dimension table chỉ chứa các thuộc tính (Attribute), các thuộc tính này

thường ở dạng đã duỗi phẳng phân cấp (Flatten).

Lược đồ hình sao được minh hoạ qua các hình sau:

Hình 0.5: Lược đồ hình sao (Star schema).

Page 19: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

Hình 0.6: Minh hoạ phân cấp thuộc tính trong lược đồ hình sao.

Lược đồ bông tuyết (Snowflake schema)

Mô hình Snowflake schema là sự mở rộng của mô hình Star schema [109] trong

đó ta thực hiện chuẩn hoá một số Dimension table. Tức là từ Dimension table ban

đầu ta thực hiện chuẩn hoá thành nhiều Dimension table có quan hệ phân cấp.

Lược đồ bông tuyết có dạng như sau:

TÀI LIỆU THAM KHẢO

Danh sách tài liệu tham khảo tiếng Việt

[001] Tạ Liên Dung (2003), Một số vấn đề khai phá dữ liệu, Luận văn thạc sĩ

CNTT, Đại học Quốc gia Hà Nội.

[002] Trần Vĩnh Hoàng (2007), Một số phương pháp khai phá dữ liệu sinh luật kết

hợp, Luận văn thạc sĩ CNTT, Đại học Quốc gia Hà Nội.

Page 20: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

[003] Hoàng Kiếm (4/2005), Giải một bài toán trên máy tính như thế nào, Tập 3

(tái bản lần thứ nhất). NXB Giáo dục.

[004] Nguyễn Hùng Sơn (2006), Bài giảng Tập thô và Khai phá dữ liệu.

[005] Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động của kho dữ

liệu.

[006] Vũ Đức Thi (1997), Cơ sở dữ liệu – Kiến thức và thực hành. NXB Thống

Kê.

[007] Nguyễn Thanh Thuỷ (8/2001), Bài giảng Khai phá dữ liệu - Kỹ thuật và ứng

dụng.

Danh sách tài liệu tham khảo tiếng Anh

[101] (1995) J.Gray, S.Chaudhuri, A.Bosworth, A.Layman, D.Reichart,

M.Venkatrao, F.Pellow and H.Pirahesh, Data-cube: a relational

aggregation operator generalizing group-by, cross-tab and sub-totals,

Microsoft Technical report.

[102] J.Han (1999), OLAP-Mining: An integration of OLAP with Data-Mining,

Simon Fraser University.

[103] J.Han and M.Kamber (2001), Data Mining: Concepts and Techniques,

Hacours Science and Technology Company, USA.

[104] W.H.Inmon (1996), Building the Data Warehouse, John Wiley & Sons,

Chichester, second edition.

[105] W.H.Inmon (1995), "What is a Data Warehouse?", Prism, Volume 1.

[106] W.H.Inmon, C. Kelly (1993), Rdb/VMS: Developing the Data Warehouse,

QED Publishing Group, Boston, Massachussetts.

[107] Mehmed Kantardzic (2002), Data Mining: Concepts, Models, Methods and

Algorithms, Wiley-IEEE Press.

[108] R.Kimball (1996), The Data Warehouse Toolkit: Practical Techniques for

Building Dimensional Data Warehouses, John Wiley & Sons.

Page 21: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

[109] M. Levene, G. Loizou (2000), “Why is the Snowflake Schema a Good Data

Warehouse Design?”, Birkbeck College, University of London.

[110] M.J.Zaki and M.Ogihara (6/1998), Theoretical Foundations of Association

Rules, In 3rd

ACM SIGMOD Workshop on Research Issues in Data mining

and Knowledge Discovery.

[111] Hua Zhu (1998), Online Analytical Mining of Association Rules, Master

thesis, Simon Fraser University.

Danh sách Websites tham khảo

[L01] http://citeseer.ist.psu.edu/

[L02] http://citeseer.ist.psu.edu/agrawal93mining.html

[L03] http://citeseer.ist.psu.edu/han99mining.html

[L04] http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.21.3808

[L05] http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.74.3044

[L06] http://www.cs.sfu.ca/

[L07] http://www.cse.ohio-state.edu/~agrawal/Research_new/mining.htm

[L08] http://en.wikipedia.org/wiki/Data_mining

[L09] http://en.wikipedia.org/wiki/Association_rule_mining

[L10]

http://www.filibeto.org/sun/lib/nonsun/oracle/11.1.0.6.0/B28359_01/datami

ne.111/ b28129/intro_concepts.htm

[L11]

http://freedatawarehouse.com/tutorials/dmtutorial/Dimensional%20Modelin

g%20 Tutorial.aspx

[L12] http://freedatawarehouse.com/tutorials/dmtutorial/Star%20Schema.aspx

Page 22: LI T H P VÀ NG DỤNG ĐỐI V I KHO DỮ LI U C A NGÂN HÀNGrepository.vnu.edu.vn/bitstream/VNU_123/15423/1/V_L0_01895.pdf · Chuyên ngành: Công nghệ phần ... Danh sỏch

[L13]

http://freedatawarehouse.com/tutorials/dmtutorial/Snowflake%20Schema.as

px

[L14] http://www.intranetjournal.com/features/datawarehousing.html

[L15] http://it.toolbox.com/blogs/enterprise-solutions/snowflake-schema-

modelling-data-warehouse-20809