Upload
trantu
View
217
Download
0
Embed Size (px)
Citation preview
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
CAO CHÍNH NGHĨA
NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT QUYẾT ĐỊNH
THEO TIẾP CẬN TẬP THÔ MỜ
LUẬN ÁN TIẾN SĨ KỸ THUẬT
HÀ NỘI - 2017
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
CAO CHÍNH NGHĨA
NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT QUYẾT ĐỊNH
THEO TIẾP CẬN TẬP THÔ MỜ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 62.48.01.04
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. GS.TS. VŨ ĐỨC THI
2. TS. TÂN HẠNH
HÀ NỘI - 2017
LỜI CẢM ƠN
Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự
giúp đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân. Đầu tiên, tác
giả xin bày tỏ lời tri ân tới GS.TS Vũ Đức Thi và TS. Tân Hạnh, những thầy giáo đã
tận tình hướng dẫn tác giả hoàn thành luận án này.
Tác giả xin gửi lời cảm ơn tới các thầy, cô giáo và cán bộ của Học viện Công
nghệ Bưu chính Viễn thông - Bộ Thông tin và Truyền thông, là cơ sở đào tạo đã
luôn tạo điều kiện để NCS có thể hoàn thành luận án của mình.
Tác giả xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Long Giang - một người
thầy thầm lặng và các cán bộ Phòng Tin học quản lý, Viện Công nghệ Thông tin,
Viện Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡ và tạo ra môi trường
nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơn các thầy cô và các
đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp ý chính xác để
tác giả có được những công bố như ngày hôm nay.
Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám đốc Học viện Cảnh sát
Nhân dân, các đồng nghiệp Bộ môn Toán - Tin học nơi tác giả công tác đã ủng hộ
để luận án được hoàn thành đúng thời hạn.
Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất
vì đã đồng hành cùng tác giả trong suốt thời gian qua. Con xin cảm ơn Cha, Mẹ và
gia đình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người
luôn mong mỏi cho con thành công; cảm ơn vợ và các em đã gánh vác công việc gia
đình thay cho anh; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian
bố học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp bố hoàn thành
được công việc khó khăn này.
Hà Nội, tháng 11 năm 2016
Cao Chính Nghĩa
LỜI CAM ĐOAN
Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được
hoàn thành dưới sự hướng dẫn của GS.TS. Vũ Đức Thi, TS. Tân Hạnh và TS.
Nguyễn Long Giang. Những kết quả trình bày là mới và chưa từng được công bố ở
các công trình của người khác.
Tôi xin chịu trách nhiệm về những lời cam đoan của mình.
Cao Chính Nghĩa
i
MỤC LỤC
MỤC LỤC ....................................................................................................................... i
Danh mục các thuật ngữ ................................................................................................ iii
Bảng các ký hiệu, từ viết tắt .......................................................................................... iv
Danh sách bảng ............................................................................................................ vii
Danh sách hình vẽ ....................................................................................................... viii
MỞ ĐẦU ....................................................................................................................... 1
CHƯƠNG 1. CÁC KIẾN THỨC CƠ SỞ ....................................................................... 9
1.1. Một số khái niệm về tập thô ............................................................................. 9
1.1.1. Hệ thông tin .............................................................................................. 9
1.1.2. Các tập xấp xỉ ......................................................................................... 10
1.1.3. Miền dương ............................................................................................ 11
1.1.4. Bảng quyết định ...................................................................................... 11
1.2. Một số khái niệm về tập thô mờ xác định trên bảng quyết định miền giá trị thực ...................................................................................................................... 11
1.2.1. Bảng quyết định miền giá trị thực ........................................................... 12
1.2.2. Quan hệ tương đương mờ ....................................................................... 12
1.2.3. Ma trận tương đương mờ ........................................................................ 13
1.2.4. Phân hoạch mờ và lớp tương đương mờ .................................................. 14
1.2.5. Các tập xấp xỉ mờ ................................................................................... 17
1.2.6. Miền dương mờ ...................................................................................... 17
1.3. Một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ ................ 18
1.3.1. Bảng quyết định mờ ................................................................................ 18
1.3.2. Phân hoạch mờ và lớp tương đương mờ .................................................. 20
1.3.3. Các tập xấp xỉ mờ ................................................................................... 21
1.3.4. Miền dương mờ ...................................................................................... 21
1.4. Rút gọn thuộc tính trong bảng quyết định....................................................... 23
1.4.1. Tổng quan về rút gọn thuộc tính ............................................................. 23
1.4.2. Tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô ............................................................................................................... 26
1.4.3. Định hướng nghiên cứu của luận án ........................................................ 28
1.5. Kết luận chương 1.......................................................................................... 29
ii
CHƯƠNG 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜ VÀ KHOẢNG CÁCH JACCARD MỜ .. 30
2.1. Đặt vấn đề ..................................................................................................... 30
2.2. Rút gọn thuộc tính sử dụng miền dương mờ ................................................... 31
2.2.1. Phương pháp rút gọn thuộc tính sử dụng miền dương mờ ....................... 32
2.2.2. Thử nghiệm và đánh giá kết quả ............................................................. 37
2.3. Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ ..................................... 44
2.3.1. Khoảng cách Jaccard mờ và các tính chất ............................................... 44
2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ .......... 52
2.3.3. Thử nghiệm và đánh giá kết quả ............................................................. 56
2.4. Kết luận chương 2.......................................................................................... 61
CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ .................................. 63
3.1. Đặt vấn đề ..................................................................................................... 63
3.2. Khoảng cách phân hoạch mờ và các tính chất ................................................ 64
3.3. Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch mờ ........... 70
3.4. Thử nghiệm và đánh giá kết quả .................................................................... 77
3.5. Kết luận chương 3.......................................................................................... 82
CHƯƠNG 4. RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH MỜ ................................................................................................................... 84
4.1. Đặt vấn đề ..................................................................................................... 84
4.2. Phương pháp rút gọn thuộc tính của bảng quyết định mờ ............................... 87
4.3. Phương pháp sinh luật quyết định của bảng quyết định mờ ............................ 91
4.3.1. Luật quyết định mờ ................................................................................. 92
4.3.2. Sinh luật quyết định từ bảng quyết định mờ ............................................ 93
4.3.3. Thử nghiệm và đánh giá kết quả ........................................................... 105
4.4. Kết luận chương 4........................................................................................ 110
KẾT LUẬN ............................................................................................................... 112
Danh mục các công trình của tác giả .......................................................................... 114
TÀI LIỆU THAM KHẢO .......................................................................................... 115
iii
Danh mục các thuật ngữ
Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh
Bảng quyết định Decision Table
Bảng quyết định miền giá trị thực Numerical Decision Table
Bảng quyết định mờ Fuzzy Decision Table
Hệ thông tin Information System
Khoảng cách mờ Fuzzy Distance
Luật quyết định mờ Fuzzy Decision Rule
Ma trận tương đương mờ Fuzzy Equivalent Relational Matrix
Miền dương mờ Fuzzy Positive Region
Quan hệ tương đương Equivalent Relation
Quan hệ tương đương mờ Fuzzy Equivalent Relation
Rút gọn thuộc tính Attribute Reduction
Tập mờ Fuzzy Set
Tập rút gọn Reduct
Tập thô Rough Set
Tập thô mờ Fuzzy Rough Set
Xấp xỉ dưới Lower Approximation
Xấp xỉ trên Upper Approximation
Xấp xỉ dưới mờ Fuzzy Lower Approximation
Xấp xỉ trên mờ Fuzzy Upper Approximation
iv
Bảng các ký hiệu, từ viết tắt
Ký hiệu, từ viết tắt Diễn giải
,I S U A Hệ thông tin
,D T U C D Bảng quyết định
,DT U C D Bảng quyết định mờ
U Số đối tượng
C Số thuộc tính điều kiện trong bảng quyết định
A Số thuộc tính
u a Giá trị của đối tượng u tại thuộc tính a
I N D P Quan hệ P không phân biệt
Pu Lớp tương đương chứa u của quan hệ IND P
Pi Ru
Lớp tương đường mờ chứa u của quan hệ tương đương mờ PR
/U P Phân hoạch của U sinh bởi tập thuộc tính P
P Phân hoạch mờ theo tập thuộc tính P
PX Pxấp xỉ dưới của X
PX Pxấp xỉ trên của X
PP N X Pmiền biên của X
PP O S D Pmiền dương của D
PS IG b Độ quan trọng của thuộc tính b với tập thuộc tính P
( )A u Hàm thuộc của đối tượng u với tập mờ A
H P Entropy Shannon
E P Entropy Liang
v
,P QNFD R R Khoảng cách phân hoạch mờ giữa hai phân hoạch mờ PR
và QR
,N Fd C C D Khoảng cách phân hoạch mờ giữa hai tập thuộc tính C và
C D
( , )F JD A B Khoảng cách Jaccard mờ giữa hai tập mờ A và B
,F Jd C C D Khoảng cách Jaccard mờ giữa hai tập thuộc tính C và
C D
F_RSAR1 Thuật toán rút gọn thuộc tính dựa trên miền dương mờ
F_RSAR1 (Fuzzy Rough Set Based Attribute Reduction 1)
F_RSAR2 Thuật toán rút gọn thuộc tính dựa trên miền dương mờ
F_RSAR2 (Fuzzy Rough Set Based Attribute Reduction 2)
FJ_DBAR Thuật toán rút gọn thuộc tính dựa trên khoảng cách Jaccard
mờ (Fuzzy Jaccard Distance Based Attribute Reduction)
FJ_RBAR Thuật toán sinh luật quyết định mờ dựa trên khoảng cách
Jaccard mờ (Fuzzy Jaccard Rule Based Attribute Reduction)
NF_DBAR Thuật toán rút gọn thuộc tính dựa trên khoảng cách phân
hoạch mờ (New Fuzzy Distance Based Attribute Reduction)
FAR-VPFRS
Thuật toán rút gọn thuộc tính dựa trên miền dương mờ
(Forward Attribute Reduction Based On Variable Precision
Fuzzy-Rough Model)
FA-FPR
Thuật toán rút gọn thuộc tính dựa trên miền dương mờ cải
tiến (Forward Approximation - Fuzzy Positive Region
Reduction)
FA-FSCE
Thuật toán rút gọn thuộc tính dựa trên Entropy cải tiến
(Forward Approximation - Fuzzy Conditional Entropy To
Design A Heuristic Feature Selection Algorithm)
vi
GRAF
Thuật toán rút gọn thuộc tính dựa trên Entropy tăng thêm
(Attribute Selection Based On Information Gain Ratio In
Fuzzy Rough Set Theory)
MRBFA Thuật toán sinh luật quyết định mờ dựa trên xấp xỉ tiến
(Mine Rules Based On The Forward Approximation)
MRBBA Thuật toán sinh luật quyết định mờ dựa trên xấp xỉ lùi (Mine
Rules Based On The Backward Approximation)
vii
Danh sách bảng
Bảng 1.1. Bảng quyết định miền giá trị thực .................................................................... 12
Bảng 1.2. Bảng quyết định mờ chơi thể thao ................................................................... 18
Bảng 1.3. Bảng quyết định mờ của Ví dụ 1.3 .................................................................. 22
Bảng 2.1. Bảng quyết định miền giá trị thực của Ví dụ 2.1 .............................................. 34
Bảng 2.2. Bộ dữ liệu thử nghiệm ..................................................................................... 37
Bảng 2.3. Kết quả thực nghiệm của F_RSAR2, FAR-VPFRS ......................................... 40
Bảng 2.4. Tập rút gọn của F_RSAR2, FAR-VPFRS ........................................................ 42
Bảng 2.5. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS .............................. 42
Bảng 2.6. Kết quả thực nghiệm của FJ_DBAR và GRAF ............................................... 57
Bảng 2.7. Tập rút gọn thu được bởi FJ_DBAR và GRAF ................................................ 59
Bảng 2.8. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF ..................................... 59
Bảng 3.1. Mối liên hệ giữa khoảng cách phân hoạch mờ và entropy thông tin ................. 69
Bảng 3.2. Kết quả thực nghiệm của FA_FSCE, FA_FPR, NF_DBAR ............................. 78
Bảng 3.3. Tập rút gọn của FA_FSCE, FA_FPR, NF_DBAR .......................................... 80
Bảng 3.4. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR, NF_DBAR .................. 80
Bảng 4.1. Bảng quyết định mờ chơi thể thao biểu diễn lại Bảng 1.2 ................................ 89
Bảng 4.2. Bảng quyết định mờ chơi thể thao đã rút gọn thuộc tính .................................. 97
Bảng 4.3. Khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ của Bảng 4.2 ......... 98
Bảng 4.4. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.9) ................................... 100
Bảng 4.5. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.8) ................................... 101
Bảng 4.6. Kết quả gán nhãn của Bảng 4.2 với (α=0.26) ................................................ 103
Bảng 4.7. Kết quả thực nghiệm của MRBFA, MRBBA và FJ_RBAR ........................... 108
viii
Danh sách hình vẽ
Hình 1.1. Quá trình lựa chọn thuộc tính .......................................................................... 25
Hình 1.2. Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói ................................. 26
Hình 1.3. Mô hình phương pháp heuristic rút gọn thuộc tính .......................................... 27
Hình 2.1. Thời gian thực hiện của F_RSAR2, FAR-VPFRS ............................................ 41
Hình 2.2. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS .............................. 43
Hình 2.3. Thời gian thực hiện của FJ_DBAR và GRAF ................................................. 58
Hình 2.4. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF ..................................... 61
Hình 3.1. Thời gian thực hiện của FA_FSCE, FA_FPR, NF_DBAR ............................... 79
Hình 3.2. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR và NF_DBAR ............. 81
Hình 4.1. Phân lớp dữ liệu theo các luật quyết định mờ ................................................... 86
Hình 4.2. Độ chính xác phân lớp của MRBFA, MRBBA và FJ_RBAR ......................... 109
Hình 4.3. Độ phân tán dữ liệu của MRBFA, MRBBA và FJ_RBAR ............................. 109
1
MỞ ĐẦU
Rút gọn thuộc tính và sinh luật quyết định (luật phân lớp) là hai bài toán
quan trọng trong quá trình khám phá tri thức từ dữ liệu. Rút gọn thuộc tính thuộc
giai đoạn tiền xử lý dữ liệu còn sinh luật quyết định thuộc giai đoạn khai phá dữ
liệu. Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất
của tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin
phân lớp của bảng quyết định, gọi là tập rút gọn (reduct). Kết quả rút gọn thuộc tính
ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ,
cải thiện chất lượng, tính dễ hiểu của các kết quả thu được. Sinh luật quyết định là
bước tiếp theo của rút gọn thuộc tính trong khai phá dữ liệu nhằm đánh giá chất
lượng phân lớp của dữ liệu thông qua độ hỗ trợ của tập luật quyết định. Độ chính
xác phân lớp được đánh giá thông qua tỷ lệ phân lớp đúng theo luật quyết định trên
tổng số lớp của tập dữ liệu.
Các kỹ thuật rút gọn thuộc tính được phân thành hai loại: Lựa chọn thuộc
tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [44]. Lựa
chọn thuộc tính là chọn ra một tập con tốt nhất (theo một nghĩa nào đó) từ tập dữ
liệu ban đầu. Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính của tập dữ
liệu ban đầu thành một tập dữ liệu với các thuộc tính mới có số lượng ít hơn sao cho
bảo tồn được thông tin nhiều nhất. Các công trình nghiên cứu về rút gọn thuộc tính
thường tập trung vào nghiên cứu các kỹ thuật lựa chọn thuộc tính. Lựa chọn thuộc
tính là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm A thuộc tính
(PA) sao cho không gian thuộc tính được thu gọn lại một cách tối ưu theo một tiêu
chuẩn nhất định. Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn
thuộc tính: Lọc (filter) và đóng gói (wrapper). Cách tiếp cận kiểu lọc thực hiện việc
lựa chọn thuộc tính độc lập với thuật toán khai phá sử dụng sau này. Các thuộc tính
được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu. Ngược lại
với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn
bằng cách áp dụng ngay kỹ thuật khai phá cụ thể, độ chính xác của kết quả được lấy
làm tiêu chuẩn để lựa chọn các tập con thuộc tính [44].
2
Lý thuyết tập thô (Rough set) do Pawlak đề xuất [66] là công cụ hiệu quả
giải quyết bài toán rút gọn thuộc tính trong bảng quyết định và được cộng đồng
nghiên cứu về tập thô thực hiện lâu nay. Trong lý thuyết tập thô, dữ liệu được biểu
diễn thông qua một hệ thông tin ,IS U A với U là tập các đối tượng và A là tập
các thuộc tính. Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ
không phân biệt được để đưa ra các tập xấp xỉ biểu diễn tập đối tượng cần quan sát.
Bảng quyết định là một hệ thông tin IS với tập thuộc tính A được chia thành hai
tập con khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và
tập thuộc tính quyết định. Nói cách khác, ,DT U C D với C D . Bảng
quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại các thuộc
tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính quyết định.
Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực
hiện trên các bảng quyết định có miền giá trị rời rạc. Trong thực tế, miền giá trị
thuộc tính của các bảng quyết định thường chứa giá trị thực. Ví dụ, thuộc tính trọng
lượng cơ thể và huyết áp trong bảng dữ liệu bệnh nhân thường là các giá trị thực,
liên tục. Để thực hiện các phương pháp rút gọn thuộc tính theo tiếp cận tập thô,
miền giá trị thuộc tính thực, liên tục cần được rời rạc hóa. Tuy nhiên, các phương
pháp rời rạc hóa không bảo toàn sự khác nhau ban đầu giữa các đối tượng trong dữ
liệu gốc và do đó làm giảm độ chính xác phân lớp sau khi rút gọn thuộc tính. Để
giải quyết bài toán rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá
trị thực, trong mấy năm gần đây các nhà nghiên cứu đề xuất hướng tiếp cận mới sử
dụng lý thuyết tập thô mờ.
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois, D., và Prade, H., [32],
[33] đề xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các
tập mờ dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác
định trên miền giá trị thuộc tính. Lý thuyết tập thô truyền thống dựa trên quan hệ
tương đương để xấp xỉ tập hợp, trong đó độ tương đương của hai đối tượng là 1 nếu
chúng tương đương, ngược lại là 0 nếu chúng không tương đương. Lý thuyết tập thô
3
mờ sử dụng quan hệ tương đương mờ thay thế quan hệ tương đương, độ tương
đương mờ của hai đối tượng là một giá trị nằm trong đoạn [0,1] cho thấy tính gần
nhau, hay khả năng phân biệt giữa hai đối tượng. Do đó, quan hệ tương đương mờ
bảo toàn sự khác nhau, hay độ tương đương, giữa các đối tượng và các phương pháp
rút gọn thuộc tính theo tiếp cận tập thô mờ có tiềm năng trong việc bảo toàn độ
chính xác phân lớp sau khi thực hiện các phương pháp rút gọn thuộc tính.
Chủ đề nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thô mờ đã thu hút
sự quan tâm của các nhà nghiên cứu trong mấy năm gần đây. Các nghiên cứu liên
quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung giải quyết hai bài toán
chính:
1) Bài toán thứ nhất là rút gọn thuộc tính trực tiếp trên các bảng quyết định
có miền giá trị thực (miền giá trị thuộc tính là các số thực) không qua
bước rời rạc hoá dữ liệu [15], [18], [24], [26], [36], [38], [39], [63], [79],
[80], [97]. Với bài toán này, đối tượng nghiên cứu là các bảng quyết định
miền giá trị thực. Một quan hệ tương đương mờ được định nghĩa trên
miền giá trị của thuộc tính. Quan hệ này cho phép xác định các ma trận
tương đương mờ. Dựa trên ma trận quan hệ tương đương mờ, các toán tử
của tập thô mờ được xây dựng như lớp tương đương mờ, tập xấp xỉ dưới
mờ và xấp xỉ trên mờ, miền dương mờ... Lớp tương đương mờ là đơn vị
cơ sở để xây dựng các độ đo hiệu quả giải quyết bài toán rút gọn thuộc
tính. Các kết quả nghiên cứu theo hướng tiếp cận này tập trung vào ba
nhóm chính: Nhóm các phương pháp sử dụng miền dương mờ [9], [38]-
[40], [72], nhóm phương pháp sử dụng ma trận phân biệt mờ [15], [18],
[26], [80], nhóm phương pháp sử dụng entropy thông tin mờ [24], [38]-
[40], [88], [89]. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu
UCI [99] cho thấy, các phương pháp rút gọn thuộc tính theo hướng tiếp
cận này có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc
tính theo tiếp cận tập thô truyền thống. Tuy nhiên, chưa có nghiên cứu đầy
đủ để so sánh, đánh giá các phương pháp đã có về độ chính xác phân lớp
4
và thời gian thực hiện. Do đó, việc tìm kiếm các phương pháp hiệu quả
hơn các phương pháp đã công bố theo hướng tiếp cận này nhằm nâng cao
độ chính xác phân lớp và thời gian thực hiện là vấn đề nghiên cứu thứ
nhất của luận án.
2) Bài toán thứ hai là rút gọn thuộc tính và sinh luật trực tiếp trên bảng quyết
định mờ, là bảng quyết định mà giá trị thuộc tính là các tập mờ [9], [44],
[45], [47]-[51], [74], [88], [89]. Với bài toán này, đối tượng nghiên cứu là
các bảng quyết định mờ (là các bảng quyết định sau khi được mờ hóa
bằng các tập mờ). Các phân hoạch mờ được tính toán trên miền giá trị các
thuộc tính. Trên cơ sở đó, các lớp tương đương mờ được xác định. Các
lớp tương đương mờ là đơn vị tính toán cơ sở để tính toán các toán tử
trong lý thuyết tập thô mờ như các tập xấp xỉ mờ, miền dương mờ và là
đơn vị cơ sở để tính toán các độ đo sử dụng để giải quyết bài toán rút gọn
thuộc tính. Sinh luật là bài toán tiếp theo của rút gọn thuộc tính nhằm sinh
tập luật phân lớp dữ liệu. Các nghiên cứu liên quan đến việc giải quyết bài
toán sinh luật quyết định trên bảng quyết định mờ phải kể đến các công
trình [19], [21], [44], [51], [56], [74], [92]. Các công bố này sử dụng các
độ đo khác nhau nhằm trích lọc hệ luật mờ như sử dụng miền dương mờ
và một số độ đo khác. Việc tìm kiếm các độ đo nhằm nâng cao hiệu quả
của phương pháp trích lọc hệ luật mờ về thời gian thực hiện và độ chính
xác phân lớp là vấn đề nghiên cứu thứ hai của luận án.
Kỹ thuật sử dụng khoảng cách đóng vai trò quan trọng trong khai phá dữ
liệu. Trên thế giới, kỹ thuật này được nhiều người quan tâm nghiên cứu và áp dụng
vào việc giải quyết các bài toán như phân lớp, phân cụm, lựa chọn đặc trưng,…Ở
Việt Nam, luận án tiến sĩ của tác giả Nguyễn Long Giang là công trình nghiên cứu
khá đầy đủ về một số phương pháp rút gọn thuộc tính của bảng quyết định theo tiếp
cận lý thuyết tập thô, đặc biệt là phương pháp sử dụng khoảng cách [4]. Phương
pháp rút gọn thuộc tính sử dụng khoảng cách theo tiếp cận tập thô được chứng minh
là mang lại hiệu quả hơn so với các phương pháp khác [4]. Do đó, việc phát triển
5
các độ đo khoảng cách theo tiếp cận tập thô mờ (gọi là khoảng cách mờ) có tiềm
năng trong việc giải quyết bài toán rút gọn thuộc tính và sinh luật theo tiếp cận tập
thô mờ.
Từ các phân tích nêu trên, nghiên cứu sinh đặt ra mục tiêu nghiên cứu như
sau:
1) Với bài toán thứ nhất, nghiên cứu sinh tiếp tục nghiên cứu các phương
pháp hiệu quả rút gọn thuộc tính trực tiếp trên các bảng quyết định có
miền giá trị thực theo tiếp cận tập thô mờ. Tính hiệu quả dựa trên hai tiêu
chí đánh giá: Nâng cao độ chính xác phân lớp và cải thiện hiệu năng (thời
gian thực hiện) so với các phương pháp khác đã công bố. Việc tìm kiếm
các phương pháp dựa trên các độ đo khoảng cách đã được sử dụng trong
lý thuyết tập thô.
2) Với bài toán thứ hai, nghiên cứu sinh nghiên cứu các phương pháp hiệu
quả rút gọn thuộc tính và sinh luật quyết định trên bảng quyết định mờ.
Tính hiệu quả dựa trên hai tiêu chí đánh giá là độ chính xác phân lớp và
thời gian thực hiện.
Với mục tiêu đặt ra, luận án thu được các kết quả chính như sau:
1) Đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết
định miền giá trị thực theo tiếp cận tập thô mờ, bao gồm:
- Phương pháp rút gọn thuộc tính sử dụng miền dương mờ nhằm cải tiến
một số phương pháp dựa trên miền dương mờ đã công bố trước đó [38]
để tìm tập rút gọn không dư thừa thuộc tính và bảo toàn miền dương mờ.
Kết quả này công bố trong công trình [CCN1], [CCN2].
- Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ và
khoảng cách phân hoạch mờ. Khoảng cách Jaccard mờ được nghiên cứu
sinh xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn [4]
để đo khoảng cách giữa hai tập mờ. Khoảng cách phân hoạch mờ được
xây dựng dựa trên khoảng cách mờ giữa hai tập mờ do nghiên cứu sinh
6
đề xuất. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI [99]
chứng minh hai phương pháp sử dụng khoảng cách mờ hiệu quả hơn các
phương pháp đã công bố trên cả hai tiêu chí: Độ chính xác phân lớp và
thời gian thực hiện trên một số bộ dữ liệu thực nghiệm. Các kết quả này
góp phần hình thành nhóm phương pháp rút gọn thuộc tính sử dụng
khoảng cách mờ theo tiếp cận tập thô mờ, được công bố trong các công
trình [CCN3], [CCN4].
2) Đề xuất phương pháp rút gọn thuộc tính và sinh luật trong bảng quyết
định mờ theo tiếp cận tập thô mờ. Phương pháp rút gọn thuộc tính sử
dụng miền dương mờ được công bố trong công trình [CCN2], phương
pháp sinh hệ luật mờ trên bảng quyết định mờ sử dụng khoảng cách
Jaccard mờ được công bố trong [CCN5]. Bằng lý thuyết và thực nghiệm
chứng minh phương pháp đề xuất tương đương với các phương pháp
khác trên tiêu chí độ chính xác phân lớp dữ liệu.
Đối tượng nghiên cứu của luận án là các bảng quyết định có miền giá trị
thực và bảng quyết định mờ.
Phạm vi nghiên cứu của luận án tập trung trọng tâm vào hai bài toán:
1) Bài toán thứ nhất là rút gọn thuộc tính của bảng quyết định miền giá trị
thực trong bước tiền xử lý số liệu.
2) Bài toán thứ hai là rút gọn thuộc tính và sinh luật quyết định của bảng
quyết định mờ.
Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên
cứu thực nghiệm. Về nghiên cứu lý thuyết: Các định lý, mệnh đề trong luận án
được chứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu
đã công bố. Về nghiên cứu thực nghiệm: Luận án thực hiện cài đặt các thuật toán,
chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI [99], so sánh
và đánh giá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết và các công bố
khác để khẳng định được tính đúng đắn của kết quả nghiên cứu.
7
Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết
luận và danh mục các tài liệu tham khảo. Cụ thể như sau:
Chương 1 trình bày một số khái niệm cơ bản gồm: Một số khái niệm về lý
thuyết tập thô; một số khái niệm cơ bản về tập thô mờ xác định trên bảng quyết định
miền giá trị thực; một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ;
tổng quan về bài toán rút gọn thuộc tính. Các kiến thức cơ sở này được sử dụng trong
các chương sau, là các đóng góp chính của luận án.
Chương 2 trình bày các kết quả nghiên cứu về các phương pháp rút gọn thuộc
tính trong bảng quyết định miền giá trị thực sử dụng miền dương mờ và khoảng cách
Jaccard mờ, bao gồm:
1) Đề xuất cải tiến một thuật toán rút gọn thuộc tính của bảng quyết định dựa
trên miền dương mờ; đây là phương pháp tìm một tập rút gọn sử dụng
quan hệ tương đương mờ theo tiếp cận tập thô mờ có độ phức tạp tính toán
là hàm đa thức và bảo toàn miền dương mờ. Phương pháp đề xuất khắc
phục được một số hạn chế về thời gian tính toán hàm mũ như công bố của
nhóm tác giả trong [44] và bảo toàn miền dương mờ, tìm được một tập rút
gọn với số thuộc tính là nhỏ nhất, loại bỏ được các thuộc tính dư thừa như
trong công bố của nhóm tác giả trong [38].
2) Xây dựng thuật toán rút gọn thuộc tính của bảng quyết định miền giá trị
thực sử dụng khoảng cách Jaccard mờ. Khoảng cách Jaccard mờ được
nghiên cứu sinh xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp
hữu hạn [4] để đo khoảng cách giữa hai tập mờ. Kết quả so sánh đánh giá
phương pháp đề xuất với các phương pháp khác dựa trên hai tiêu chuẩn:
Độ chính xác phân lớp dữ liệu và thời gian thực hiện của phương pháp.
Chương 3 trình bày kết quả nghiên cứu về phương pháp rút gọn thuộc tính
trong bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách phân hoạch mờ,
bao gồm:
8
1) Đề xuất độ đo khoảng cách phân hoạch mờ dựa trên khoảng cách mờ giữa
hai tập mờ.
2) Xây dựng thuật toán rút gọn thuộc tính của bảng quyết định miền giá trị
thực sử dụng khoảng cách phân hoạch mờ. Kết quả so sánh đánh giá
phương pháp đề xuất với các phương pháp khác dựa trên hai tiêu chuẩn:
Độ chính xác phân lớp dữ liệu và thời gian thực hiện của phương pháp.
Chương 4 trình bày phương pháp rút gọn thuộc tính và sinh luật quyết
định của bảng quyết định mờ dựa trên tập thô mờ. Phương pháp rút gọn thuộc tính
sử dụng miền dương mờ, phương pháp sinh luật sử dụng khoảng cách Jaccard mờ.
Dựa trên lý thuyết và các thực nghiệm, chứng minh rằng phương pháp đề xuất là
tương đương với các phương pháp khác dựa trên tiêu chí độ chính xác phân lớp dữ
liệu và thời gian thực hiện; độ phức tạp tính toán của các phương pháp sinh luật
quyết định trong trường hợp tổng quát là ( )O C D U với |C| là số biến ngôn ngữ của
tất cả các thuộc tính điều kiện, |D| là số biến ngôn ngữ của tất cả các thuộc tính
quyết định, |U| là số đối tượng của bảng dữ liệu.
Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển
tiếp theo và những vấn đề quan tâm của tác giả.
9
CHƯƠNG 1. CÁC KIẾN THỨC CƠ SỞ
Nội dung của chương này trình bày những kiến thức cơ sở về tập thô, tập thô
mờ liên quan đến bài toán rút gọn thuộc tính và sinh luật quyết định; trình bày một số
khái niệm cơ bản về tập thô mờ trên bảng quyết định miền giá trị thực để giải quyết
bài toán rút gọn thuộc tính sử dụng quan hệ tương đương mờ; trình bày một số khái
niệm cơ bản về tập thô mờ trên bảng quyết định mờ để giải quyết bài toán rút gọn
thuộc tính và sinh luật quyết định dựa trên các phân hoạch mờ xác định trước trên
mỗi thuộc tính. Ngoài ra, Chương 1 trình bày tổng quan về rút gọn thuộc tính trong
bảng quyết định theo tiếp cận lý thuyết tập thô truyền thống, là cơ sở để phát triển
các kỹ thuật này theo tiếp cận tập thô mờ và định hướng nghiên cứu của luận án. Các
kết quả nghiên cứu được trình bày trong các chương tiếp theo của luận án.
1.1. Một số khái niệm về tập thô
Phần này trình bày tóm tắt một số khái niệm cơ bản về lý thuyết tập thô
truyền thống của Pawlak [66].
1.1.1. Hệ thông tin
Hệ thông tin là một cặp ,IS U A trong đó U là tập hữu hạn khác rỗng các
đối tượng gọi là tập vũ trụ; A là tập hữu hạn khác rỗng các thuộc tính.
Xét hệ thông tin ,IS U A , mỗi tập con thuộc tính P A xác định một
quan hệ hai ngôi trên U , ký hiệu là IND P , xác định bởi
( ) {( , ) | , ( ) ( )}IND P u v U U a P a u a v (1.1)
Ký hiệu a u là giá trị thuộc tính a tại đối tượng u, IND P được gọi là quan
hệ P-không phân biệt được. Dễ thấy rằng đây là một quan hệ tương đương trên U . Nếu
( , ) ( )u v IND P thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong
P . Quan hệ tương đương IND P xác định một phân hoạch trên U , ký hiệu là
/U IND P hay /U P , cụ thể:
10
/ : /U P a P U IND a (1.2)
với : , ,A B X Y X A Y B X Y .
Ký hiệu lớp tương đương trong phân hoạch /U P chứa đối tượng u là Pu , khi đó
,P
u v U u v IND P .
1.1.2. Các tập xấp xỉ
Cho hệ thông tin ,IS U A và tập đối tượng X U . Với một tập thuộc tính
P A cho trước, chúng ta có các lớp tương đương của phân hoạch /U P . Trong lý
thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương của
/U P (còn gọi là biểu diễn X bằng tri thức có sẵn P), người ta xấp xỉ X bởi hợp của
một số hữu hạn các lớp tương đương của /U P . Có hai cách xấp xỉ tập đối tượng X
thông qua tập thuộc tính P, được gọi là P-xấp xỉ dưới và P-xấp xỉ trên của X, ký
hiệu lần lượt là PX và PX , được xác định như sau:
,P
PX u U u X PPX u U u X (1.3)
Tập PX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
PX bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính P.
Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập
PPN X PX PX : P-miền biên của X,
U P X : P-miền ngoài của X. (1.4)
Dễ thấy P-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn P-
miền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các lớp
của phân hoạch /U P , các xấp xỉ dưới và trên của X có thể viết lại
/P X Y U P Y X , /P X Y U P Y X (1.5)
Trong trường hợp PPN X thì X được gọi là tập rõ, ngược lại X được
gọi là tập thô.
11
1.1.3. Miền dương
Xét hệ thông tin ,IS U A với ,P Q A , ta gọi tập /
( )PX U Q
POS Q PX
là
P-miền dương của Q. Dễ thấy ( )PPOS Q là tập các đối tượng trong U được phân lớp
đúng vào các lớp của /U Q sử dụng tập thuộc tính P. Rõ ràng, ( )PPOS Q là tập tất cả
các đối tượng u sao cho với mọi v U mà u P v P ta đều có u Q v Q . Nói
một cách hình thức, ( )P QPPOS Q u U u u .
1.1.4. Bảng quyết định
Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng
dụng là bảng quyết định. Bảng quyết định ,DT U C D là một dạng đặc biệt của
hệ thông tin, trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: Tập
các thuộc tính điều kiện C và tập các thuộc tính quyết định D với C D .
Bảng quyết định DT được gọi là nhất quán khi và chỉ khi phụ thuộc hàm CD
nghiệm đúng, nghĩa là với mọi , ,u v U u C v C kéo theo u D v D . Ngược lại
DT là không nhất quán. Dễ thấy bảng quyết định DT là nhất quán khi và chỉ khi
CPOS D U . Trong trường hợp bảng không nhất quán thì CPOS D chính là tập con
cực đại của U sao cho phụ thuộc hàm C D đúng.
Bảng quyết định DT được gọi là bảng quyết định miền giá trị thực nếu miền giá
trị của mọi c C là các giá trị số thực.
1.2. Một số khái niệm về tập thô mờ xác định trên bảng quyết định
miền giá trị thực
Trong mục này, luận án trình bày một số khái niệm về tập thô mờ xác định
trên bảng quyết định miền giá trị thực. Các khái niệm này được sử dụng để xây
dựng phương pháp rút gọn thuộc tính trong bảng quyết định miền giá trị thực theo
tiếp cận tập thô mờ, được trình bày ở Chương 2 và Chương 3 của luận án.
12
1.2.1. Bảng quyết định miền giá trị thực
Cho bảng quyết định ,DT U C D , nếu miền giá trị của mọi thuộc tính
c C là các giá trị số thực thì bảng quyết định DT được gọi là bảng quyết định miền
giá trị thực.
Ví dụ 1.1. Bảng quyết định miền giá trị thực ,DT U C D cho ở Bảng 1.1 với
1 2 3 4, , ,U u u u u , 1 2 3 4, , ,C c c c c .
Bảng 1.1. Bảng quyết định miền giá trị thực
U 1c 2c 3c 4c D
1u 2.5045 5.4072 1.4741 5.9308 0
2u 1.9559 4.0554 7.6407 9.4846 1
3u 4.3517 9.5647 3.4221 4.7597 1
4u 2.7831 9.2830 4.8055 9.8475 1
1.2.2. Quan hệ tương đương mờ
Cho bảng quyết định miền giá trị thực ,DT U C D , một quan hệ R xác
định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn
các điều kiện sau với mọi , ,x y z U
1) Tính phản xạ (reflexive): , 1R x x ;
2) Tính đối xứng (symetric): , ,R x y R y x ;
3)Tính bắc cầu max-min (max-min transitive): , min , , ,R x z R x y R y z ;
Cho hai quan hệ tương đương mờ PR và QR xác định trên tập thuộc tính P và Q,
khi đó với mọi ,x y U ta có [72]:
1) , ,P Q P QR R R x y R x y ; (1.6)
13
2) , max , , ,P Q P Q P QR R R R x y R x y R x y ; (1.7)
3) , min , , ,P Q P Q P QR R R R x y R x y R x y ; (1.8)
4) , ,P Q P QR R R x y R x y . (1.9)
1.2.3. Ma trận tương đương mờ
Cho bảng quyết định miền giá trị thực ,DT U C D với 1 2, ,..., nU x x x
và PR là quan hệ tương đương mờ xác định trên tập thuộc tính P C . Quan hệ PR
được biểu diễn bởi ma trận tương đương mờ ijPn n
M R p
như sau:
11 12 1
21 22 2
1 2
...
...( )
... ... ... ......
n
nP
n n nn
p p pp p p
M R
p p p
(1.10)
với ,Pij i jp R x x là giá trị của quan hệ giữa hai đối tượng ix và jx trên tập thuộc tính
P , 0,1ijp , , , 1 ,i jx x U i j n .
Trong các công trình [24], [69], [72], các tác giả sử dụng quan hệ tương
đương mờ theo công thức (1.11) để xây dựng các ma trận tương đương mờ trực tiếp
từ các thuộc tính của bảng quyết định có miền giá trị thực
max min max min
1 4* 0.25
0,
i j i j
ij
p x p x p x p x, ifp p p p p
otherwise
(1.11)
với ip x là giá trị của thuộc tính p tại đối tượng ix , max min,p p tương ứng là giá trị
lớn nhất, nhỏ nhất của thuộc tính p. Dễ thấy, giá trị các phần tử của ma trận tương
đương mờ thuộc đoạn [0,1], nếu max minp p (tử thức và mẫu thức đều bằng 0) thì
định nghĩa 1ijp . Khi đó sử dụng quan hệ tương đương mờ ở công thức (1.11) và
quan hệ tương đương ở công thưc (1.12) là như nhau
14
1ijp nếu j i Px x và 0ijp nếu j i P
x x (1.12)
Nói cách khác, lớp tương đương i Px có thể xem là lớp đương đương mờ, ký
hiệu là i Px , với hàm thuộc 1
i Pjx x nếu j i P
x x và 0i P
jx x nếu
.j i Px x
Do đó, luận án sử dụng quan hệ tương đương mờ xác định theo công thức
(1.11) để thực hiện các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết
định miền giá trị thực. Đối với các bảng quyết định có miền giá trị hỗn hợp (thuộc
tính định danh và thuộc tính số), luận án sử dụng kết hợp công thức (1.11) và (1.12)
để xây dựng các ma trận tương đương mờ, ma trận tương đương mờ của các thuộc
tính định danh được xây dựng theo công thức (1.12).
1.2.4. Phân hoạch mờ và lớp tương đương mờ
Cho bảng quyết định miền giá trị thực ,DT U C D và ,P Q C . Theo
[72] ta có P aa PR R và P Q P QR R R , nghĩa là với mọi ,x y U ,
, min , , ,P Q P QR x y R x y R x y . Giả sử ijPn n
M R p
và ij( )Q
n nM R q
là
ma trận tương đương mờ của PR , QR , khi đó ma trận tương đương mờ trên tập
thuộc tính S P Q là:
ij( )S P Qn n
M R M R s
với ij ij ijmin ,s p q (1.13)
Với P C , 1 2, ,..., nU x x x , quan hệ tương đương mờ PR xác định một phân
hoạch mờ / PP U R trên U
11/ ,...,
P P P
nP P i nR R Ri
R U R x x x
(1.14)
với 1 1 2 2/ / ... /Pi i i in nR
x p x p x p x là một tập mờ đóng vai trò là một lớp tương
đương mờ (fuzzy equivalent class) của đối tượng ix . Hàm thuộc của các đối tượng
xác định bởi:
15
, ,Pi RP
Pj i j i j ijx Rx x x R x x p với mọi jx U . (1.15)
Khi đó, lực lượng của lớp đương đương mờ Pi Rx được tính bởi [72]:
1P
n
i ijRj
x p
(1.16)
Ví dụ 1.2. Cho bảng quyết định miền giá trị thực (Bảng 1.1) của Ví dụ 1.1.
Ma trận tương đương mờ của thuộc tính 1c xác định theo công thức (1.11)
được tính
1
1 0.0841 0 0.53490.0841 1 0 0
0 0 1 00.534
( )
9 0 0 1
cM R
Ma trận tương đương mờ của thuộc tính D xác định theo công thức (1.11)
hoặc (1.12) cho kết quả như nhau
1 0 0 00 1 1 10 1 1 1
( )
0 1 1 1
DM R
Khi đó, lớp tương đương mờ của đối tượng 1x theo quan hệ 1cR của ma trận
1cM R là một tập mờ, ký hiệu là 1
1 Rcx được xác định như sau:
1
1 1 2 3 41/ 0.0841/ 0 / 0.5349 /Rc
x x x x x
Ký hiệu dấu “/” biểu diễn cặp giá trị của hàm thuộc với phần tử cụ thể tương
ứng của một đối tượng trong tập mờ. Ký hiệu dấu “+” biểu diễn sự kết hợp của các
phần tử trong tập mờ [40].
Phân hoạch mờ của quan hệ 1Rc thông qua ma trận 1cM R ở công thức
(1.14) được xác định như sau:
16
1 111 1 1 1
4
1 2 3 41
/ , , ,c c i Rc Rc Rc Rc Rci
R U R x x x x x
Các lớp tương đương mờ được xác định theo quan hệ 1Rc là:
1
1 1 2 3 41/ 0.0841/ 0 / 0.5349 /Rc
x x x x x
1
2 1 2 3 40.0841/ 1/ 0/ 0/Rc
x x x x x
1
3 1 2 3 40 / 0 / 1/ 0 /Rc
x x x x x
1
4 1 2 3 40.5349/ 0/ 0/ 1/Rc
x x x x x
Lực lượng của lớp tương đương mờ của đối tượng 1x theo quan hệ 1cR của
ma trận 1cM R , ký hiệu là 1
1 Rcx được xác định như sau:
1
1 1 0.0841 0 0.5 4 1. 199 63Rc
x
Gọi là tập tất cả các phân hoạch mờ trên U xác định bởi các quan hệ tương
đương mờ trên các tập thuộc tính, khi đó được gọi là một không gian phân hoạch
mờ trên U. Như vậy, một không gian phân hoạch mờ được xác định bởi quan hệ
tương đương mờ định nghĩa trực tiếp trên miền giá trị thuộc tính. Mỗi tập thuộc tính
P A xác định một phân hoạch / PP U R .
Xét phân hoạch mờ 1 , ...,P P
P nR RR x x với 1 1/ ... /
Pi i in nRx p x p x .
Trường hợp đặc biệt, nếu 0ijp với ,i j n thì 0Pi R
x và khi đó phân hoạch mờ
PR được gọi là mịn nhất, ký hiệu là . Khi đó 1 ,..., nx x
với
1/ , , , 0n
i ij j ijjx x i j n
. Nếu 1ijp với ,i j n thì Pi R
x U với i n và
khi đó phân hoạch mờ PR được gọi là thô nhất, ký hiệu là . Khi đó
1 , ..., nx x
với 1/ , , , 1n
i ij j ijjx x i j n
.
17
1.2.5. Các tập xấp xỉ mờ
Cho bảng quyết định miền giá trị thực ,DT U C D . Giả sử PR là một
quan hệ tương đương mờ xác định trên tập thuộc tính P C . Theo mục (1.2.4),
Pi Rx là một tập mờ đóng vai trò là một lớp tương đương mờ của đối tượng ix U .
Hàm thuộc của các đối tượng jx U xác định bởi:
, ,
Pi RPPj i j i j ijx Rx x x R x x p với mọi jx U (1.17)
với ijPn n
M R p
là ma trận tương đương mờ của PR .
Cho X là một tập mờ trên U và PR là một quan hệ tương đương mờ trên tập
thuộc tính P C . Khi đó, tập xấp xỉ dưới PR X và tập xấp xỉ trên PR X của X là
các tập mờ và hàm thuộc của các đối tương x U được xác định như sau [32], [33],
[44], [47]:
/
sup , inf 1 ,P
PF F XR X y UF U R
x min x max y y
(1.18)
/
sup ,sup ,P
PF F XR X y UF U R
x min x min y y
(1.19)
với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F
là các lớp tương đương mờ của phân hoạch mờ / PU R . Bộ , PPR X R X được gọi
là tập thô mờ [32], [33], [44], [47]. Mô hình tập thô mờ này được xây dựng trên
quan hệ tương đương mờ xác định trên miền giá trị thuộc tính của bảng quyết định
giá trị thực.
1.2.6. Miền dương mờ
Theo lý thuyết tập thô truyền thống, khái niệm miền dương được định nghĩa
là giao của tất cả các tập xấp xỉ dưới. Trong lý thuyết tập thô mờ, với hai quan hệ
tương đương mờ ,P QR R xác định trên hai tập thuộc tính ,P Q C , miền dương mờ
18
P
QRPOS R là một tập mờ, hàm thuộc của các đối tượng x U được xác định như
sau:
/sup
Q PR P QR XPOS R
X U Rx x
(1.20)
1.3. Một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ
Mục này trình bày một số khái niệm về tập thô mờ xác định trên bảng quyết
định mờ. Các khái niệm này được sử dụng để xây dựng phương pháp rút gọn thuộc
tính và sinh luật trực tiếp trên bảng quyết định mờ theo tiếp cận tập thô mờ. Các
khái niệm này được sử dụng ở Chương 4 của luận án.
1.3.1. Bảng quyết định mờ
Bảng quyết định mờ là bảng quyết định mà các thuộc tính là các tập mờ
(fuzzy set). Bảng quyết định ,DT U C D với 1 9, ...,U u u , C ={Thời tiết,
Nhiệt độ, Độ ẩm}, D ={Quyết định} cho ở Bảng 1.2 dưới đây là một ví dụ minh họa
về bảng quyết định mờ [19], [21].
Bảng 1.2. Bảng quyết định mờ chơi thể thao
TT Thời tiết Nhiệt độ Độ ẩm Quyết định
Có
nắng
Có
mây
Có
mưa Nóng
Trung
bình Lạnh
Ẩm
ướt
Bình
thường
Bóng
chuyền Bơi
Lướt
ván
1u 0.3 0.7 0 0.2 0.7 0.1 0.3 0.7 0.1 0.9 0
2u 1 0 0 1 0 0 0.7 0.3 0.8 0.2 0
3u 0 0.3 0.7 0 0.7 0.3 0.6 0.4 0 0.2 0.8
4u 0.8 0.2 0 0 0.7 0.3 0.2 0.8 0.6 0.3 0.1
5u 0.5 0.5 0 1 0 0 0 1 0.6 0.8 0
6u 0 0.2 0.8 0 1 0 0 1 0 0.7 0.3
19
7u 1 0 0 0.7 0.3 0 0.2 0.8 0.7 0.4 0
8u 0.1 0.8 0.1 0 0.9 0.1 0.7 0.3 0 0 1
9u 0.3 0.7 0 0.9 0.1 0 1 0 0 0 1
Trên bảng quyết định mờ, mỗi thuộc tính chứa các biến ngôn ngữ hay là các
tập mờ, được biểu diễn bởi các cột. Ví dụ thuộc tính “Thời tiết”, mỗi thành phần
“Có nắng”, “Có mây” hoặc “Có mưa” là các biến ngôn ngữ hay các tập mờ. Giá trị
của đối tượng trên các tập mờ chính là giá trị của hàm thuộc, ví dụ: μ Có nắng (u1) =
0.3.
Bảng quyết định mờ thường thể hiện ở ba dạng sau [21]: Tập thuộc tính điều
kiện là tập rõ và tập thuộc tính quyết định là tập mờ; tập thuộc tính điều kiện là tập
mờ và tập thuộc tính quyết định là tập rõ; cả tập thuộc tính điều kiện và tập thuộc
quyết định đều là các tập mờ.
Từ bảng quyết định gốc (ví dụ từ các bảng dữ liệu từ kho dữ liệu UCI [99]),
việc xây dựng bảng quyết định mờ phụ thuộc vào việc lựa chọn số lượng biến ngôn
ngữ (tập mờ) cho mỗi thuộc tính và phụ thuộc vào việc lựa chọn hàm thuộc cho tập
mờ. Ví dụ: Thuộc tính “nhiệt độ cơ thể” có thể sử dụng ba biến ngôn ngữ (3 tập mờ)
là nóng, trung bình, lạnh...và phụ thuộc vào ngữ cảnh của mỗi bài toán cụ thể mà có
các phương án lựa chọn tốt nhất. Trong phạm vi luận án, việc xây dựng phương
pháp rút gọn thuộc tính và sinh luật được thực hiện trên bảng quyết định mờ. Còn
việc chuyển đổi từ bảng quyết định gốc sang bảng quyết định mờ là lĩnh vực nghiên
cứu khác, ngoài phạm vi của luận án.
Trong tập rõ, người ta sử dụng hàm thuộc để xác định một phần tử có thuộc
về tập A hay không theo công thức (1.21)
1
( )0A
if u Au u U
if u A
(1.21)
20
Ngược lại, lý thuyết tập mờ cho phép xác định mức độ một phần tử u thuộc
về một tập mờ A là 0 ( ) 1,A u u U . Cho A và B là hai tập mờ của tập vũ trụ U
với hàm thuộc A , B tương ứng. Một số phép toán giữa hai tập mờ A và B được
xác định như sau [93]:
1) ( ) max{ ( ), ( )},A B A Bu u u u U
; (1.22)
2) ( ) min{ ( ), ( )},A B A Bu u u u U
; (1.23)
3) ( ) 1 ( ),AAu u u U . (1.24)
1.3.2. Phân hoạch mờ và lớp tương đương mờ
Như đã trình bày ở mục 1.3.1, với bảng quyết định mờ ,DT U C D , mỗi
thuộc tính xác định được các tập mờ, mỗi tập mờ xác định được hàm thuộc của tất
cả các đối tượng, là giá trị của đối tượng trên cột (tập mờ) của bảng quyết định mờ.
Cho bảng quyết định mờ ,DT U C D , với thuộc tính a C , phân hoạch
mờ /U a được xác định là các tập mờ (biến ngôn ngữ) của thuộc tính a C . Khi
đó, phân hoạch mờ sinh ra bởi tập thuộc tính P C được xác định như sau:
/ : /U P a P U a (1.25)
với : , ,A B X Y X A Y B X Y .
Mỗi phần tử trong phân hoạch mờ /U P là một lớp tương đương mờ. Hàm
thuộc của các đối tượng được định nghĩa dựa trên lý thuyết tập mờ như sau:
1 1 2... , ,...,n nF F F F Fx min x x x (1.26)
với iF là các lớp tương đương mờ đã được xác định.
21
1.3.3. Các tập xấp xỉ mờ
Cho bảng quyết định mờ ,DT U C D và P C . Với tập mờ X , dựa vào
các lớp tương đương mờ, tập xấp xỉ dưới mờ và xấp xỉ trên mờ của tập X là các
tập mờ và hàm thuộc của các đối tượng được xác định như sau:
/sup , inf 1 ,F FPX Xy UF U P
x min x max y y
(1.27)
/sup ,sup ,F F XP X y UF U P
x min x min y y
(1.28)
với ký hiệu inf X , sup X tương ứng là cận dưới đúng và cận trên đúng của tập hợp
X . F là các lớp tương đương mờ của phân hoạch mờ /U P được tính trên bảng
quyết định mờ theo mục 1.3.2. Bộ ,PX PX được gọi là một tập thô mờ được xây
dựng trên các phân hoạch mờ xác định trước trên mỗi thuộc tính của bảng quyết
định mờ.
1.3.4. Miền dương mờ
Cho bảng quyết định mờ ,DT U C D với ,P Q C . Khi đó, miền dương
mờ là tập mờ, hàm thuộc của các đối tượng được tính trực tiếp từ bảng quyết định
mờ bởi các tập xấp xỉ dưới mờ như sau [47]:
/
supP P XPOS Q
X U Qx x
(1.29)
Lực lượng của miền dương mờ được tính theo công thức [47]
P PPOS Q x U POS Qx x
(1.30)
Ví dụ 1.3. [47] Bảng quyết định mờ ,DT U C D cho ở Bảng 1.3 với
, ,C a b c , D d .
22
Bảng 1.3. Bảng quyết định mờ của Ví dụ 1.3
Đối
tượng
a b c d
Na Za Nb Zb Nc Zc
1u 0.8 0.2 0.6 0.4 1 0 No
2u 0.8 0.2 0 0.6 0.2 0.8 Yes
3u 0.6 0.4 0.8 0.2 0.6 0.4 No
4u 0 0.4 0.6 0.4 0 1 Yes
5u 0 0.6 0.6 0.4 0 1 Yes
6u 0 0.6 0 1 0 1 No
Các lớp tương đương mờ sinh bởi các tập thuộc tính a , b , c tương
ứng là: / { } ,a aU a N Z , / {b} ,b bU N Z , / {c} ,c cU N Z với ,a aN Z là hai tập
mờ xác định trên thuộc tính a ; ,b bN Z là hai tập mờ xác định trên thuộc tính b và
,c cN Z là hai tập mờ xác định trên thuộc tính c ;
1 3 6 2 4 5/ / { } , , , , ,U D U d u u u u u u .
Tính các tập xấp xỉ dưới đối với các thuộc tính a , b và c . Xét thuộc tính a ,
với lớp tương đương 1 3 61 3 6 , ,, , , a u u uX u u u x được tính:
1 3 61 3 6 , ,, ,/{a}
sup , inf 1 ,F F u u ua u u u y UF Ux min x max y y
Xét lớp tương đương mờ aN trên thuộc tính a , ta có:
1 3 6, ,, inf 1 ,a a u u uN Ny U
min x max y y
Đối tượng u1 được tính:
0.8,inf 1,0.2,1,0.4,1,1 0.2min
23
Tương tự đối với aZ
0.2, inf 1,0.8,1,0.6,0.4,1 0.2min
Vì vậy 11,3,6 0.2a u . Tính a -xấp xỉ dưới của 1 3 6, ,X u u u đối với các
đối tượng khác bằng cách tương tự ta có: 1 3 6 2, , 0.2a u u u u ,
1 3 6 3, , 0.4a u u u u ,
1 3 6 4, , 0.4a u u u u ,
1 3 6 5, , 0.4a u u u u , 1 3 6 6, , 0.4a u u u u .
Tính tương tự với lớp tương đương 2 4 52 4 5 , ,, , , a u u uX u u u x , miền dương
mờ đối với các đối tượng được tính bởi công thức (1.29). Ta có: 1 0.2aPOS d u ,
2 0.2aPOS d u ,
3 0.4aPOS d u ,
4 0.4aPOS d u ,
5 0.4aPOS d u ,
6 0.4aPOS d u . Từ đó, lực lượng của miền dương mờ của {d} trên { }a tính theo
công thức (1.30) là 2aPOS d x .
Tính tương tự đối với thuộc tính b và c , ta có: 2.4bPOS d x
,
1.6cPOS d x
,
{a , b}3.4POS d x
,
{b ,c}
3.2POS d x
,
{a , b , c} C3.4POS d POS dx x
.
1.4. Rút gọn thuộc tính trong bảng quyết định
1.4.1. Tổng quan về rút gọn thuộc tính
Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý số liệu với
mục tiêu là giảm số chiều dữ liệu (số thuộc tính) bằng cách loại bỏ dữ liệu dư thừa
nhằm nâng cao hiệu quả của các thuật toán khai phá dữ liệu và học máy. Rút gọn
thuộc tính của bảng quyết định là quá trình lựa chọn tập con của tập thuộc tính điều
kiện mà bảo toàn thông tin phân lớp của bảng quyết định, gọi là tập rút gọn (reduct).
Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ
24
khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của các kết quả thu
được.
Các kỹ thuật rút gọn thuộc tính được phân thành hai loại: Lựa chọn thuộc
tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [44].
Lựa chọn thuộc tính là chọn một tập con tốt nhất (theo một nghĩa nào đó) từ
tập dữ liệu ban đầu.
Biến đổi thuộc tính thực hiện việc biến đổi các thuộc tính ban đầu thành một
tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều
nhất.
Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên
cứu các kỹ thuật lựa chọn thuộc tính. Lựa chọn thuộc tính là qúa trình lựa chọn một
tập con gồm P thuộc tính từ tập gồm A thuộc tính (P A) sao cho không gian thuộc
tính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một
tập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề này
thuộc lớp bài toán NP-khó. Nhìn chung, một thuật toán lựa chọn thuộc tính thường
bao gồm bốn khâu cơ bản:
Tạo lập tập con
Đánh giá tập con
Kiểm tra điều kiện dừng
Kiểm chứng kết quả.
Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tập
con để đánh giá, lựa chọn. Giả sử có A thuộc tính trong tập dữ liệu ban đầu, khi đó
số tất cả các tập con từ A thuộc tính sẽ là 2 A . Như vậy, rất khó khăn khi tìm tập con
tối ưu từ tất cả các tập con này. Phương pháp chung để tìm tập con thuộc tính tối ưu
là lần lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được
đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất trước
đó. Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm tập con thuộc
tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra:
25
Đã thu được số thuộc tính quy định
Số bước lặp quy định cho quá trình lựa chọn đã hết
Việc thêm vào hay loại bớt một thuộc tính nào đó không cho một tập con trở
nên tốt hơn
Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá. Tập con tốt nhất cuối
cùng phải được kiểm chứng thông qua việc tiến hành các phép kiểm định, so sánh
các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập thuộc tính ban đầu trên
các tập dữ liệu khác nhau. Quá trình lựa chọn thuộc tính được biểu diễn như hình
sau [44]:
Hình 1.1. Quá trình lựa chọn thuộc tính
Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc
(filter) và đóng gói (wrapper). Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc
tính độc lập với các thuật toán khai phá sử dụng sau này. Các thuộc tính được chọn
chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu. Ngược lại với cách
tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn bằng cách áp
dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừa thu được, độ chính xác của
kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính. Các hướng tiếp
cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểu diễn [44].
Tập con phù hợp
Tập
thuộc tính Tạo lập tập con Đánh giá
Điều kiện dừng
Kiểm chứng kết quả
Tập con
Sai Đúng
26
Hình 1.2. Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói
1.4.2. Tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp
cận tập thô
Lý thuyết tập thô được xem là công cụ hiệu quả để giải quyết bài toán rút
gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực hiện lâu nay [1]-[8].
Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực hiện
trên các bảng quyết định có miền giá trị rời rạc, nghĩa là các bảng quyết định thu
được sau khi thực hiện bước rời rạc hóa dữ liệu. Đối với một bảng quyết định có thể
có nhiều tập rút gọn khác nhau. Tuy nhiên, thực tế thường không đòi hỏi tìm tất cả
các tập rút gọn mà chỉ cần tìm được một tập rút gọn (tốt nhất) theo một tiêu chuẩn
đánh giá nào đó là đủ. Theo lý thuyết tập thô, Pawlak đưa ra khái niệm tập rút gọn
dựa trên miền dương và xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất
của bảng quyết định dựa trên tiêu chí đánh giá là độ quan trọng của thuộc tính.
Phương pháp heuristic tìm một tập rút gọn tốt nhất bao gồm các bước: Định nghĩa
tập rút gọn, định nghĩa độ quan trọng của thuộc tính và sau đó xây dựng thuật toán
heuristic tìm một tập rút gọn. Phương pháp rút gọn thuộc tính heuristic được mô
hình hóa như sau:
Đóng gói
Tập thuộc tính Lựa chọn thuộc tính tập con
Lọc
Giải thuật học
Tập thuộc tính Tạo lập tập con Giải thuật học
Các tập con
Đánh giá
27
Hình 1.3. Mô hình phương pháp heuristic rút gọn thuộc tính
Các thuật toán heuristic tìm tập rút gọn thường được xây dựng theo hai
hướng tiếp cận khác nhau: Hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp
cận từ trên xuống (top-down).
Hướng tiếp cận Botton-Up
Xuất phát từ tập rỗng hoặc tập lõi.
Thêm dần các thuộc tính có độ quan trọng lớn nhất cho đến khi thu
được Reduct.
Kiểm tra tính tối thiểu của tập rút gọn thu được.
Hướng tiếp cận Top-Down
Xuất phát từ tập thuộc tính ban đầu.
Loại bỏ thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được
Reduct.
Kiểm tra tính tối thiểu của tập rút gọn thu được.
Tập thuộc tính ban đầu
Định nghĩa tập rút gọn
Định nghĩa độ quan trọng của thuộc tính
Xây dựng thuật toán heuristic tìm một tập rút gọn
Tập rút gọn
28
Tiêu chuẩn so sánh, đánh giá các phương pháp là số lượng thuộc tính của tập
rút gọn, độ phức tạp của thuật toán heuristic tìm tập rút gọn và độ chính xác phân
lớp của tập dữ liệu sau khi rút gọn.
Thời gian qua đã chứng kiến sự phát triển mạnh mẽ và sôi động của lĩnh vực
nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô [1]-[8], [22], [28]-[30],
[64]. Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu
các phương pháp rút gọn thuộc tính trong bảng quyết định. Các phương pháp chính
là: Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong
đại số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng
entropy thông tin, phương pháp sử dụng khoảng cách. Kỹ thuật sử dụng khoảng
cách tuy ra đời muộn hơn nhưng đóng vai trò quan trọng trong khai phá dữ liệu, đặc
biệt với bài toán rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đã thu được nhiều
kết quả tốt [4]. Do vậy, việc phát triển các độ đo khoảng cách theo tiếp cận tập thô
mờ có tiềm năng trong việc giải quyết bài toán rút gọn thuộc tính trực tiếp của bảng
quyết định miền giá trị thực.
1.4.3. Định hướng nghiên cứu của luận án
Tiêu chuẩn so sánh, đánh giá các phương pháp là số lượng thuộc tính của tập
rút gọn, độ phức tạp của thuật toán heuristic tìm tập rút gọn và độ chính xác phân lớp
của tập dữ liệu sau khi rút gọn.
Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois, D., và Prade, H., [32], [33]
đề xuất được xem là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính đã và
đang thu hút sự quan tâm của cộng đồng nghiên cứu về tập thô mờ trong mấy năm
gần đây [9]-[18], [23]-[26], [34]-[36], [38], [39], [44], [45], [47]-[51], [59]-[63], [74],
[78]-[80], [85]-[89], [94]-[98]. Các nghiên cứu về rút gọn thuộc tính trong bảng quyết
định theo tiếp cận tập thô mờ tập trung giải quyết hai bài toán: Bài toán rút gọn thuộc
tính trực tiếp trên bảng quyết định miền giá trị thực và bài toán rút gọn thuộc tính và
sinh luật trên bảng quyết định mờ. Do đó, định hướng nghiên cứu của luận án là đề
xuất các phương pháp hiệu quả nhằm giải quyết hai bài toán trên.
29
1.5. Kết luận chương 1
Chương 1 trình bày một số khái niệm cơ bản trong lý thuyết tập thô; một số
khái niệm cơ bản về tập thô mờ nhằm giải quyết bài toán rút gọn thuộc tính trực tiếp
trên bảng quyết định miền giá trị thực ở Chương 2 và Chương 3; một số khái niệm cơ
bản về tập thô mờ nhằm giải quyết bài toán rút gọn thuộc tính và sinh luật trên bảng
quyết định mờ ở Chương 4. Ngoài ra, Chương 1 còn trình bày tổng quan về rút gọn
thuộc tính và định hướng nghiên cứu của luận án. Các khái niệm được trình bày ở
Chương 1 là các kiến thức nền tảng được sử dụng trong các chương sau của luận án.
30
CHƯƠNG 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜ VÀ
KHOẢNG CÁCH JACCARD MỜ
Nội dung chương này trình bày hai phương pháp rút gọn thuộc tính
của bảng quyết định miền giá trị thực dựa trên quan hệ tương đương mờ.
Bằng lý thuyết và thực nghiệm đánh giá hiệu quả của từng phương pháp.
Phương pháp sử dụng miền dương mờ tìm được một tập rút gọn không dư
thừa và bảo toàn miền dương mờ; phương pháp sử dụng khoảng cách
Jaccard mờ cải thiện được độ chính xác phân lớp và giảm được thời gian
thực hiện trên một số bộ số liệu thực nghiệm so với một số kỹ thuật khác.
2.1. Đặt vấn đề
Chủ đề nghiên cứu về rút gọn thuộc tính của bảng quyết định theo tiếp
cận tập thô mờ đã thu hút được sự quan tâm nghiên cứu trong thời gian qua.
Với bài toán tìm tập rút gọn của bảng quyết định có miền giá trị thực theo
tiếp cận tập thô mờ sử dụng quan hệ tương đương mờ, các nghiên cứu tập
trung vào ba hướng tiếp cận chính: Nhóm các phương pháp sử dụng miền
dương mờ [9], [38]-[40], [72], nhóm phương pháp sử dụng ma trận phân biệt
mờ [15], [18], [26], [80], nhóm phương pháp sử dụng entropy thông tin mờ
[24], [38]-[40], [88], [89]. Các phương pháp này đã được nghiên cứu tương
đối toàn diện trên mỗi hướng tiếp cận, thuật toán heuristic tìm một tập rút
gọn của các phương pháp đều có độ phức tạp tính toán trong trường hợp tổng
quát là là 3 2( )O C U , với U là số lượng đối tượng, C là số lượng thuộc tính
điều kiện. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] chỉ
ra rằng, các phương pháp của các nhóm chỉ tỏ ra hiệu quả hơn nhau trên một
số bộ số liệu cụ thể nào đó tùy vào đặc điểm của số liệu chứ không hơn nhau
trên tất cả các bộ số liệu. Bên cạnh đó, phương pháp này tỏ ra hiệu quả hơn
phương pháp kia còn phụ thuộc vào tiêu chí đánh giá cụ thể như: Số lượng
31
thuộc tính của tập rút gọn, thời gian thực hiện thuật toán hay độ chính xác
phân lớp dữ liệu.
Với bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định miền giá
trị thực theo tiếp cận tập thô mờ, chương này trình bày các kết quả nghiên
cứu sau:
1) Cải tiến phương pháp sử dụng miền dương mờ của Hu, Q., và các
cộng sự [38] để tìm tập rút gọn không dư thừa và bảo toàn miền dương mờ
nhằm khắc phục hạn chế trong [38] về tập rút gọn chưa đảm bảo loại bỏ được
các thuộc tính dư thừa. Cụ thể là cải tiến công thức tính độ quan trọng của
thuộc tính thông qua lực lượng của miền dương mờ và loại bỏ thuộc tính dư
thừa của tập rút gọn.
2) Xây dựng độ đo khoảng cách Jaccard giữa hai tập mờ dựa trên
khoảng cách Jaccard giữa hai tập hợp hữu hạn, gọi là khoảng cách Jaccard
mờ và ứng dụng rút gọn thuộc tính của bảng quyết định nhằm nâng cao độ
chính xác phân lớp dữ liệu và giảm thiểu thời gian thực hiện hơn so với các
phương pháp khác đã công bố trước đây. Ưu điểm của phương pháp sử dụng
khoảng cách Jaccard mờ là cải thiện được thời gian thực hiện so với các
phương pháp khác khi tìm được tập rút gọn giống nhau trên cùng bộ số liệu.
Kết quả này góp phần hình thành nên nhóm phương pháp rút gọn thuộc tính
của bảng quyết định miền giá trị thực sử dụng khoảng cách mờ theo tiếp cận
tập thô mờ.
Các kết quả chính trong chương này được công bố trong các công
trình [CCN1], [CCN2], [CCN3].
2.2. Rút gọn thuộc tính sử dụng miền dương mờ
Rút gọn thuộc tính của bảng quyết định sử dụng miền dương mờ được
coi là thuật toán cơ bản nhất về rút gọn thuộc tính của bảng quyết định theo
tiếp cận tập thô mờ, là sự kế thừa của rút gọn thuộc tính sử dụng miền dương
32
theo tiếp cận tập thô truyền thống [68]. Theo hướng tiếp cận này, Hu, Q., và
các cộng sự đề xuất thuật toán FAR-VPFRS [38] tìm một tập rút gọn sử dụng
độ phụ thuộc của thuộc tính dựa trên miền dương mờ. Tuy nhiên, thuật toán
FAR-VPFRS còn tồn tại một số hạn chế là chưa đảm bảo được tập rút gọn
thu được là không dư thừa thuộc tính do không có bước kiểm tra để loại bỏ
các thuộc tính dư thừa trong tập rút gọn. Bên cạnh đó, FAR-VPFRS còn mất
thêm một bước trung gian để ánh xạ các bảng quyết định miền giá trị thực về
bảng quyết định mờ; là bảng quyết định có miền giá trị nằm trong đoạn [0,1].
Dựa trên phương pháp của Hu, Q., phần này đề xuất phương pháp rút gọn
thuộc tính dựa trên miền dương mờ sử dụng quan hệ tương đương mờ được
định nghĩa trực tiếp trên miền giá trị của thuộc tính. Phương pháp đề xuất là
sự cải tiến phương pháp của Hu, Q., để tìm một tập rút gọn dựa trên miền
dương mờ, loại bỏ những thuộc tính dư thừa của tập rút gọn và bảo toàn
miền dương mờ.
2.2.1. Phương pháp rút gọn thuộc tính sử dụng miền dương mờ
Phương pháp đề xuất bao gồm các bước: Định nghĩa tập rút gọn dựa
trên miền dương mờ sử dụng quan hệ tương đương mờ, định nghĩa độ quan
trọng của thuộc tính và xây dựng thuật toán heuristic tìm tập rút gọn dựa trên
tiêu chuẩn độ quan trọng của thuộc tính.
Định nghĩa 2.1. Cho bảng quyết định có miền giá trị thực ,DT U C D ,
quan hệ tương đương mờ R và tập thuộc tính P C . Nếu
1)
R RP CPOS D POS Dx x
2)
( { })
,R RP p C
POS D POS Dp P x x
(2.1)
(2.2)
thì P là một tập rút gọn của C dựa trên miền dương mờ.
Định nghĩa 2.2. Cho bảng quyết định có miền giá trị thực ,DT U C D và
quan hệ tương đương mờ R xác định trên miền giá trị thuộc tính. Với P C ,
33
độ quan trọng của thuộc tính b C P đối với tập thuộc tính P dựa trên quan
hệ R được định nghĩa:
( {b})
POS ( ) POS ( )( ) ( )P R RP P
D DRSIG b x x
(2.3)
Độ quan trọng của thuộc tính ở công thức (2.3) được sử dụng làm tiêu
chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm một tập rút gọn dựa
trên miền dương mờ như sau:
Thuật toán F_RSAR2 (Fuzzy Rough Set based Attribute Reduction 2):
Thuật toán tìm một tập rút gọn không dư thừa dựa trên miền dương mờ sử
dụng quan hệ tương đương mờ.
Đầu vào: Bảng quyết định giá trị thực ,DT U C D , quan hệ tương
đương mờ R .
Đầu ra: Một tập rút gọn P .
// Khởi tạo các giá trị với tập rút gọn ban đầu bằng rỗng
1. POS ( ); | ( ) | 0R DP x
;
2. Tính POS ( )( )RC
D x ;
// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất để xây
dựng tập rút gọn
3. While POS ( ) POS ( )( ) ( )R RP C
D Dx x Do
4. Begin
5. For c C P Do ( {c})
POS ( ) POS ( )( ) ( )R RP P
P D DSIG c x x
;
// Tính độ quan trọng cho mỗi thuộc tính điều kiện còn lại
với tập thuộc tính quyết định
6. Chọn mc C P sao cho ( ) { ( )}P m Pc C PSIG c Max SIG c
;
// Chọn thuộc tính có độ quan trọng lớn nhất dựa trên miền
34
dương mờ kết nạp vào tập rút gọn
7. { }mP P c ;
8. End;
// Kiểm tra thuộc tính dư thừa trong P nếu có
9. For each a P
10. Begin
11. Tính ( { })
( ) ( )R P a
POS D x
;
12. If ( { })
POS ( ) POS ( )( ) ( )R RP a C
D Dx x
then P P a ;
// Loại bỏ những thuộc tính không cần thiết để xây dựng tập rút
gọn không dư thừa thuộc tính
13. End;
14. Return P;
Ví dụ 2.1. Cho bảng quyết định miền giá trị thực ,DT U C D như ở
Bảng 2.1 với 1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c , quan hệ tương
đương mờ R được định nghĩa ở công thức (1.11).
Bảng 2.1. Bảng quyết định miền giá trị thực của Ví dụ 2.1
U 1c 2c 3c 4c 5c 6c D
1u 0.8 0.2 0.6 0.4 1 0 0
2u 0.8 0.2 0 0.6 0.2 0.8 1
3u 0.6 0.4 0.8 0.2 0.6 0.4 0
4u 0 0.4 0.6 0.4 0 1 1
5u 0 0.6 0.6 0.4 0 1 1
6u 0 0.6 0 1 0 1 0
35
Áp dụng các bước của thuật toán F_RSAR2 để tìm một tập rút gọn
nhỏ nhất, ta có:
POS ( ); | ( ) | 0R DP x
; tính các ma trận tương đương mờ của tập
thuộc tính điều kiện
1 2 3 4 5 6( ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( )c c c c c c CM R M R M R M R M R M R M R .
1
1 1 0 0 0 01 1 0 0 0 00 0 1 0 0 00 0 0 1 1 10 0 0 1 1 10 0 0 1 1
( )
1
cM R
, 2
1 1 0 0 0 01 1 0 0 0 00 0 1 1 0 00 0 1 1 0 00 0 0 0 1 1
(
0 0 0 1 1
)
0
cRM
3
1 0 0 1 1 00 1 0 0 0 10 0 1 0 0 01 0 0 1 1 01 0 0 1 1 00 1 0 0 0
( )
1
cM R
, 4
1 0 0 1 1 00 1 0 0 0 00 0 1 0 0 01 0 0 1 1 01 0 0 1 1 0
(
0 0 0 0 1
)
0
cRM
5
1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1
( )cRM
, 6
1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1
( )cRM
1 0 0 0 0 00 1 0 0 0 00 0 1 0 0 00 0 0 1 0 00 0 0 0 1 0
(
0 0 0 0 1
)
0
CM R
36
Ta có phân hoạch 1 3 6 2 4 5/ , , , , ,U D u u u u u u . Xét 1 3 6, ,X u u u ,
xấp xỉ dưới mờ CR X là tập mờ với hàm thuộc của x U tính bởi
1 3 61 3 6 , ,, , inf max 1 ,C RC
x u u uR u u u y Ux y y
. Từ ma trận CM R ta có
11 2 3 4 5 6
1 0 0 0 0 0CR
uu u u u u u
, do đó
, ,1 3 6 1 inf 1,1,1,1,1,1 1C u u uR u ,
tương tự ta có , ,1 3 6 2 0
C u u uR u , , ,1 3 6 3 1
C u u uR u , , ,1 3 6 4 0
C u u uR u ,
, ,1 3 6 5 0
C u u uR u , , ,1 3 6 6 1
C u u uR u , , ,2 4 5 1 0
C u u uR u , , ,2 4 5 2 1
C u u uR u
, ,2 4 5 3 0C u u uR u ,
, ,2 4 5 4 1C u u uR u ,
, ,2 4 5 5 1C u u uR u ,
, ,2 4 5 6 0C u u uR u .
Từ đó, hàm thuộc của các đối tượng đối với miền dương mờ
CRPOS D là
, , , ,1 3 6 2 4 51 1 1sup , 1C u u u C u u uRC
POS D R Ru u u ,
2 1RC
POS D u , 3 1RC
POS D u , 4 1RC
POS D u , 5 1RC
POS D u ,
6 1RC
POS D u .
Từ đó:
6R RC C
POS D POS Dx Ux x
.
Tính tương tự:
1
1Rc
POS D x ,
2
0Rc
POS D x ,
3
1Rc
POS D x ,
4
3Rc
POS D x ,
5
2.8Rc
POS D x ,
6
2.8Rc
POS D x ; 1({ c } ) 1RS IG
, 2({ c } ) 0RS IG
,
3({ c } ) 1RS IG
, 4({ c } ) 3RS IG
, 5({ c } ) 2 .8RS IG
, 6({ c } ) 2 .8RS IG
. Thuộc
tính 4c được lựa chọn và 4P c .
Tiếp tục tính được
{ { }4} 1
6R c c
POS D x
, kiểm tra
{ } { }4 1
6R R Cc c
POS D POS Dx x
, thuật toán dừng và 4 1,P c c . Sau khi
kiểm tra tính dư thừa, kết luận 4 1,P c c là tập rút gọn của DT .
37
Thuật toán F_RSAR2 tìm được một tập rút gọn dựa trên độ quan
trọng của thuộc tính bảo toàn được miền dương mờ. Thuật toán F_RSAR2
cải tiến công thức tính độ quan trọng của thuộc tính theo công thức (2.3)
giảm bớt số lượng phép tính, làm tiêu chuẩn lựa chọn thuộc tính cho tập rút
gọn và có pha kiểm tra loại bỏ thuộc tính dư thừa so với công trình [38].
Thuật toán F_RSAR2 có độ phức tạp tính toán ma trận tương đương mờ của
một thuộc tính là 2( )O U với U là số lượng đối tượng, C là số lượng thuộc
tính điều kiện; độ phức tạp tính toán của ( )CM R là 2( )O C U . Thuật toán có
hai vòng lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ
phức tạp tính toán của F_RSAR2 là 3 2( )O C U .
2.2.2. Thử nghiệm và đánh giá kết quả
Luận án chọn sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] có miền giá
trị số thực, số nguyên cho ở Bảng 2.2 để tiến hành thử nghiệm. Môi trường
thử nghiệm là máy tính PC với cấu hình Pentium core i3 2.4 GHz CPU, 2 GB
bộ nhớ RAM, sử dụng hệ điều hành Windows 10. Các bộ dữ liệu thử nghiệm
này được sử dụng xuyên suốt trong toàn bộ luận án. Lý do chọn các bộ dữ
liệu này để mô phỏng thực nghiệm là do đa số các phương pháp rút gọn
thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ sử dụng để tiện so
sánh với phương pháp đề xuất.
Bảng 2.2. Bộ dữ liệu thử nghiệm
TT Bộ dữ liệu
Số thuộc
tính điều
kiện
Số đối
tượng Số lớp
1 Fisher_Order 35 47 4
2 Iris 4 150 3
3 Glass 10 214 7
38
4 Sonar 60 208 2
5 Sensor_Readings_24 24 5456 4
6 EEG_Eye_State 14 14980 2
Các bộ dữ liệu thực nghiệm phong phú và đa dạng, có số lượng thuộc
tính và đối tượng từ ít tới nhiều. Bộ dữ liệu có số thuộc tính ít nhất (Iris) là
04 thuộc tính, bộ dữ liệu có số thuộc tính nhiều nhất (Sonar) là 60 thuộc tính.
Bộ dữ liệu có số đối tượng ít nhất (Fisher_Order) là 47 đối tượng, nhiều nhất
(EEG_Eye_State) là 14980 đối tượng. Cụ thể như sau:
1) Fisher_Order: Bảng dữ liệu có miền giá trị số nguyên, phù hợp với bài
toán phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 35,
số lượng đối tượng là 47, số lớp là 4 (D1, D2, D3, D4). Số đối tượng thuộc
về mỗi lớp cụ thể là
- D1: 10 đối tượng, tỷ lệ (21.28%)
- D2: 10 đối tượng, tỷ lệ (21.28%)
- D3: 10 đối tượng, tỷ lệ (21.28%)
- D4: 17 đối tượng, tỷ lệ (36.17%)
2) Iris: Bảng dữ liệu về có miền giá trị số thực, phù hợp với bài toán
phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 4, số
lượng đối tượng là 150, số lớp là 3 (Iris Setosa, Iris Versicolour, Iris
Virginica). Số đối tượng thuộc về mỗi lớp là
- Iris Setosa: 50 đối tượng, tỷ lệ (33.33%)
- Iris Versicolour: 50 đối tượng, tỷ lệ (33.33%)
- Iris Virginica: 50 đối tượng, tỷ lệ (33.33%)
3) Glass: Bảng dữ liệu có miền giá trị số thực, phù hợp với bài toán phân
lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 10, số lượng
đối tượng là 214. Số đối tượng thuộc về các lớp cụ thể là
- Window glass: 163 đối tượng, tỷ lệ (76.17%). Trong đó có 87 đối
tượng thuộc lớp float processed (70 building windows, 17 vehicle
39
windows), 76 đối tượng thuộc lớp non-float processed (76 building
windows, 0 vehicle windows).
- Non-window glass: 51 đối tượng, tỷ lệ (23.83%). Trong đó có 13 đối
tượng thuộc lớp containers, 9 đối tượng thuộc lớp tableware, 29 đối
tượng thuộc lớp headlamps.
4) Sonar: Bảng dữ liệu có miền giá trị số thực, phù hợp với bài toán phân
lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 60, số lượng
đối tượng là 208; số lớp là 2 (R, M). Số đối tượng thuộc vào các lớp cụ thể là
- R: 97 đối tượng, tỷ lệ (46.63%)
- M: 111 đối tượng, tỷ lệ (53.37%)
5) Sensor_Readings_24: Bảng dữ liệu về có miền giá trị số thực, phù hợp
với bài toán phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính
là 24, số lượng đối tượng là 5456, số lớp là 4 (Move-Forward, Slight-Right-
Turn, Sharp-Right-Turn, Slight-Left-Turn). Số đối tượng thuộc vào các lớp
cụ thể là
- Move-Forward: 2205 đối tượng, tỷ lệ (40.41%)
- Slight-Right-Turn: 826 đối tượng, tỷ lệ (15.13%)
- Sharp-Right-Turn: 2097 đối tượng, tỷ lệ (38.43%)
- Slight-Left-Turn: 328 đối tượng, tỷ lệ (6.01%)
6) EEG_Eye_State: Bảng dữ liệu có miền giá trị số thực, sử dụng thử
nghiệm cho bài toán phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng
thuộc tính là 14, số lượng đối tượng là 14980, số lớp là 2 (0, 1). Số đối tượng
thuộc vào các lớp cụ thể là
- 0: 8257 đối tượng, tỷ lệ (55.12%)
- 1: 6723 đối tượng, tỷ lệ (44.88%)
40
Luận án chọn thuật toán FAR-VPFRS (tìm một tập rút gọn dựa trên
miền dương mờ) trong công trình [38] của Hu, Q., để so sánh với thuật toán
đề xuất F_RSAR2 về tập rút gọn, độ chính xác phân lớp sau khi rút gọn
thuộc tính và thời gian thực hiện của thuật toán. Để tiến hành thử nghiệm,
luận án thực hiện các công việc sau:
1) Cài đặt các thuật toán F_RSAR2, FAR-VPFRS [38] bằng ngôn ngữ
C#, các thuật toán sử dụng quan hệ tương đương mờ theo công thức (1.11).
2) Thực hiện hai thuật toán trên sáu bộ dữ liệu mẫu với môi trường thử
nghiệm được chọn.
3) Sử dụng thuật toán C4.5 trong công cụ J48 của WEKA [100] để đánh
giá độ chính xác phân lớp của hai thuật toán bằng cách chọn 2/3 số đối tượng
làm tập huấn luyện (training set), 1/3 số đối tượng còn lại làm tập kiểm tra
(testing set).
Bảng 2.3 là kết quả thử nghiệm về thời gian thực hiện và số lượng
thuộc tính của tập rút gọn của hai thuật toán trên sáu bộ số liệu được chọn
với U là số đối tượng, C là số thuộc tính điều kiện, R là số thuộc tính của
tập rút gọn với mỗi thuật toán, t là thời gian thực hiện (đơn vị là giây).
Bảng 2.3. Kết quả thực nghiệm của F_RSAR2, FAR-VPFRS
TT Bộ số liệu C FA_RSAR2 FAR_VPFRS
R t R t
1 Fisher_Order 35 19 0.216 21 0.209
2 Iris 4 1 0.003 2 0.003
3 Glass 10 7 0.40 7 0.040
4 Sonar 60 12 2.975 12 2.889
5 Sensor_Readings_24 24 15 2.634 15 2.465
6 EEG_Eye_State 14 7 4.969 7 4.356
41
Hình 2.1 là biểu đồ so sánh thời gian thực hiện của F_RSAR2, FAR-
VPFRS trên sáu bộ dữ liệu thử nghiệm cụ thể.
Hình 2.1. Thời gian thực hiện của F_RSAR2, FAR-VPFRS
Hình 2.1 cho thấy, thời gian thực hiện của thuật toán FAR-VPFRS là
nhỏ hơn một chút so với thuật toán F_RSAR2 trong bốn bộ dữ liệu
(Fisher_Order, Sonar, Sensor_Readings_24, EEG_Eye_State), bằng nhau ở
hai bộ dữ liệu (Iris, Glass). Điều này phù hợp với lý thuyết, mặc dù các thuật
toán đều có độ phức tạp tính toán trong trường hợp tổng quát là 3 2( )O C U
nhưng F_RSAR2 mất thêm thời gian kiểm tra tính dư thừa của tập rút gọn,
nếu tập rút gọn càng nhiều thuộc tính, thời gian kiểm tra càng tăng lên. Bù
lại, công thức tính độ quan trọng của thuộc tính của F_RSAR2 ít phép tính
hơn FAR-VPFRS do đã cải tiến công thức tính độ quan trọng của thuộc tính
làm tiêu chuẩn để xây dựng tập rút gọn. Trên các tập dữ liệu nhỏ thì thời gian
thực hiện của hai thuật toán này không có sự chênh lệch. Do vậy, F_RSAR2
là chấp nhận được để tìm tập rút gọn không dư thừa thuộc tính.
Bảng 2.4 là các tập rút gọn cụ thể thu được bởi hai thuật toán
F_RSAR2, FAR-VPFRS trên sáu bộ dữ liệu thử nghiệm.
0
1
2
3
4
5
6
F_RSAR2
FAR_VPFRS
42
Bảng 2.4. Tập rút gọn của F_RSAR2, FAR-VPFRS
TT Bộ dữ liệu Tập rút gọn của
F_RSAR2
Tập rút gọn của
FAR-VPFRS
1 Fisher_Order
{22,11,13,14,15,16,17,18,1
9,29,30,31,32,33,34,9,20,5,
25}
{22,11,13,14,15,16,17,18,19
,29,30,31,32,33,34,9,20,5,25
,10,3}
2 Iris {4} {4,3}
3 Glass {2,1,3,4,5,8,6} {2,1,3,4,5,8,6}
4 Sonar {21,36,30,11,28,54,41,22,3
2,57,39,16}
{21,36,30,11,28,54,41,22,32
,57,39,16}
5 Sensor_Readings_24 {17,4,3,7,2,15,5,10,21,8,6,1
4,11,1,9}
{17,4,3,7,2,15,5,10,21,8,6,1
4,11,1,9}
6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5}
Bảng 2.5 biểu diễn số lượng thuộc tính của tập rút gọn và độ chính
xác phân lớp của F_RSAR2, FAR-VPFRS trên sáu bộ dữ liệu thử nghiệm.
Bảng 2.5. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS
TT Bộ số liệu U C
F_RSAR2 FAR-VPFRS
R
Độ chính
xác phân
lớp C4.5
(%)
R
Độ chính
xác phân
lớp C4.5
(%)
1 Fisher_Order 47 35 19 78.72 21 76.59
2 Iris 150 4 1 94.67 2 94.00
3 Glass 214 10 7 81.56 7 81.56
4 Sonar 208 60 12 70.60 12 70.60
5 Sensor_Readings_24 5456 24 15 95.12 15 95.12
6 EEG_Eye_State 14980 14 7 81.25 7 81.25
43
Hình 2.2 là biểu đồ so sánh độ chính xác phân lớp đánh giá thông qua
thuật toán C4.5 của công cụ WEKA [100] của hai thuật toán trên sáu bộ dữ
liệu cụ thể.
Hình 2.2. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS
Kết quả thử nghiệm ở Bảng 2.5 và Hình 2.2 chỉ ra rằng tại 4/6 bộ dữ
liệu thử nghiệm (Glass, Sonar, Sensor_Readings_24, EEG_Eye_State) có tập
rút gọn giống nhau, độ chính xác phân lớp của F_RSAR2 và FAR-VPFRS là
như nhau. Độ chính xác phân lớp của F_RSAR2 cao hơn FAR-VPFRS tại
2/6 bộ dữ liệu (Fisher_Order, Iris) mà tập rút gọn thu được từ F_RSAR2 có
số lượng thuộc tính ít hơn FAR-VPFRS. Từ đó luận án kết luận rằng, thuật
toán F_RSAR2 có khả năng cải thiện độ chính xác phân lớp dữ liệu hơn
FAR-VPFRS trên một số bộ dữ liệu thử nghiệm mà tập rút gọn thu được ít
thuộc tính hơn, loại bỏ được những thuộc tính dư thừa để nâng cao độ chính
xác phân lớp dữ liệu. Đây là một trong những mục tiêu quan trọng mà rút
gọn thuộc tính hướng tới.
78.72
94.67
81.56
70.6
95.12
81.25
0.00
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
90.00
100.00
F_RSAR2
FAR-VPFRS
44
2.3. Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ
Một khoảng cách trên tập hợp U là một ánh xạ : 0,d U U thỏa
mãn các điều kiện sau với mọi , ,x y z U .
1) , 0d x y , , 0d x y khi và chỉ khi x y ;
2) , ,d x y d y x ;
3) , , ,d x y d y z d x z .
Điều kiện 3) được gọi là tiên đề bất đẳng thức tam giác. Bộ đôi
,U d được gọi là một không gian khoảng cách.
Tiếp nối sự thành công của kỹ thuật rút gọn thuộc tính sử dụng
khoảng cách Jaccard trong tập thô truyền thống [4], phần này của luận án đề
xuất phương pháp sử dụng khoảng cách Jaccard mờ do tác giả xây dựng dựa
trên khoảng cách Jaccard truyền thống để rút gọn thuộc tính của bảng quyết
định miền giá trị thực theo tiếp cận tập thô mờ.
2.3.1. Khoảng cách Jaccard mờ và các tính chất
Định nghĩa 2.3. Cho U là tập hữu hạn các đối tượng và ,A B U . Khoảng
cách Jaccard để đo độ tương tự hay độ “gần nhau” giữa hai tập hợp hữu hạn
[4], được định nghĩa như sau
( , ) 1J
A BD A B
A B
(2.4)
Hệ số Jaccard đo độ tương tự giữa hai tập hợp A và B được định nghĩa
( , )A B
J A BA B
(2.5)
Hiển nhiên ( , ) ( , ) 1JD A B J A B .
Từ công thức tính khoảng cách Jaccard (2.4) giữa hai tập hợp, chúng
ta dễ dàng nhận thấy rằng 0 ( , ) 1JD A B . Khoảng cách Jaccard giữa hai tập
45
hợp đạt giá trị nhỏ nhất bằng 0 khi hai tập hợp đó bằng nhau, ngược lại
khoảng cách Jaccard đạt giá trị lớn nhất bằng 1 khi hai tập hợp đó không có
phần tử chung nào.
Bổ đề 2.1. Cho ba số thực a, b, m với a b . Khi đó, ta có
min , min ,a b a m b m .
Chứng minh: Dễ thấy rằng min , min ,a b a m b m thỏa mãn với
ba trường hợp: , ,m a b m a m b . Vậy Bổ đề 2.1 được chứng minh.
Bổ đề 2.2. Cho ba tập mờ , ,A B C trên cùng tập đối tượng U. Khi đó ta có:
1) Nếu A B thì B B C A A C (2.6)
2) Nếu A B thì C C A C C B (2.7)
3) A A B C C A C C B (2.8)
Chứng minh:
1) Vì A B , với mọi ix U ta có i iB Ax x . Áp dụng Bổ đề 2.1 ta
có: min , min ,i i i i i iB B C CA Ax x x x x x
1 1 1 1
min , min ,U U U U
i i i i i iB A B C A Ci i i i
x x x x x x
B A B C A C B B C A A C
2) Vì A B , với mọi ix U ta có i iB Ax x
min , min ,i i i iB C CAx x x x
min , min ,i i i i i iC C C B CAx x x x x x
1 1 1 1
min , min ,U U U U
i i i i i iC A C C B Ci i i i
x x x x x x
C C A C C B .
46
3) Từ A C A , áp dụng tính chất 1) có A A B A C A C B (*)
Mặt khác, từ A B A , áp dụng tính chất 2) có C C A B C C A (**)
Từ (*) và (**), ta có: A A B C C A B A C A C B C C A
0A A B
Áp dụng tiếp tính chất 2), ta có: 0A A B C C A C C B
= A A B C C A C C B .
Ví dụ 2.2. Cho ba tập mờ , ,A B C với A B trên cùng một tập không gian đối
tượng 2 3 4{ }1U x ,x ,x ,x , cụ thể như sau:
1 2 3 40.1 / 0.2 / 0.2 / 0.3 /A x x x x ;
1 2 3 40.2 / 0.3 / 0.3 / 0.4 /B x x x x ;
1 2 3 40.1 / 0.5 / 0.1 / 0.9 /C x x x x ;
Tính: 0.8; 1.2; 1.6;A B C 0.8; 0.9; 0.7;A B B C A C
Từ kết quả trên, ta có: 1.2 0.9 0.8 0.7 0.3 0.1B B C A A C
1.6 0.7 1.6 0.9 0.9 0.7C C A C C B
0.8 0.8 1.6 0.7 1.6 0.9
0.9 0.7
A A B C C A C C B
Định lý 2.1. Cho , ,A B C là ba tập mờ trên tập đối tượng U . Khi đó
( , ) 1FJ
A BD A B
A B
(2.9)
47
là khoảng cách Jaccard mờ giữa hai tập mờ ,A B .
Hệ số Jaccard mờ giữa A và B được xác định
( , )A B
J A BA B
(2.10)
Chứng minh: Để chứng minh ( , )FJD A B là một độ đo khoảng cách
Jaccard mờ trên tập đối tượng U , nghĩa là mọi tập mờ , ,A B C trên U thỏa
mãn các điều kiện sau:
1) ( , ) 0FJD A B , điều kiện ( , ) 0FJD A B khi và chỉ khi A B
2) ( , ) ( , )FJ FJD A B D B A
3) ( , ) ( , ) ( , )FJ FJ FJD A B D B C D A C
Hiển nhiên ( , )FJD A B thỏa mãn điều kiện 1 và điều kiện 2. Để chứng
minh điều kiện 3 (bất đẳng thức tam giác), ta cần chứng minh bất đẳng thức
sau:
( , ) ( , ) 1 ( , )J A B J B C J A C (2.11)
Giả sử U n và 1 2 nU {u , u ,...,u } . Ta biểu diễn tập X U bởi một
véc tơ n chiều 1 2( , ,..., )X
nV x x x với i iXx u . Với , ,A B C U , giả sử
1 2( , , ..., )AnV a a a ,
1 2( , , ..., )BnV b b b ,
1 2( , , ..., )CnV c c c .
Đặt
1min{ , }
nAB
i ii
V a b
, khi đó ,J A B được biểu diễn:
1
1 1 1
min{ , },
min{ , }+ min{ , }- min{ , }
n
i ii
n n n
i i i i i ii i i
AB
A A B B AB
a bA BJ A B
A B a a b b a b
VV V V
(2.12)
48
Nếu , ,J A B J A C hoặc , ,J B C J A C thì hiển nhiên (2.11) thỏa
mãn. Do đó, ta cần chứng minh (2.11) đối với trường hợp đồng thời , ,J A B J A C và , ,J B C J A C . Từ (2.12) ta có:
,
1 ,AB A A B B
J A BV V V
J A B
(2.13)
Ta phải chứng minh : ( )( ) 0B A B CV V V V hay 0B B B C A B ACV V V V
1 1 1 1
min( , ) min( , ) min( , ) min( , ) 0
0
n n n n
i i i i i i i ii i i i
b b b c a b a c
B B C A B A C
(thỏa mãn theo tính chất 3 của bổ đề 2.2 là điều phải chứng minh).
Kết hợp với (2.12) ta có:
, , ,0
1 , 1 , 1 ,BB BB CC AA BB AA CC
J B C J A B J A CV V V V V V V
J B C J A B J A C
, ,1 0
1 , 1 ,
, , , ,
1 , 1 , 1 , 1 ,
BB
A A C C
J A B J B CV
J A B J B C
J A B J A C J B C J A CV V
J A B J A C J B C J A C
(2.14)
Rõ ràng A A A BV V , sử dụng (2.13) thu được
,
1 ,AA AA BB
J A BV V V
J A B
hay ,A A ABV J A B V (2.15)
Từ giả thiết , , 0J A B J A C ta có
, ,0
1 , 1 ,
J A B J A C
J A B J A C
. Do đó từ
(2.15) ta có
49
, , , ,,
1 , 1 , 1 , 1 ,A A B B
J A B J A C J A B J A CV J A B V
J A B J A C J A B J A C
(2.16)
Tương tự:
, , , ,,
1 , 1 , 1 , 1 ,CC B B
J B C J A C J B C J A CV J B C V
J B C J A C J B C J A C
(2.17)
Từ (2.14), (2.16), (2.17) ta có:
, , , ,1 ,
1 , 1 , 1 , 1 ,B B B B
J A B J B C J A B J A CV J A B V
J A B J B C J A B J A C
, ,,
1 , 1 ,B B
J B C J A CJ B C V
J B C J A C
(2.18)
Nếu 0B BV thì hiển nhiên (2.11) thỏa mãn. Giả sử 0B BV . Khi đó,
(2.18) tương đương với:
2 2, , , , , ,
1 ,1 , 1 , 1 ,
J A B J A B J B C J B C J A B J B CJ A C
J A B J B C J A C
, , 1 ,J A B J B C J A C .
Do đó, bất đẳng thức (2.11) được chứng minh.
Tiếp theo, luận án xây dựng khoảng cách Jaccard mờ giữa hai phân
hoạch dựa trên ma trận tương đương mờ, áp dụng rút gọn thuộc tính của
bảng quyết định miền giá trị thực. Cho bảng quyết định ,DT U C D với
1 ,..., nU u u và P C , giả sử i Pu là một lớp tương đương chứa iu trong
phân hoạch /U P . Khi đó, khoảng cách giữa tập thuộc tính C và C D
trong công trình [4] được xây dựng dựa trên khoảng cách Jaccard giữa hai
tập hợp hữu hạn như sau:
50
1
1, 1U
i iC C DJ
i i iC C D
u ud C C D
U u u
(2.19)
Sử dụng các phép toán trong [4] biến đổi độ đo khoảng cách trong công
thức (2.19) tương đương công thức (2.20) như sau:
1 1
1 1, 1 1( )
U Ui i i i iC C D C D
Ji ii i i iC C D C
u u u u ud C C D
U Uu u u u
(2.20)
Độ đo khoảng cách trong công thức (2.20) đặc trưng cho độ “gần
nhau” giữa tập thuộc tính điều kiện C và tập thuộc tính quyết định D và
được tác giả trong công trình [4] sử dụng để xây dựng phương pháp rút gọn
thuộc tính trong bảng quyết định. Sử dụng độ đo khoảng cách trong công
thức (2.20) kết hợp với công thức (2.9), luận án xây dựng độ đo khoảng cách
Jaccard mờ giữa hai phân hoạch mờ dựa trên ma trận tương đương mờ theo
hướng tiếp cận tập thô mờ.
Định nghĩa 2.4. Cho bảng quyết định mờ ,DT U C D , giả sử hai quan
hệ tương đương mờ CR và DR xác định trên hai tập thuộc tính C và D tương
ứng. Gọi Cijr là các phần tử của ma trận tương đương mờ CM R và D
ijr là
các phần tử của ma trận tương đương mờ DM R với 1 ,i j n . Dựa trên
công thức (2.20) và (2.9), luận án xây dựng độ đo khoảng cách Jaccard mờ
giữa hai tập thuộc tính C và C D dựa trên ma trận quan hệ tương đương
mờ như sau:
1
1
1
min ,1, 1
nC D
ij ijUj
FJ nCi
ijj
r rd C C D
U r
(2.21)
Mệnh đề 2.1. Cho bảng quyết định mờ ,DT U C D và CR , DR là hai quan
hệ tương đương mờ xác định trên tập thuộc tính C, D. Khi đó ta có:
51
1) 0 , 1FJd C C D (2.22)
2) , 0FJd C C D khi C DR R (2.23)
Chứng minh:
1) Theo công thức tính khoảng cách mờ (2.21), dễ dàng nhận thấy
0 , 1FJd C C D .
2) Theo tính chất của quan hệ tương đương mờ [40], [72] ta có: C DR R , ,C DR x y R x y , [1..n]C D
ij ijr r i j . Thay vào công thức
(2.21) ta có , 0FJd C C D .
Mệnh đề 2.2. Cho bảng quyết định mờ ,DT U C D và B C , khi đó ta
có , ,FJ FJd B B D d C C D .
Chứng minh: Theo [40], [72] ta có B C / /U C U B (phân hoạch
/U C mịn hơn phân hoạch /U B ) khi và chỉ khi [ ] [ ]C Bu u .
Theo tính chất của quan hệ tương đương mờ [40], [72] và công thức
(2.21) ta có [ ] [ ]C Bu u ( ) ( )[ ] [ ]i iR C R Bu u , 1 , 1
n nC B
ij iji j i j
r r
, 1 , 1
n nC B
ij iji j i j
r r
. Do , [0,1]C Bij ijr r nên
D Dij ijC B
ij ij
r rr r
(1 ) (1 )D D
ij ijC B
ij ij
r rr r
.
Thay vào công thức tính khoảng cách mờ (2.21) có
( , ) ( , )FJ F Jd B B D d C C D .
Khoảng cách Jaccard giữa hai phân hoạch mờ theo công thức (2.21)
được gọi là khoảng cách Jaccard mờ dựa trên ma trận tương đương mờ.
52
2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách
Jaccard mờ
Trong phần này, luận án trình bày phương pháp rút gọn thuộc tính của
bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách Jaccard mờ
dựa trên ma trận quan hệ tương đương mờ ở công thức (2.21). Cho bảng
quyết định miền giá trị thực ,DT U C D với 1 2, ,..., nU x x x . Trên tập
thuộc tính điều kiện luận án sử dụng một quan hệ tương đương mờ xác định
trên miền giá trị thuộc tính như ở công thức (1.11).
Trên tập thuộc tính quyết định luận án sử dụng quan hệ tương đương
IND D với ma trận tương đương ij n nM IND D d
, 1ijd nếu
j i Dx x và 0ijd nếu j i D
x x . Nói cách khác, lớp tương đương i Dx có
thể xem là lớp đương đương mờ, ký hiệu là i Dx , với hàm thuộc 1
i Djx x
nếu j i Dx x và 0
i Djx x nếu j i D
x x . Khi đó, ký hiệu phân hoạch mờ
11,...,
n
i nD D DiD x x x
.
Tương tự phương pháp rút gọn thuộc tính sử dụng khoảng cách
Jaccard trong lý thuyết tập thô truyền thống, phương pháp đề xuất bao gồm
các bước: Định nghĩa tập rút gọn dựa trên khoảng cách Jaccard mờ, định
nghĩa độ quan trọng của thuộc tính và xây dựng thuật toán heuristic tìm một
tập rút gọn không dư thừa dựa trên tiêu chuẩn độ quan trọng của thuộc tính.
Định nghĩa 2.5. Cho bảng quyết định có miền giá trị thực ,DT U C D và
tập thuộc tính P C . Nếu
1) , ,FJ FJd P P D d C C D
2) , ( , ) ( , )FJ FJp P d P p P p D d C C D
(2.24)
(2.25)
thì P là một tập rút gọn của C dựa trên khoảng cách Jaccard mờ.
53
Định nghĩa 2.6. Cho bảng quyết định ,DT U C D , P C và b C P .
Độ quan trọng của thuộc tính b đối với P được định nghĩa bởi
, ,P FJ FJSIG b d P P D d P b P b D (2.26)
Độ quan trọng của thuộc tính đặc trưng cho sự phụ thuộc của thuộc
tính điều kiện vào thuộc tính quyết định và được sử dụng làm tiêu chuẩn lựa
chọn thuộc tính cho thuật toán heuristic tìm tập rút gọn sau đây.
Thuật toán FJ_DBAR (Fuzzy Jaccard Distance based Attribute
Reduction): Thuật toán heuristic tìm một tập rút gọn sử dụng khoảng cách
Jaccard mờ.
Đầu vào: Bảng quyết định miền giá trị thực ,DT U C D , quan hệ
tương đương mờ R .
Đầu ra: Một tập rút gọn P .
// Khởi tạo tập rút gọn bằng rỗng
1. P; ( ) 0PM R ; , 1FJd D ;
2. Tính ( )CM R , M (IND(D)) ;
3. Tính ,FJd C C D ;
// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất
4. While , ,FJ FJd P P D d C C D Do
5. Begin
6. For each a C P Do
7. Begin
8. Tính ,FJd P a P a D ;
9. Tính , ,P FJ FJSIG a d P P D d P a P a D ;
// Tính độ quan trọng của từng thuộc tính điều kiện còn
lại với tập thuộc tính quyết định
10. End;
54
11. Chọn ma C P sao cho P m Pa C PSIG a Max SIG a
;
// Chọn thuộc tính có độ quan trọng lớn nhất theo khoảng cách
Jaccard mờ kết nạp vào tập rút gọn
12. mP P a ;
13. Tính ,FJd P P D ;
14. End;
//Loại bỏ các thuộc tính dư thừa trong P nếu có
15. For each a P
16. Begin
17. Tính ,FJd P a P a D ;
18. If , ,FJ FJd P a P a D d C C D then P P a ;
// Loại bỏ những thuộc tính không cần thiết đến điều kiện xây
dựng tập rút gọn
19. End;
20. Return P ;
Ví dụ 2.3. Cho bảng quyết định miền giá trị thực ,DT U C D (Bảng 2.1)
với 1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c .
Bảng 2.1. Bảng quyết định miền giá trị thực
U 1c 2c 3c 4c 5c 6c D
1u 0.8 0.2 0.6 0.4 1 0 0
2u 0.8 0.2 0 0.6 0.2 0.8 1
3u 0.6 0.4 0.8 0.2 0.6 0.4 0
4u 0 0.4 0.6 0.4 0 1 1
5u 0 0.6 0.6 0.4 0 1 1
6u 0 0.6 0 1 0 1 0
55
Áp dụng các bước của thuật toán FJ_DBAR, sử dụng quan hệ tương
đương mờ theo công thức (1.11).
P, ( ) 0PM R , , 1FJd D , tính các ma trận tương đương
mờ 1 2 3 4 5 6( ), ( ), ( ), ( ), ( ), ( ), ( ), ( )c c c c c c CM R M R M R M R M R M R M R M IND D .
1
1 1 0 0 0 01 1 0 0 0 00 0 1 0 0 00 0 0 1 1 10 0 0 1 1 10 0 0 1 1
( )
1
cM R
, 2
1 1 0 0 0 01 1 0 0 0 00 0 1 1 0 00 0 1 1 0 00 0 0 0 1 1
(
0 0 0 1 1
)
0
cRM
3
1 0 0 1 1 00 1 0 0 0 10 0 1 0 0 01 0 0 1 1 01 0 0 1 1 00 1 0 0 0
( )
1
cM R
, 4
1 0 0 1 1 00 1 0 0 0 00 0 1 0 0 01 0 0 1 1 01 0 0 1 1 0
(
0 0 0 0 1
)
0
cRM
5
1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1
( )cRM
, 6
1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1
( )cRM
1 0 0 0 0 00 1 0 0 0 00 0 1 0 0 00 0 0 1 0 00 0 0 0 1 00 0 0 0 0 1
( ) ,CM R
1 0 1 0 0 10 1 0 1 1 01 0 1 0 0 10 1 0 1 1 00 1 0 1 1 01 0 1 0 0 1
( )M IND D
.
Tính:
, 0,FJd C C D 1 1{ },{ } { } 0.38889;FJd c c D
56
2 2{ },{ } 0.5;{ }FJd c c D 3 3{ },{ } { } 0.389;FJd c c D
4 4{ },{ } { } 0.222;FJd c c D 5 5{ },{ } { } 0.23958;FJd c c D
6 6{ },{ } { } 0.23958.FJd c c D
1 0.611 1} ;{ 1PSIG c 2} 0 5{ .PSIG c ; 3{ } 0.611PSIG c ;
4{ } 0.778PSIG c ; 5{ } 0.76042PSIG c ; 6{ } 0.76042PSIG c .
Thuộc tính 4c được chọn và 4P c .
Tính tương tự, ta có: 4 1 4 1{ , } 0,{ , } { }FJd c c c c D , kiểm tra
4 1 4 1{ , },{ , } , 0FJ FJd c c c c D d C C D , thuật toán dừng và kết luận
4 1,P c c . Sau khi kiểm tra tính dư thừa, kết luận 4 1,P c c là tập rút gọn
của DT .
Thuật toán FJ_DBAR tìm được một tập rút gọn và kiểm tra tính dư
thừa của tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một
thuộc tính là 2( )O U với U số lượng đối tượng, C là số lượng thuộc tính điều
kiện; độ phức tạp tính toán của ( )CM R là 2( )O C U . Thuật toán có hai vòng
lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ phức tạp
tính toán của FJ_DBAR là 3 2( )O C U .
2.3.3. Thử nghiệm và đánh giá kết quả
Luận án lựa chọn thuật toán heuristic tìm một tập rút gọn dựa trên
lượng thông tin tăng thêm GAIN_RATIO_AS_FRS [24] (gọi là GRAF) khi
thêm một thuộc tính vào tập rút gọn để so sánh với thuật toán FJ_DBAR về
thời gian thực hiện, tập rút gọn và độ chính xác phân lớp dữ liệu. Thuật toán
GRAF tính toán độ quan trọng của thuộc tính dựa trên entropy mờ. Để tiến
hành thực nghiệm, luận án thực hiện các công việc sau:
1) Cài đặt thuật toán GRAF [24] và thuật toán FJ_DBAR bởi ngôn ngữ
C#. Cả hai thuật toán đều sử dụng quan hệ tương đương mờ định nghĩa ở
57
công thức (1.11) ở các thuộc tính điều kiện, trên tập thuộc tính quyết định sử
dụng quan hệ tương đương mờ như ở công thức (1.12).
2) Trên máy tính PC với cấu hình: Bộ xử lý Pentium Core i3, 2.4 GHz
CPU, 2 GB RAM, sử dụng hệ điều hành Windows 10, chạy thử nghiệm các
thuật toán trên sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] như ở Bảng 2.2.
Với mỗi bộ dữ liệu, ký hiệu U là số lượng các đối tượng, R là số lượng
thuộc tính của tập rút gọn, C là số lượng các thuộc tính điều kiện, t là thời
gian thực hiện của thuật toán (tính bằng giây), các thuộc tính điều kiện ký
hiệu là 1, 2, ..., C .
Bảng 2.2. Bộ dữ liệu thử nghiệm
TT Bộ dữ liệu Số thuộc tính
điều kiện
Số đối
tượng Số lớp
1 Fisher_Order 35 47 4
2 Iris 4 150 3
3 Glass 10 214 7
4 Sonar 60 208 2
5 Sensor_Readings_24 24 5456 4
6 EEG_Eye_State 14 14980 2
Thời gian thực hiện và tập rút gọn thu được của hai thuật toán được
miêu tả trong Bảng 2.6 và Bảng 2.7.
Bảng 2.6. Kết quả thực nghiệm của FJ_DBAR và GRAF
TT Tập dữ liệu |U| |C| FJ_DBAR GRAF
|R| t |R| t
1 Fisher_Order 47 35 18 0.095 21 0.107
2 Iris 150 4 1 0.002 2 0.003
3 Glass 214 10 6 0.46 8 0.48
4 Sonar 208 60 26 2.053 23 1.980
58
5 Sensor_Readings_24 5456 24 14 2.095 12 1.986
6 EEG_Eye_State 14980 14 7 2.580 7 2.790
Kết quả thực nghiệm ở Bảng 2.6 cho thấy số lượng thuộc tính của tập
rút gọn thu được của FJ_DBAR và GRAF phụ thuộc vào từng bộ dữ liệu cụ
thể. Thuật toán FJ_DBAR tìm được tập rút gọn có số lượng thuộc tính nhỏ
hơn GRAF tại 3/6 bộ dữ liệu thử nghiệm (Fisher_Order, Iris, Glass), bằng
nhau ở tại 1/6 bộ dữ liệu thử nghiệm (EEG_Eye_State), lớn hơn GRAF tại
2/6 bộ dữ liệu (Sonar, Sensor_Readings_24). Thời gian thực hiện của
FJ_DBAR nhanh hơn GRAF tại 4/6 bộ dữ liệu (Fisher_Order, Iris, Glass,
EEG_Eye_State). Trên một số bộ dữ liệu thử nghiệm, thuật toán nào tìm
được tập rút gọn có số lượng thuộc tính ít hơn thì có thời gian thực hiện
nhanh hơn. Tại bộ dữ liệu (EEG_Eye_State) tìm được tập rút gọn giống nhau
theo hai thuật toán thì FJ_DBAR có thời gian thực hiện nhanh hơn, điều này
phù hợp với lý thuyết bởi có cùng độ phức tạp tính là 3 2( )O C U nhưng công
thức tính độ quan trọng của thuộc tính của GRAF [24] tiếp cận theo hướng
entropy mờ có sử dụng biểu thức Logarit sẽ mất thời gian tính toán hơn so
với FJ_DBAR. Biểu đồ so sánh thời gian thực hiện của FJ_DBAR và GRAF
được thể hiện như Hình 2.3
Hình 2.3. Thời gian thực hiện của FJ_DBAR và GRAF
0
0.5
1
1.5
2
2.5
3
FJ_DBAR
GRAF
59
Các tập rút gọn cụ thể của FJ_DBAR và GRAF trên sáu bộ số liệu thực
nghiệm thể hiện ở Bảng 2.7.
Bảng 2.7. Tập rút gọn thu được bởi FJ_DBAR và GRAF
TT Bộ dữ liệu FJ_DBAR GRAF
1 Fisher_Order {11,13,14,15,16,17,18,19,29,3
0,31,32,33,34,28,24,12,2}
{22,11,13,14,15,16,17,18,19
,29,30,31,32,33,34,9,20,5,2
5,10,3}
2 Iris {3} {3,4}
3 Glass {2,1,3,4,5,10} {2,1,3,4,6,10,8,7}
4 Sonar {21,36,27,12,31,54,24,22,33,2
9,57,48,39,34,6,46,20,16,7,11,
26,50,8,10,56,58}
{21,36,30,12,27,54,41,22,32
,57,39,16,46,34,6,11,10,31,
8,26,56,48,58}
5 Sensor_Readings_24 {4,3,7,2,15,5,10,23,8,6,14,11,
1,9}
{3,7,12,15,5,21,24,8,14,17,1
,16}
6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5}
Tiếp theo, luận án thực hiện việc so sánh độ chính xác phân lớp dữ
liệu của tập rút gọn thu được bởi FJ_DBAR và GRAF. Độ chính xác phân
lớp dữ liệu của các tập rút gọn được đánh giá bằng thuật toán C4.5 trong
công cụ J48 của WEKA [100]. Để thực hiện việc đánh giá độ chính xác phân
lớp dữ liệu, luận án chia tập dữ liệu thử nghiệm thành mười phần bằng nhau;
chín phần mười tập dữ liệu được dùng làm dữ liệu huấn luyện, một phần
mười dùng làm dữ liệu kiểm tra. Kết quả thực nghiệm được thể hiện ở Bảng
2.8.
Bảng 2.8. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF
TT Tập dữ liệu |U| |C|
FJ_DBAR GRAF
|R|
Độ chính
xác phân
lớp (%)
|R|
Độ chính
xác phân
lớp (%)
1 Fisher_Order 47 35 18 78.72 21 76.59
60
2 Iris 150 4 1 94.00 2 94.00
3 Glass 214 10 6 80.15 8 81.70
4 Sonar 208 60 26 71.63 23 70.67
5 Sensor_Readings_24 5456 24 14 94.84 12 91.25
6 EEG_Eye_State 14980 14 7 81.25 7 81.25
Kết quả thực nghiệm trên sáu bộ dữ liệu ở Bảng 2.8 chỉ ra rằng độ
chính xác phân lớp dữ liệu theo thuật toán C4.5 của FJ_DBAR cao hơn
GRAF tại 3/6 bộ dữ liệu (Fisher_Order, Sonar, Sensor_Readings_24), bằng
nhau tại 2/6 bộ dữ liệu (Iris, EEG_Eye_State), thấp hơn tại 1/6 bộ dữ liệu
(Glass). Do vậy, luận án kết luận FJ_DBAR có độ chính xác phân lớp cao
hơn GRAF trên một số bộ dữ liệu thử nghiệm, với những bộ dữ liệu có tập
rút gọn giống nhau thì độ chính xác phân lớp theo thuật toán C4.5 của hai
thuật toán là như nhau. Độ chính xác phân lớp này phụ thuộc vào tập rút gọn
thu được theo các phương pháp với những bộ dữ liệu cụ thể, không phụ
thuộc vào số lượng thuộc tính của tập rút gọn. Có những bộ dữ liệu có số
lượng thuộc tính của tập rút gọn giống nhau nhưng các thuộc tính cụ thể khác
nhau thì độ chính xác phân lớp theo thuật toán C4.5 có thể cũng khác nhau.
Ví dụ bộ Iris với tập rút gọn thu được theo thuật toán FJ_DBAR là thuộc tính
{3} thì độ chính xác phân lớp là 94%, với tập rút gọn thu được theo thuật
toán F_RSAR2 là thuộc tính {4} thì độ chính xác 94.67%. Ngoài ra, độ chính
xác phân lớp của các tập rút gọn theo thuật toán C4.5 còn phụ thuộc vào tỷ lệ
phân chia tập dữ liệu giữa phần huấn luyện và phần kiểm tra. Thông thường,
các phương pháp hay lựa chọn chia tập dữ liệu thành mười phần hoặc ba
phần bằng nhau; một phần sử dụng làm dữ liệu huấn luyện, các phần còn lại
sử dụng làm dữ liệu kiểm tra. Biểu đồ so sánh độ chính xác phân lớp của
FJ_DBAR và GRAF theo C4.5 được thể hiện như Hình 2.4.
61
Hình 2.4. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF
Bằng thực nghiệm, luận án kết luận thuật toán toán FJ_DBAR có khả
năng cho kết quả tốt hơn GRAF về thời gian thực hiện và độ chính xác phân
lớp dữ liệu trên một số bộ dữ liệu thử nghiệm.
2.4. Kết luận chương 2
Một trong những mục tiêu của rút gọn thuộc tính trong bảng quyết
định là nâng cao độ chính xác phân lớp của dữ liệu. Trên lớp bài toán rút gọn
thuộc tính trong bảng quyết định miền giá trị thực, các nghiên cứu liên quan
cho thấy các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ
chính xác phân lớp cao hơn phương pháp rút gọn thuộc tính theo tiếp cận tập
thô truyền thống [24], [39], [44], [47], [72], [80]. Chương 2 của luận án cải
tiến phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực sử
dụng miền dương mờ trong công trình của Hu, Q., [38] để tìm một tập rút
gọn không dư thừa thuộc tính, bảo toàn miền dương mờ dựa trên quan hệ
tương đương mờ. Bên cạnh đó, phương pháp đề xuất cũng cải tiến công thức
tính độ quan trọng của thuộc tính sử dụng làm tiêu chuẩn lựa chọn thuộc tính
cho tập rút gọn để giảm bớt thời gian tính toán độ quan trọng của thuộc tính.
78.72
94
80.15
71.63
94.84
81.25
0.0010.0020.0030.0040.0050.0060.0070.0080.0090.00
100.00
FJ_DBAR
GRAF
62
Đóng góp chính của Chương 2 là đề xuất phương pháp rút gọn thuộc tính
trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard
mờ. Khoảng cách Jaccard mờ được xây dựng dựa trên khoảng cách Jaccard
giữa hai tập hợp và chứng minh đầy đủ các tính chất của khoảng cách. Kết
quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI [99] cho thấy,
độ chính xác phân lớp của phương pháp sử dụng khoảng cách Jaccard mờ tốt
hơn độ chính xác phân lớp của phương pháp sử dụng entropy mờ trên một số
bộ dữ liệu thực nghiệm, thời gian thực hiện của phương pháp khoảng cách
nhanh hơn entropy trên đa số bộ dữ liệu thử nghiệm.
63
CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN
HOẠCH MỜ
Tiếp nối sự thành công của kỹ thuật sử dụng khoảng cách Jaccard mờ
trong phần trước, Chương 3 của luận án đề xuất một độ đo khoảng cách
giữa hai phân hoạch mờ, gọi là khoảng cách phân hoạch mờ. Dựa trên
khoảng cách phân hoạch mờ đề xuất, chương này xây dựng phương pháp rút
gọn thuộc tính của bảng quyết định miền giá trị thực. Thử nghiệm trên một
số bộ dữ liệu cho thấy, phương pháp đề xuất hiệu quả hơn phương pháp sử
dụng entropy thông tin mờ và phương pháp sử dụng miền dương mờ theo
tiêu chí đánh giá độ chính xác phân lớp dữ liệu và thời gian thực hiện của
thuật toán.
3.1. Đặt vấn đề
Chương 2 của luận án cho thấy sự hiệu quả của phương pháp rút gọn
thuộc tính trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng
cách Jaccard mờ. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI
[99] thấy rằng kỹ thuật sử dụng khoảng cách Jaccard mờ tỏ ra hiệu quả so
với phương pháp sử dụng entropy mờ dựa trên các tiêu chí đánh giá về thời
gian thực hiện và độ chính xác phân lớp dữ liệu. Với mục tiêu nghiên cứu
các phương pháp hiệu quả để rút gọn thuộc tính của bảng quyết định miền
giá trị thực, bổ sung làm phong phú thêm bộ sưu tập các phương pháp, nhằm
đánh giá một cách khái quát hơn về nhóm phương pháp sử dụng khoảng cách
mờ theo tiếp cận tập thô mờ. Chương 3 của luận án đề xuất độ đo khoảng
cách giữa hai phân hoạch mờ và ứng dụng rút gọn thuộc tính của bảng quyết
định miền giá trị thực. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu
UCI [99] chỉ ra rằng, phương pháp sử dụng khoảng cách phân hoạch mờ tỏ ra
hiệu quả hơn phương pháp sử dụng pháp sử dụng entropy thông tin mờ [24],
[38]-[40], [88], [89] và miền dương mờ [9], [38]-[40], [72] trên một số bộ dữ
64
liệu thử nghiệm theo tiêu chí đánh giá thời gian thực hiện thuật toán và độ
chính xác phân lớp dữ liệu. Qua đó, khẳng định được sự thành công của
phương pháp sử dụng khoảng cách mờ trong rút gọn thuộc tính của bảng
quyết định miền giá trị thực, là sự tiếp nối của phương pháp sử dụng khoảng
cách trong tập thô truyền thống.
Các kết quả chính trong chương này được công bố trong công trình
[CCN4].
3.2. Khoảng cách phân hoạch mờ và các tính chất
Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các
đối tượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay
một khối. Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương
đương) giữa các tri thức, nghĩa là khoảng cách giữa hai tri thức càng nhỏ
thì hai tri thức đó càng gần nhau, hay càng tương đương nhau và ngược lại.
Như vậy, khi một khoảng cách nào đó được định nghĩa trên tập các tri thức
thì cũng có nghĩa là một khoảng cách đã được xác lập trên tập các thuộc
tính. Sử dụng khoảng cách để đánh giá sự khác nhau giữa các thuộc tính,
phát hiện các thuộc tính quan trọng [38], [64], [69]-[71]. Nhờ đó, xây dựng
thuật toán hiệu quả để giải quyết bài toán rút gọn thuộc tính trong lý thuyết
tập thô mờ.
Kế thừa sự thành công của kỹ thuật rút gọn thuộc tính sử dụng khoảng
cách phân hoạch theo tiếp cận tập thô truyền thống [4], luận án xây dựng
thuật toán heuristic để rút gọn thuộc tính của bảng quyết định miền giá trị
thực sử dụng khoảng cách phân hoạch mờ. Khoảng cách phân hoạch mờ giữa
hai tập thuộc tính được xây dựng dựa trên khoảng cách mờ giữa hai tập mờ.
Kết quả thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] cho
thấy, phương pháp đề xuất cải thiện độ chính xác phân lớp dữ liệu tốt hơn so
với các công bố trước đây [72].
65
Đầu tiên trong mục này luận án xây dựng một khoảng cách giữa hai
tập mờ, gọi là khoảng cách mờ.
Mệnh đề 3.1. Cho hai tập mờ ,A B trên cùng tập đối tượng U. Khi đó
, 2NFd A B A B A B (3.1)
là một độ đo khoảng cách giữa A và B .
Chứng minh: Để chứng minh ( , )NFd A B là một độ đo khoảng cách mờ
trên tập đối tượng U , nghĩa là mọi tập mờ , ,A B C trên U thỏa mãn các điều
kiện sau:
1) ( , ) 0NFd A B , điều kiện ( , ) 0NFd A B khi và chỉ khi A B
2) ( , ) ( , )NF NFd A B d B A
3) ( , ) ( , ) ( , )NF NF NFd A B d A C d B C
Rõ ràng A A B và B A B nên , 0NFd A B . Hơn nữa,
, ,NF NFd A B d B A . Tiếp theo, ta cần chứng minh bất đẳng thức tam giác.
Không mất tính chất tổng quát ta chứng minh , , ,NF NF NFd A B d A C d B C . Theo Bổ đề 2.2 của Chương 2, ta có:
(1) A A B C C A C C B
(2) A A C B B A B B C
Cộng (1) với (2), vế với vế ta được:
2 2 2A B A B A C A C B C B C , hay
, , ,NF NF NFd A B d A C d B C .
66
Từ đó, ,NFd A B là một khoảng cách giữa hai tập mờ A và B , gọi là
khoảng cách mờ. Dựa trên khoảng cách mờ này, mục tiếp theo luận án xây dựng
khoảng cách giữa hai phân hoạch mờ.
Ví dụ 3.1 (Tiếp Ví dụ 2.2 của Chương 2). Cho hai tập mờ ,A B như ở Ví dụ
2.2. Khoảng cách giữa hai tập mờ ,A B được xác định:
, 2 0.8 1.2 2 0.8 0.4NFd A B A B A B x
Định lý 3.1. Xét bảng quyết định ,DT U C D với 1 2, ,..., nU x x x và
PR , QR là hai phân hoạch mờ sinh bởi hai quan hệ tương đương mờ
PR , QR trên ,P Q C . Khi đó:
1
21, P Q P Qn i i i iR R R R
P QNFi
x x x xD R R
n n
(3.2)
là một khoảng cách mờ, gọi là khoảng cách phân hoạch mờ giữa PR và
QR .
Chứng minh: Rõ ràng , 0P QNFD R R và
, ,P Q Q PNF NFD R R D R R . Ta cần chứng minh bất đẳng thức
tam giác. Không mất tính chất tổng quát, với mọi , ,P Q SR R R
ta phải chứng minh
, , ,P Q P S Q SNF NF NFD R R D R R D R R . Từ Mệnh đề
3.1, với mọi ix U ta có:
, , ,P Q P S Q SNF i i NF i i NF i iR R R R R R
d x x d x x d x x . Từ đó:
, ,P Q P SNF NFD R R D R R
67
1 1
2 21 1P Q P Q P S P S
n ni i i i i i i iR R R R R R R R
i i
x x x x x x x x
n n n n
1 1 1
, ,,1 1 1
,
P Q Q SP S
n n ni i i ii iR R R RR R
i i i
Q S
NF NFNF
NF
d x x d x xd x x
n n n n n n
D R R
Dễ thấy rằng, ,P QNFD R R đạt giá trị nhỏ nhất là 0 khi và chỉ
khi P QR R và ,P QNFD R R đạt giá trị lớn nhất là 1 khi và chỉ
khi PR và QR (hoặc PR và QR ).
Do đó, 0 , 1P QNFD R R .
Ví dụ 3.2. Cho 1 2,U x x , 1 2,P P
P R RR x x , 1 2,
Q QQ R RR x x ,
1 2,S S
S R RR x x
với 1 1 20.1/ 0.2 /
PRx x x , 2 1 20.2 / 0.3/
PRx x x ,
1 1 20.2 / 0.3 /QRx x x , 2 1 20.3 / 0.4 /
QRx x x , 1 1 20.3/ 0.4 /SR
x x x ,
2 1 20.4 / 0.6 /SR
x x x . Khi đó, ta có:
1 0.1 0.2 0.3PRx , 2 0.2 0.3 0.5
PRx , 1 0.2 0.3 0.5QR
x ,
2 0.3 0.4 0.7QR
x , 1 0.3 0.4 0.7SRx , 2 0.4 0.6 1
SRx ,
1 1 0.3P QR R
x x , 2 2 0.5P QR R
x x , 1 1 0.5Q SR R
x x ,
2 2 0.7Q SR R
x x , 1 1 0.3P SR Rx x , 2 2 0.5
P SR Rx x .
Ví dụ 3.3. Cho 1 2,U x x , 1 2,P P
P R RR x x , 1 2,
Q QQ R R
R x x ,
1 2,S S
S R RR x x
như ở Ví dụ 3.2. Để so sánh độ mịn/thô giữa
,P QR R , ta tính các khoảng cách phân hoạch mờ
,PNFD R , ,QNFD R . Theo công thức (3.2), ta có:
68
0.3 0.5, 0.24
PNFD R
0.5 0.7, 0.34
QD R
Do đó, , ,P QNF NFD R D R và ta kết luận PR
mịn hơn QR hay QR thô hơn PR .
Tiếp theo, luận án trình bày mối quan hệ giữa khoảng cách phân
hoạch mờ ,PNFD R với các độ đo entropy thông tin mờ trong công
trình [40], [71].
Cho 1 ,...,P P
P nR RR x x là một phân hoạch mờ trên U . Khi đó,
entropy mờ H P và E P được xây dựng dựa trên entropy Shannon và
entropy Liang tương ứng như sau:
2
1
[ ]1 log Pn
i R
i
xH P
n n
(3.3)
1
[ ]1 1 Pn
i R
i
xE P
n n
(3.4)
Mệnh đề 3.2. Cho là không gian phân hoạch mờ và ,P QR R . Khi
đó ta có:
1) Nếu , ,NF NFD P D Q thì H P H Q .
2) Nếu , ,NF NFD P D Q thì E P E Q .
Chứng minh: , ,D P D Q thì theo tính chất của
quan hệ tương đương mờ và công thức (3.2) ta có:
[x ] [x ] [x ] [x ] [x ] [x ]P Q P Q P Qi i i i i iR R R R R R với mọi ix U .
69
Từ công thức (3.3) tính H P ta có H P H Q .
Từ công thức (3.4) tính E P ta có E P E Q .
Ví dụ 3.4. Cho 1 2,U x x , 1 2,P P
P R RR x x , 1 2,
Q QQ R RR x x ,
1 2,S S
S R RR x x
như ở Ví dụ 3.2, mối liên hệ giữa khoảng cách
,NFD P và entropy H P , E P được xác định ở Bảng 3.1
Bảng 3.1. Mối liên hệ giữa khoảng cách phân hoạch mờ và entropy
thông tin
Quan hệ tương
đương mờ
Khoảng cách Entropy
,NFD P H P E P
PR 0.2 2.368483 0.8
QR 0.3 1.757287 0.7
SR 0.425 1.257287 0.575
Bảng 3.1 cho thấy, nếu P càng thô (khoảng cách ,NFD P
càng lớn) thì entropy H P , E P càng nhỏ và ngược lại. Tính chất này
phù hợp với tính chất của entropy thông tin trong [40]. Từ đó, khoảng cách
phân hoạch mờ có mối liên hệ chặt chẽ với các entropy thông tin mờ và là độ
đo sử dụng để đánh giá độ mịn/thô hay sự khác nhau, tính phân biệt được
giữa các phân hoạch mờ.
Mệnh đề 3.3. Cho PR là một phân hoạch mờ trên , khi đó ta có:
, , 1P PNF NFD R D R
70
Chứng minh: Giả sử 1 2, ,...,P P P
P nR R RR x x x . Khi đó
21
1,P
n
PNF i Ri
D R xn
, 21
1,P
n
PNF i Ri
D R n xn
. Từ
đó, ta có: , , 1P PNF NFD R D R .
Ví dụ 3.5. Cho 1 2,U x x , 1 2,P P
P R RR x x , 1 2,
Q QQ R RR x x ,
1 2,S S
S R RR x x như ở Ví dụ 3.2. Theo Định lý 3.1 ta có:
, 0.1P QNFD R R , , 0.125Q SNFD R R ,
, 0.225P SNFD R R .
Do đó:
, , ,P Q Q S P SNF NF NFD R R D R R D R R ;
, , ,P Q P S Q SNF NF NFD R R D R R D R R ;
, , ,Q S P S P QNF NF NFD R R D R R D R R ;
3.3. Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân
hoạch mờ
Trong phần này, luận án trình bày phương pháp rút gọn thuộc tính
trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách phân
hoạch mờ như đã trình bày ở phần 3.2.
Cho bảng quyết định miền giá trị thực ,DT U C D với
1 2, ,..., nU x x x . Trên tập thuộc tính điều kiện luận án sử dụng một quan hệ
tương đương mờ xác định trên miền giá trị thuộc tính như ở công thức (1.11).
Trên tập thuộc tính quyết định luận án sử dụng quan hệ tương đương
IND D với ma trận tương đương ij n nM IND D d
, 1ijd nếu
71
j i Dx x và 0ijd nếu j i D
x x . Nói cách khác, lớp tương đương i Dx có
thể xem là lớp đương đương mờ, ký hiệu là i Dx , với hàm thuộc 1
i Djx x
nếu j i Dx x và 0
i Djx x nếu j i D
x x . Khi đó, ký hiệu phân hoạch mờ
11, ...,
n
i nD D DiD x x x
.
Dựa trên các quan hệ được xác định, luận án xây dựng khoảng cách
phân hoạch mờ giữa tập thuộc tính điều kiện và tập thuộc tính quyết định.
Như đã trình bày ở phần 3.2, mỗi tập thuộc tính P C xác định một phân
hoạch mờ PR . Do đó, để đơn giản luận án sử dụng khái niệm khoảng
cách phân hoạch mờ giữa hai tập thuộc tính thay cho khái niệm khoảng cách
phân hoạch mờ giữa hai phân hoạch mờ bởi Định nghĩa 3.1 sau đây.
Định nghĩa 3.1. Cho bảng quyết định miền giá trị thực ,DT U C D với
PR , QR là hai phân hoạch mờ sinh ra bởi hai quan hệ tương đương mờ
PR , QR trên ,P Q C . Khi đó, khoảng cách phân hoạch mờ giữa hai tập thuộc
tính P và Q , ký hiệu là ,NFd P Q , được định nghĩa là khoảng cách phân
hoạch mờ giữa hai phân hoạch mờ PR và QR , nghĩa là
, ,P QNF NFd P Q D R R .
Mệnh đề 3.4. Cho bảng quyết định miền giá trị thực ,DT U C D với
1 2, ,..., nU x x x và R là quan hệ tương đương mờ xác định trên miền giá trị
tập thuộc tính điều kiện, khi đó khoảng cách phân hoạch mờ giữa hai tập
thuộc tính C và C D được xác định như sau:
1
1C,C D C Cn i i iR R D
NFi
x x xd
n n
(3.5)
Chứng minh: Từ Định nghĩa 3.1 và Định lý 3.1, ta có:
72
1
21C,C D , C C D C C Dn i i i iR R R R
C C DNF NFi
x x x xd D R R
n n
1 1
21 1C C D C D C C Dn n
i i i i i i i iR R R R R R R R
i i
x x x x x x x xn n n n
1
1 C Cn
i i iR R D
i
x x xn n
.
Dễ thấy rằng 10 , 1NFd C C Dn
; , 0NFd C C D khi
CR D và 1, 1NFd C C Dn
khi CR và i iDx x với
1 i n .
Mệnh đề 3.5. Cho bảng quyết định miền giá trị thực ,DT U C D với
1 2, ,..., nU x x x , B C và R là quan hệ tương đương mờ xác định trên
miền giá trị tập thuộc tính điều kiện. Khi đó , ,NF NFd B B D d C C D .
Chứng minh: Từ B C , theo [72] ta có C BR R , nghĩa là
C Bi iR Rx x với 1 i n , suy ra C Bi iR R
x x với 1 i n . Xét đối
tượng ix U ta có:
1 1
min ,C C i i iR R DC C
n n
i i i j j jx x xR R Dj j
x x x x x x
1 1
min ,B B i i iR R DB B
n n
i i i j j jx x xR R Dj j
x x x x x x
(1) Với j i Dx x ta có 1
i Djx x , do đó
0C C B Bi i i i i iR R D R R D
x x x x x x .
(2) Với j i Dx x ta có 0
i Djx x , do đó
C C C Bi i i i iR R D R Rx x x x x B Bi i iR R Dx x x .
73
Từ (1), (2) ta có:
B B C Ci i i i i iR R D R R Dx x x x x x
1 1
1 1 C CB Bn n
i i ii i i R R DR R D
i i
x x xx x xn n n n
, ,NF NFd B B D d C C D .
Dễ thấy rằng dấu đẳng thức , ,NF NFd B B D d C C D xảy ra khi
và chỉ khi B Ci iR Rx x với mọi ix U .
Tiếp theo, luận án trình bày phương pháp rút gọn thuộc tính sử dụng
khoảng cách phân hoạch mờ trong Mệnh đề 3.4, bao gồm các bước: Định
nghĩa tập rút gọn, định nghĩa độ quan trọng của thuộc tính dựa trên khoảng
cách phân hoạch mờ và xây dựng thuật toán heuristic tìm một tập rút gọn dựa
trên độ quan trọng của thuộc tính.
Định nghĩa 3.2. Cho bảng quyết định miền giá trị thực ,DT U C D với
B C và R là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc
tính điều kiện. Nếu:
1) , ,NF NFd B B D d C C D (3.6)
(3.7) 2) , ( , )) ( , )NF NFb B d B b B b D d C C D
thì B là một tập rút gọn của C dựa trên khoảng cách phân hoạch mờ.
Định nghĩa 3.3. Cho bảng quyết định miền giá trị thực ,DT U C D với
B C và b C B . Độ quan trọng của thuộc tính b đối với B được định
nghĩa bởi
, ,B NF NFSIG b d B B D d B b B b D (3.8)
Từ Mệnh đề 3.5 ta có 0BSIG b . Độ quan trọng BSIG b đặc trưng
cho chất lượng phân lớp của thuộc tính b vào thuộc tính quyết định D và
74
được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm
tập rút gọn sau đây.
Thuật toán NF_DBAR (New Fuzzy Distance based Attribute
Reduction): Thuật toán heuristic tìm một tập rút gọn sử dụng khoảng cách
phân hoạch mờ.
Đầu vào: Bảng quyết định miền giá trị thực ,DT U C D , quan hệ
tương đương mờ R
Đầu ra: Một tập rút gọn B
1. B; ( ) 1B n nM R
;
2. Tính ma trận tương đương mờ ( )CM R , tính ma trận tương đương mờ
( )M IND D , tính khoảng cách phân hoạch mờ ,NFd C C D ;
// Thêm dần vào B các thuộc tính phù hợp để tìm tập rút gọn
3. While , ,NF NFd B B D d C C D Do
4. Begin
5. For each a C B Do
, ,B NF NFSIG a d B B D d B a B a D ;
// Tính độ quan trọng cho mỗi thuộc tính điều kiện còn
lại với tập thuộc tính quyết định
6. Chọn ma C B sao cho B m Ba C BSIG a Max SIG a
;
// Chọn thuộc tính có độ quan trọng lớn nhất theo khoảng cách
phân hoạch mờ kết nạp vào tập rút gọn
7. mB B a ;
8. End;
//Kiểm tra thuộc tính dư thừa trong B nếu có
9. For each a B
10. Begin
75
11. Tính , NFd B a B a D ;
12. If , , NF NFd B a B a D d C C D then B B a ;
// Loại bỏ những thuộc tính không cần thiết khi xây dựng tập
rút gọn
13. End;
14. Return B ;
Ví dụ 3.6. Cho bảng quyết định miền giá trị thực ,DT U C D (Bảng 2.1)
với 1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c , quan hệ tương đương mờ
R được định nghĩa ở công thức (1.11).
Bảng 2.1. Bảng quyết định miền giá trị thực
U 1c 2c 3c 4c 5c 6c D
1u 0.8 0.2 0.6 0.4 1 0 0
2u 0.8 0.2 0 0.6 0.2 0.8 1
3u 0.6 0.4 0.8 0.2 0.6 0.4 0
4u 0 0.4 0.6 0.4 0 1 1
5u 0 0.6 0.6 0.4 0 1 1
6u 0 0.6 0 1 0 1 0
Áp dụng các bước của thuật toán NF_DBAR để tìm một tập rút gọn,
ta có:
B; ( ) 1B n nM R
; , 0.5NFd D . Tính các ma trận tương
đương mờ của tập thuộc tính điều kiện
1 2 3 4 5 6( ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( )c c c c c c CM R M R M R M R M R M R M R , tính ma trận tương
đương mờ của tập thuộc tính quyết định ( )M IND D .
76
1
1 1 0 0 0 01 1 0 0 0 00 0 1 0 0 00 0 0 1 1 10 0 0 1 1 10 0 0 1 1
( )
1
cM R
, 2
1 1 0 0 0 01 1 0 0 0 00 0 1 1 0 00 0 1 1 0 00 0 0 0 1 1
(
0 0 0 1 1
)
0
cRM
3
1 0 0 1 1 00 1 0 0 0 10 0 1 0 0 01 0 0 1 1 01 0 0 1 1 00 1 0 0 0
( )
1
cM R
, 4
1 0 0 1 1 00 1 0 0 0 00 0 1 0 0 01 0 0 1 1 01 0 0 1 1 0
(
0 0 0 0 1
)
0
cRM
5
1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1
( )cRM
, 6
1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1
( )cRM
1 0 0 0 0 00 1 0 0 0 00 0 1 0 0 00 0 0 1 0 00 0 0 0 1 00 0 0 0 0 1
( ) ,
CM R
1 0 1 0 0 10 1 0 1 1 01 0 1 0 0 10 1 0 1 1 00 1 0 1 1 01 0 1 0 0 1
( )
M IND D
Tính , 0NFd C C D ; 1 1 0.1666, 67 NFd c c D ;
2 2 0.1666, 67 NFd c c D ; 3 3 0.1666, 67 NFd c c D ;
4 4 0.1111, 11 NFd c c D ; 5 5 0.1222, 22 NFd c c D ;
6 6 0.122222,NFd c c D ; 1 0.333333333BSIG c ;
77
2 0.33333333BSIG c ; 3 0.33333333BSIG c ; 4 0.388888889BSIG c ;
5 0.377777778BSIG c ; 6 0.377777778BSIG c . Thuộc tính 4c được chọn.
Tiếp tục, 4 1 4 1{ , },{ , 0} NFd c c c c D , kiểm tra
4 1 4 1{ , },{ , } , 0NF NFd c c c c D d C C D , thuật toán dừng và 4 1,B c c .
Sau khi kiểm tra tính dư thừa, kết luận 4 1,B c c là tập rút gọn của DT .
Thuật toán NF_DBAR tìm được một tập rút gọn và kiểm tra tính dư
thừa của tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một
thuộc tính là 2( )O U với U là số lượng đối tượng, C là số lượng thuộc tính
điều kiện; độ phức tạp tính toán của ( )CM R là 2( )O C U . Thuật toán có hai
vòng lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ phức
tạp tính toán của NF_DBAR là 3 2( )O C U .
3.4. Thử nghiệm và đánh giá kết quả
Luận án chọn sáu bộ dữ liệu mẫu lấy từ kho dữ liệu UCI [99] có miền
giá trị thực cho ở Bảng 2.2 để tiến hành thử nghiệm. Môi trường thử nghiệm
là máy tính PC với cấu hình Pentium core i3 2.4 GHz CPU, 2 GB bộ nhớ
RAM, sử dụng hệ điều hành Windows 10.
Bảng 2.2. Bộ dữ liệu thử nghiệm
TT Bộ dữ liệu Số thuộc tính
điều kiện
Số đối
tượng Số lớp
1 Fisher_Order 35 47 4
2 Iris 4 150 3
3 Glass 10 214 7
4 Sonar 60 208 2
5 Sensor_Readings_24 24 5456 4
6 EEG_Eye_State 14 14980 2
78
Luận án chọn thuật toán FA_FPR (tìm tập rút gọn dựa trên miền
dương mờ) và thuật toán FA_FSCE (tìm tập rút gọn dựa trên entropy mờ)
trong công trình [72] để so sánh với thuật toán đề xuất NF_DBAR về độ
chính xác phân lớp sau khi rút gọn thuộc tính và thời gian thực hiện của thuật
toán. Thuật toán FA_FPR là cải tiến của thuật toán FAR-VPFRS trong [38]
về thời gian thực hiện, còn thuật toán FA_FSCE là cải tiến của thuật toán
FSCE trong [39] về thời gian thực hiện. Tuy nhiên, trong công trình [72] tác
giả chưa đánh giá độ chính xác phân lớp đối với các thuật toán cải tiến
FA_FPR và FA_FSCE. Để tiến hành thử nghiệm, luận án thực hiện các công
việc sau:
1) Cài đặt các thuật toán FA_FPR, FA_FSCE và NF_DBAR bằng ngôn
ngữ C#, các thuật toán đều sử dụng quan hệ tương đương mờ theo (1.11).
2) Thực hiện ba thuật toán trên sáu bộ dữ liệu mẫu với môi trường thử
nghiệm được chọn.
3) Trên mỗi tập dữ liệu thử nghiệm, sử dụng thuật toán C4.5 trong công
cụ J48 của WEKA [100] để đánh giá độ chính xác phân lớp của ba thuật toán
bằng cách chọn hai phần ba số đối tượng làm tập huấn luyện, một phần ba số
đối tượng còn lại làm tập kiểm tra.
Bảng 3.2 là kết quả thử nghiệm về thời gian thực hiện rút gọn thuộc
tính của ba thuật toán trên sáu bộ số liệu được chọn với U là số đối tượng,
C là số thuộc tính điều kiện, R là số thuộc tính của tập rút gọn với mỗi
thuật toán, t là thời gian thực hiện (tính bằng giây).
Bảng 3.2. Kết quả thực nghiệm của FA_FSCE, FA_FPR, NF_DBAR
TT Bộ số liệu C FA_ FSCE FA_FPR NF_DBAR
R t R t R t
1 Fisher_Order 35 22 0.198 21 0.193 18 0.079
2 Iris 4 2 0.002 2 0.003 1 0.002
79
3 Glass 10 6 0.029 7 0.036 7 0.024
4 Sonar 60 8 2.012 12 2.889 13 2.433
5 Sensor_Readings_24 24 12 1.963 15 2.465 14 2.005
6 EEG_Eye_State 14 7 3.659 7 4.069 7 3.046
Kết quả thực nghiệm ở Bảng 3.2 cho thấy, thuật toán NF_DBAR tìm
được tập rút gọn có số lượng thuộc tính nhỏ nhất với thời gian thực hiện
nhanh nhất trong ba thuật toán tại 2/6 bộ dữ liệu (Fisher_Order, Iris), bằng
nhau tại 1/6 bộ dữ liệu (EEG_Eye_State) về số lượng thuộc tính của tập rút
gọn thu được nhưng nhanh hơn về thời gian thực hiện. Với những bộ dữ liệu
mà các phương pháp thu được tập rút gọn có số lượng thuộc tính bằng nhau
thì NF_DBAR có thời gian thực hiện nhanh nhất. Đặc biệt với bộ dữ liệu
(Sensor_Readings_24), tập rút gọn thu được bởi thuật toán NF_DBAR có số
lượng thuộc tính là 13 còn nhanh hơn cả tập rút gọn thu được bởi thuật toán
FA_FPR có số lượng thuộc tính là 12, qua đó cho thấy thuật toán FA_FPR có
thời gian thực hiện khá chậm hơn so với NF_DBAR. Với các tập rút gọn thu
được giống nhau theo các phương pháp ở các bộ dữ liệu (Iris, Glass,
EEG_Eye_State) thì thời gian thực hiện của thuật toán NF_DBAR là nhanh
nhất, tiếp theo đến FA_ FSCE và cuối cùng là FA_FPR.
Hình 3.1 là biểu đồ so sánh thời gian thực hiện của ba thuật toán trên
sáu bộ dữ liệu cụ thể.
Hình 3.1. Thời gian thực hiện của FA_FSCE, FA_FPR, NF_DBAR
012345
FA_ FSCE
FA_FPR
NF_DBAR
80
Bảng 3.3 là các tập rút gọn cụ thể thu được của ba thuật toán
FA_FSCE, FA_FPR và NF_DBAR trên sáu bộ dữ liệu thực nghiệm.
Bảng 3.3. Tập rút gọn của FA_FSCE, FA_FPR, NF_DBAR
TT Bộ số liệu FA_ FSCE FA_FPR NF_DBAR
1 Fisher_Order
{21,7,11,13,14,15,1
6,17,18,19,29,30,31
,32,33,9,20,5,25,10,
3,6}
{22,11,13,14,15,16,
17,18,19,29,30,31,3
2,33,34,9,20,5,25,1
0,3}
{11,13,14,15,16,17,1
8,19,29,30,31,32,33,3
4,28,24,12,2}
2 Iris {4,3} {4,3} {4}
3 Glass {2,1,3,4,7,10} {2,1,3,4,5,8,6} {2,1,3,4,5,8,6}
4 Sonar {21,36,30,12,27,54,
41,22}
{21,36,30,11,28,54,
41,22,32,57,39,16}
{21,36,30,12,27,54,4
1,22,32,57,39,16,46}
5 Sensor_Readings_24 {4,3,19,18,15,5,10,
23,8,11,1,9}
{17,4,3,7,2,15,5,10,
21,8,6,14,11,1,9}
{4,3,7,2,15,5,10,23,8,
6,14,11,1,9}
6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5} {8,11,2,3,12,10,5}
Bảng 3.4 biểu diễn số lượng thuộc tính của tập rút gọn và độ chính
xác phân lớp của ba thuật toán FA_FSCE, FA_FPR và NF_DBAR trên sáu
bộ dữ liệu thực nghiệm.
Bảng 3.4. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR,
NF_DBAR
TT Bộ số liệu U C
FA_ FSCE FA_FPR NF_DBAR
R
Độ chính
xác phân
lớp C4.5
(%)
R
Độ chính
xác phân
lớp C4.5
(%)
R
Độ chính
xác phân
lớp C4.5
(%)
1 Fisher_Order 47 35 22 79.87 21 76.59 18 78.72
2 Iris 150 4 2 94.00 2 94.00 1 94.67
3 Glass 214 10 6 80.15 7 81.56 7 81.56
81
4 Sonar 208 60 8 75.40 12 70.60 13 76.25
5 Sensor_Readings_24 5456 24 12 91.25 15 95.12 14 94.84
6 EEG_Eye_State 14980 14 7 81.25 7 81.25 7 81.25
Hình 3.2 là biểu đồ so sánh độ chính xác phân lớp đánh giá thông qua
thuật toán C4.5 trong công cụ J48 của WEKA [100] của ba thuật toán trên
sáu bộ dữ liệu cụ thể.
Hình 3.2. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR và
NF_DBAR
Kết quả thử nghiệm ở Bảng 3.4 và Hình 3.2 cho thấy, trên sáu bộ dữ
liệu thử nghiệm, độ chính xác phân lớp của ba thuật toán bằng nhau là 1/6 bộ
(EEG_Eye_State). Với từng thuật toán cụ thể, NF_DBAR có độ chính xác
phân lớp cao hơn FA_FPR tại 3/6 bộ dữ liệu (Fisher_Order, Iris, Sonar),
bằng tại 2/6 bộ dữ liệu (Glass, EEG_Eye_State), kém hơn FA_FPR tại 1/6 bộ
(Sensor_Readings_24); độ chính xác phân lớp của thuật toán NF_DBAR cao
hơn thuật toán FA_ FSCE tại 4/6 bộ dữ liệu (Iris, Glass, Sonar,
Sensor_Readings_24), bằng nhau tại 1/6 bộ (EEG_Eye_State), thấp hơn FA_
FSCE tại 1/6 bộ dữ liệu (Fisher_Order). Trên các bộ dữ liệu thử nghiệm,
0102030405060708090
100
78.72
94.67
81.5676.25
94.84
81.25
FA_ FSCE
FA_FPR
NF_DBAR
82
thuật toán NF_DBAR tỏ ra có ưu thế về độ chính xác phân lớp hơn cả, tiếp
theo là thuật toán FA_FPR (sử dụng miền dương mờ) và kém nhất là
FA_FSCE (sử dụng entropy mờ). Độ chính xác phân lớp của mỗi phương
pháp chỉ chiếm ưu thế trên từng bộ dữ liệu cụ thể, nếu các các phương pháp
có cùng một tập rút gọn trên một bộ dữ liệu thì độ chính xác phân lớp theo
thuật toán C4.5 của các phương pháp này là như nhau. Các thuật toán tỏ ra
hiệu quả hơn nhau về độ chính xác phân lớp dữ liệu phụ thuộc nhiều về sự
phân bổ dữ liệu của từng bộ dữ liệu thử nghiệm.
Kết quả thực nghiệm trên một số bộ dữ liệu cho thấy theo tiêu chí độ
chính xác phân lớp thì thuật toán NF_DBAR cho kết quả tốt nhất trên đa số
bộ dữ liệu thử nghiệm, tiếp theo là thuật toán sử dụng FA_FPR, cuối cùng là
FA_FSCE; theo tiêu chí thời gian thực hiện thì thuật toán NF_DBAR là
nhanh nhất, tiếp theo đến FA_FSCE, cuối cùng là FA_FPR.
3.5. Kết luận chương 3
Chương 3 của luận án đề xuất một độ đo khoảng cách giữa hai phân
hoạch mờ, chứng minh đầy đủ các tính chất của khoảng cách, ứng dụng xây
dựng phương pháp rút gọn thuộc tính của bảng quyết định có miền giá trị
thực. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI [99] cho
thấy phương pháp đề xuất hiệu quả hơn các phương pháp sử dụng entropy
thông tin mờ và miền dương mờ trên một số bộ dữ liệu thử nghiệm theo các
tiêu chí đánh giá: Thời gian thực hiện và độ chính xác phân lớp dữ liệu. Độ
chính xác phân lớp dữ liệu của từng phương pháp phụ thuộc vào tập rút gọn
cụ thể thu được theo phương pháp đó. Trên một số bộ dữ liệu thử nghiệm thì
phương pháp sử dụng khoảng cách mờ cho tỷ lệ về độ chính xác phân lớp dữ
liệu nhỉnh hơn cả, tiếp theo là phương pháp sử dụng miền dương mờ và cuối
cùng là phương pháp sử dụng entropy mờ. Thời gian thực hiện để tìm tập rút
gọn về cơ bản tùy thuộc vào số lượng thuộc tính của từng tập rút gọn thu
được theo mỗi phương pháp, tập rút gọn thu được với mỗi bộ dữ liệu theo
83
các phương pháp mà khác nhau thì thời gian thực hiện cũng khác nhau. Nếu
các phương pháp cho cùng một tập rút gọn với một bộ dữ liệu cụ thể nào đó
thì phương pháp sử dụng khoảng cách mờ có thời gian thực hiện ngắn nhất,
tiếp theo là phương pháp sử dụng entropy và cuối cùng là phương pháp sử
dụng miền dương mờ.
84
CHƯƠNG 4. RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH MỜ
Nội dung chương này trình bày phương pháp rút gọn thuộc tính và
sinh luật quyết định trên bảng quyết định mờ theo tiếp cận tập thô mờ. Rút
gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu. Một trong những kết quả
của rút gọn thuộc tính được sử dụng làm đầu vào của bài toán sinh luật
quyết định thuộc giai đoạn khai phá dữ liệu. Đóng góp của chương này là
xây dựng phương pháp rút gọn thuộc tính trực tiếp và sinh luật quyết định
của bảng quyết định mờ sử dụng khoảng cách Jaccard mờ tính trực tiếp giữa
hai tập mờ. Thực nghiệm trên một số bộ dữ liệu cho thấy phương pháp đề
xuất tương đương với các phương pháp khác về độ chính xác phân lớp dữ
liệu.
4.1. Đặt vấn đề
Rút gọn thuộc tính và sinh luật quyết định của bảng quyết định mờ là
hai bài toán quan trọng trong quá trình khám phá tri thức từ dữ liệu theo tiếp
cận tập thô mờ. Bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định mờ
được giới thiệu lần đầu trong công trình [46], [47], [51], [81] của nhóm tác
giả Jensen, R., và Shen, Q., với thuật toán FUZZY-QUICKREDUCT rút gọn
thuộc tính trực tiếp của bảng quyết định mờ. Vấn đề lớn nhất của phương
pháp này là có độ phức tạp tính toán lớn ở phần tính các phân hoạch mờ,
trong trường hợp xấu nhất là hàm mũ của số thuộc tính điều kiện nên gặp
khó khăn khi ứng dụng thực tế. Sinh luật quyết định thường được thực hiện
trên các tập rút gọn với mục tiêu rút ra tập luật đơn giản và nâng cao chất
lượng phân lớp dữ liệu học theo các luật này. Các công bố về rút gọn thuộc
tính và sinh luật quyết định trên bảng quyết định mờ tập trung nhiều vào
nhóm của Jensen, R., và Shen, Q., với các giải thuật RIA [46] (Rule
Induction Algorithm) và QUICKRULES [51] dựa trên miền dương mờ.
Những công bố khác về sinh luật quyết định được đề cập đến như nhóm của
85
Wang, X., và Hong, J., [83] đề xuất phương pháp biến đổi các giá trị mờ
thành các giá trị rõ (giải mờ) để tính toán các tập rút gọn và tập lõi tương
tương ứng, sau đó tìm tập luật quyết định. Nhược điểm của phương pháp này
là mất mát thông tin, một số thông tin ẩn trong dữ liệu mờ như quan hệ thứ tự
bộ phận, độ phụ thuộc giữa các thuộc tính sẽ bị mất. Hong, J., và các cộng sự
[83] đề xuất giải thuật sinh ra một tập luật mờ từ tập dữ liệu huấn luyện lớn
còn nhiễu theo mô hình tập thô truyền thống. Tuy nhiên, phương pháp của
Hong, J., [83] chỉ thu được một tập luật lớn nhất từ dữ liệu huấn luyện.
Tsang, E. C., và các cộng sự [81] đã trình bày phương pháp sinh luật theo
tiếp cận tập thô mờ với bản chất là trích lọc các luật mờ đã tồn tại sẵn trong
bảng quyết định mờ. Wang, X., và các cộng sự [84] đề xuất một định nghĩa
mới về xấp xỉ dưới mờ và xấp xỉ trên mờ bằng cách xét độ tương đương mờ
giữa hai đối tượng. Dựa trên quan hệ tương đương mờ mới định nghĩa này để
tìm một tập luật tối thiểu, hạn chế của phương pháp này là độ phức tạp tính
toán lớn, tăng theo bình phương của số lượng phần tử của tập dữ liệu. Hơn
nữa, phương pháp của Wang chỉ áp dụng đối với các bảng quyết định mà tập
thuộc tính điều kiện là mờ và thuộc tính quyết định là rõ. Trong công trình
[20], Cheng. Y., đưa ra các khái niệm xấp xỉ tiến và xấp xỉ lùi theo tập mờ
thô, là một trường hợp đặc biệt của tập thô mờ, sau đó sử dụng để tìm một
tập luật quyết định. Tập luật quyết định này chỉ hiệu quả đối với bảng quyết
định mà tập thuộc tính điều kiện là mờ và thuộc tính quyết định là rõ. Phát
triển tiếp công trình [20], tác giả này đưa ra khái niệm xấp xỉ tiến, xấp xỉ lùi
theo tiếp cận tập thô mờ và đề xuất hai thuật toán sinh luật quyết định trực
tiếp từ bảng quyết định mờ dựa trên miền dương mờ, không thông qua bước
rút gọn thuộc tính [21]. Phương pháp này xử lý bảng quyết định mờ trong
trường hợp tổng quát, cho kết quả tốt. Tuy nhiên, phương pháp của Cheng.
Y., phải đề xuất một số khái niệm mới và xét các quan hệ thứ tự bộ phận
giữa các hạt thông tin. Tập luật sinh ra theo phương pháp này thường phức
tạp vì không có pha rút gọn thuộc tính của tập dữ liệu để loại bỏ những dữ
86
liệu dư thừa. Mục đích sinh luật quyết định của bảng quyết định mờ nhằm hỗ
trợ đánh giá chất lượng phân lớp dữ liệu, thể hiện qua hai hướng tiếp cận như
sau [12], [19], [21], [44], [46], [51], [56], [74], [92]:
Hình 4.1. Phân lớp dữ liệu theo các luật quyết định mờ
Hướng tiếp cận thứ nhất cho phép sinh luật quyết định không cần
thông qua bước rút gọn thuộc tính của bảng quyết định mờ. Luật quyết định
sinh ra bởi hướng tiếp cận này thường phức tạp hơn hướng tiếp cận thứ hai
do còn tồn tại những thuộc tính dư thừa dẫn đến người sử dụng khó chọn các
tham số ngưỡng [ , ] [0,1] để giới hạn tập luật [21].
Hướng tiếp cận thứ hai sinh ra các tập luật của bảng quyết định mờ đã
rút gọn thuộc tính, được áp dụng phổ biến hơn hướng tiếp cận thứ nhất. Công
bố sớm nhất theo hướng tiếp cận này là công trình nhóm của Shen, Q., và
Jensen, R., [44], [51], [74] với giải thuật RIA sinh luật quyết định sau khi đã
rút gọn thuộc tính của bảng quyết định. Do đã rút gọn thuộc tính của bảng
quyết định nên luật quyết định sinh ra đơn giản hơn, người dùng dễ chọn các
tham số ngưỡng [ , ] [0,1] cho phù hợp với bộ dữ liệu nên luật quyết định
thu được thường đơn giản hơn các công bố theo hướng thứ nhất. Nhược điểm
Bảng quyết định mờ
Sinh luật mờ
Tập luật mờ
Rút gọn thuộc tính
Tập rút gọn
Phân lớp dữ liệu
87
của hướng tiếp cận này là mất thêm thời gian để rút gọn thuộc tính của bảng
quyết định mờ.
Với bài toán rút gọn thuộc tính và sinh luật quyết định trên bảng quyết
định mờ theo tiếp cận tập thô mờ, chương này trình bày các kết quả nghiên
cứu sau:
1) Trình bày phương pháp rút gọn thuộc tính của bảng quyết định mờ
dựa trên miền dương mờ theo tiếp cận tập thô mờ. Phương pháp đề xuất cải
tiến điều kiện dừng và công thức tính độ quan trọng của thuộc tính của thuật
toán FUZZY-QUICKREDUCT trong công trình [46], [47], [51], [81] của
Jensen, R., và Shen, Q., để tìm một tập rút gọn không dư thừa và bảo toàn
miền dương mờ.
2) Đề xuất độ đo khoảng cách Jaccard mờ tính trực tiếp giữa hai tập
mờ. Sử dụng khoảng cách Jaccard mờ xây dựng phương pháp sinh luật quyết
định của bảng quyết định mờ. Đóng góp chính của Chương 4 là xây dựng
phương pháp sinh luật quyết định của bảng quyết định mờ sử dụng khoảng
cách Jaccard mờ.
Kết quả rút gọn thuộc tính của bảng quyết định mờ được công bố
trong công trình [CCN2], sinh luật quyết định công bố trong công trình
[CCN5].
4.2. Phương pháp rút gọn thuộc tính của bảng quyết định mờ
Trong phần này, luận án trình bày phương pháp heuristic rút gọn
thuộc tính trực tiếp của bảng quyết định mờ dựa trên miền dương mờ, sử
dụng thuật toán F_RSAR1 được công bố trong công trình [CCN2]. Thuật
toán F_RSAR1 là cải tiến của thuật toán FUZZY-QUICKREDUCT [47],
[74] để tìm được một tập rút gọn không dư thừa thuộc tính và bảo toàn miền
dương mờ.
88
Phương pháp đề xuất bao gồm các bước: Định nghĩa tập rút gọn, định
nghĩa độ quan trọng của thuộc tính và xây dựng thuật toán heuristic tìm một
tập rút gọn dựa trên độ quan trọng của thuộc tính thông qua lực lượng của
miền dương mờ.
Định nghĩa 4.1. Cho bảng quyết định ( , )DT U C D và tập thuộc tính P C .
Nếu
1)
POS ( ) POS ( )
( ) ( )P CD D
x x
2)
{p}POS ( ) POS ( )
, ( ) ( )P C
D Dp P x x
(4.1)
(4.2)
thì P là một tập rút gọn của C dựa trên miền dương mờ.
Định nghĩa 4.2. Cho bảng quyết định DT (U,C D ) , P C và b C P .
Độ quan trọng của thuộc tính b đối với tập thuộc tính P được định nghĩa
Thuật toán tìm một tập rút gọn của bảng quyết định mờ sử dụng miền
dương mờ ở công thức (1.30) được mô tả như sau:
Thuật toán F_RSAR1 (Fuzzy Rough Set based Attribute Reduction):
Thuật toán tìm một tập rút gọn không dư thừa của bảng quyết định mờ dựa
trên miền dương mờ.
Đầu vào: Bảng quyết định mờ D T (U ,C D )
Đầu ra: Một tập rút gọn P .
1. P ; POS ( )| ( ) | 0D x
;
2. Tính POS ( ) ( )
C D x ;
// Kiểm tra điều kiện dừng để xây dựng tập rút gọn
3. While
POS ( ) POS ( )( ) ( )
P CD Dx x Do
{b}POS ( ) POS ( )( ) ( )P P
DP DSIG b x x
(4.3)
89
4. Begin
5. For c C P Do {c}POS ( ) POS ( )( ) ( )P PP D DSIG c x x
;
// Xác độ quan trọng của mỗi thuộc tính điều kiện còn lại với
tập thuộc tính quyết định
6. Chọn mc C P sao cho ( ) { ( )}mP Pc C P
SIG c Max SIG c
;
// Chọn thuộc tính có độ quan trọng lớn nhất để kết nạp vào tập
rút gọn
7. { }mP P c ;
8. End;
//Loại bỏ các thuộc tính dư thừa trong P nếu có
9. For each a P
10. Begin
11. Tính
{ } ( ) ( )P aPOS D x
;
12. If { }POS ( ) POS ( )( ) ( )P a CD Dx x
then P P a ;
// Loại bỏ những thuộc tính không cần thiết để tìm tập rút gọn
không dư thừa
13. End;
14. Return P ;
Ví dụ 4.1. Cho bảng quyết định mờ ( , )DT U C D (Bảng 4.1) với các
thuộc tính 1 2 3{C , C , C }C , 1 2 3{d , d , d }D được biểu diễn lại từ Bảng 1.2
Bảng 4.1. Bảng quyết định mờ chơi thể thao biểu diễn lại Bảng 1.2
TT
1C 2C
3C D
1c
2c 3c
4c 5c
6c 7c
8c 1d
2d 3d
1u 0.3 0.7 0 0.2 0.7 0.1 0.3 0.7 0.1 0.9 0
90
2u 1 0 0 1 0 0 0.7 0.3 0.8 0.2 0
3u 0 0.3 0.7 0 0.7 0.3 0.6 0.4 0 0.2 0.8
4u 0.8 0.2 0 0 0.7 0.3 0.2 0.8 0.6 0.3 0.1
5u 0.5 0.5 0 1 0 0 0 1 0.6 0.8 0
6u 0 0.2 0.8 0 1 0 0 1 0 0.7 0.3
7u 1 0 0 0.7 0.3 0 0.2 0.8 0.7 0.4 0
8u 0.1 0.8 0.1 0 0.9 0.1 0.7 0.3 0 0 1
9u 0.3 0.7 0 0.9 0.1 0 1 0 0 0 1
Các thuộc tính được biểu diễn lại như sau:
Thuộc tính = {Thời tiết, Nhiệt độ, Độ ẩm, Quyết định} =
1 2 3{ , , , }C C C D
1C ={Có nắng, Có mây, Có mưa}=
1 2 3{c ,c ,c }
2C ={Nóng, Trung bình, Lạnh}= 4 5 6{c ,c ,c }
3C ={Ẩm ướt, Bình thường}= 7 8{c ,c }
D ={Bóng chuyền, Bơi, Lướt ván}= 1 2 3{ , , }d d d
Áp dụng thuật toán F_RSAR1 tìm một tập rút gọn của bảng quyết
định với các phân hoạch mờ, ta có:
1 2 3 1 2 3 4 5 6 7 8/ { , C , C } = { , , }, { , , }, { , }U C C c c c c c c c c ,
1 2 3/ { , , }U D d d d .
- Xét phân hoạch mờ 1/ { }U C với các lớp tương đương mờ 1 2 3{ , , }c c c ,
theo công thức (1.27) và (1.29), tính được:
1 1 1{c }{d }( ) 0.3u ,
2 1 1{c }{d }( ) 0.2u , 3 1 1{c }{d }( ) 0u . Vậy,
{ }{d }1 1POS 1( ) 0.3
Cu .
91
Tương tự: { }{d }1 2
POS 1( ) 0.2C
u , { }{d }1 3
POS 1( ) 0.3C
u .
Vậy, 1
1POS ( ) 0.3C D u , tiếp tục:
12POS ( ) 0.6
C D u , 1
3POS ( ) 0.3C D u ,
14POS ( ) 0.6
C D u , 1
5POS ( ) 0.5C D u ,
16POS ( ) 0.3
C D u , 1
7POS ( ) 0.6C D u ,
18POS ( ) 0.3
C D u , 1
9POS ( ) 0.3C D u . Theo công thức (1.30) ta có:
1POS ( ) ( ) 3.8
C D x , tương tự:
2POS ( ) ( ) 2.1
C D x ,
3POS ( ) ( ) 2.7
C D x .
Từ đó: 1 3.8SIG C , 2 2.1SIG C , 3 2.7SIG C . Thuộc tính
1{ }C được chọn và
1{ }P C . Tương tự:
{ , }1 2
POS ( ) ( ) 4.0C C D x ,
{ , }1 3POS ( ) ( ) 5.7
C C D x ,
1 2 0.2C
SIG C ,
1 3 1.9C
SIG C . Thuộc tính 3{ }C được
chọn và 1 3{ , }P C C .
Tính
{ , , }1 3 2POS ( ) POS ( )( ) ( ) 5.7
CC C C D Dx x . Sau khi kiểm tra tính dư
thừa, kết luận 1 3{ , }P C C .
Thuật toán F_RSAR1 tìm một tập rút gọn sử dụng các phân hoạch mờ
xác định trước trên mỗi thuộc tính của bảng quyết định mờ. Dựa trên các
phân hoạch mờ, xác định độ quan trọng của mỗi thuộc tính thông qua miền
dương mờ, làm tiêu chuẩn lựa chọn thuộc tính xây dựng tập rút gọn. Thuật
toán F_RSAR1 là cải tiến của FUZZY-QUICKREDUCT [47], [74] ở điều
kiện dừng và công thức tính độ quan trọng của thuộc tính nhằm bảo toàn
miền dương mờ, có bước kiểm tra loại bỏ thuộc tính dư thừa của tập rút gọn
nhằm nâng cao độ chính xác phân lớp dữ liệu.
4.3. Phương pháp sinh luật quyết định của bảng quyết định mờ
Trong phần này, luận án trình bày phương pháp sinh luật quyết định
từ bảng quyết định mờ đã rút gọn thuộc tính sử dụng khoảng cách Jaccard
mờ tính trực tiếp giữa hai tập mờ. Phương pháp đề xuất bao gồm các bước:
92
Phân nhóm các đối tượng của bảng quyết định mờ theo giá trị cao nhất của
từng biến ngôn ngữ của thuộc tính quyết định, tính khoảng cách Jaccard mờ
trực tiếp giữa các biến ngôn ngữ của thuộc tính quyết định với các biến ngôn
ngữ của các thuộc tính điều kiện theo từng phân nhóm theo công thức (4.4),
đưa ra các tham số ngưỡng [ , ] [0,1] phù hợp để xác định độ tương tự
giữa các biến ngôn ngữ của các thuộc tính và từ đó sinh ra các luật quyết
định. Kết quả của phần này được công bố trong công trình [CCN5].
Cho U là tập hữu hạn các đối tượng và các tập mờ ,A B U . Từ công
thức (2.9) của Chương 2, khoảng cách Jaccard mờ tính trực tiếp của hai tập
mờ được xác định như sau:
min( ( ), ( ))( , ) 1 1
max( ( ), ( ))
A Bu U
FJA B
u U
u uA BD A B
u uA B
(4.4)
Ví dụ 4.2. Cho hai tập mờ ,A B U như sau:
1 2 3 40.1 / 0.2 / 0.2 / 0.3 /A x x x x ;
1 2 3 40.2 / 0.3 / 0.3 / 0.4 /B x x x x ;
min(0.1,0.2) min(0.2,0.3) min(0.2,0.3) min(0.3,0.4)( , ) 1max(0.1,0.2) max(0.2,0.3) max(0.2,0.3) max(0.3,0
0.333.
3334)FJD A B
4.3.1. Luật quyết định mờ
Cho bảng quyết định mờ ,DT U C D với 1{ ,..., }nU u u là tập các
đối tượng, 1{ ,..., }mC C C là tập các thuộc tính điều kiện, D là thuộc tính
quyết định với các biến ngôn ngữ là 1{ ,..., }sd d . Mỗi thuộc tính kC C ,
k=1..m, bao gồm một số biến ngôn ngữ là các tập mờ; các biến ngôn ngữ của
93
thuộc tính kC , ký hiệu là 1
( ) {T ,...,T }k
k kk i iT C , nhận các giá trị là các đối tượng
1{ ,..., }nu u tại thuộc tính 1
( ) {T ,...,T }k
k kk i iT C .
Một nhóm các đối tượng u U được biểu diễn bởi một tập các thuộc
tính 1{ ,..., }mC C C . Mỗi phần tử u U được phân lớp vào một lớp
jd D
theo một luật quyết định mờ có dạng như sau [92]:
IF (iC is 1
1iT AND …AND (kC is
k
kiT )) THEN (D is jd ) (4.5)
Ví dụ 4.3. Trong Bảng 4.1, thuộc tính “Thời tiết” có các biến ngôn ngữ là
T(Thời tiết) = {Có nắng, Có mây, Có mưa}. Biến ngôn ngữ “Có nắng” là một
tập mờ với miền giá trị ={0.3/u1, 1/ u2, 0/ u3, 0.8/ u4, 0.5/ u5, 0/ u6, 1 /u7, 0.1/
u8, 0.3/ u9 }.
Một luật quyết định mờ của Bảng 4.1 biểu diễn quyết định chơi thể
thao dựa vào thời tiết như sau:
Rule 1: IF 1C is 1c THEN D is 1d
Luật này được biểu diễn theo Bảng 1.2 là:
IF Thời tiết is “Có nắng” THEN Quyết định is “Bóng chuyền”
4.3.2. Sinh luật quyết định từ bảng quyết định mờ
4.3.2.1. Mô tả phương pháp
Ý tưởng chính của phương pháp sinh luật quyết định của bảng quyết
định mờ dựa trên khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ
của thuộc tính quyết định và các biến ngôn ngữ của thuộc tính điều kiện được
thực hiện theo các bước sau:
Bước 1: Phân nhóm các đối tượng u U của bảng quyết định mờ theo
giá trị lớn nhất của các biến ngôn ngữ d D . Các đối tượng có giá trị
( )d u cao nhất theo các biến ngôn ngữ d D được xếp vào một phân
94
nhóm và được gán cho một nhãn cụ thể. Mỗi phân nhóm sinh ra một
luật quyết định tương ứng.
Bước 2: Trong mỗi phân nhóm, tính toán khoảng cách Jaccard mờ
trực tiếp giữa các biến ngôn ngữ của thuộc tính quyết định với các
biến ngôn ngữ của thuộc tính điều kiện theo công thức (4.4).
Bước 3: Lựa chọn tham số ngưỡng [0, 1] phù hợp để so sánh với
khoảng cách Jaccard mờ trực tiếp giữa biến ngôn ngữ của thuộc tính
quyết định và các biến ngôn ngữ của thuộc tính điều kiện. Khoảng
cách nào nhỏ hơn α (mức ý nghĩa do người dùng xác định) thì coi như
hai biến đó tương tự nhau với sai số là α. Từ đó sinh ra các luật quyết
định mờ như ở công thức (4.5) của những phân nhóm có khoảng cách
Jaccard mờ trực tiếp nhỏ hơn tham số ngưỡng .
Bước 4: Đối với các phân nhóm không tồn tại khoảng cách Jaccard
mờ giữa các biến ngôn ngữ của thuộc tính điều kiện và thuộc tính
quyết định nhỏ hơn , lựa chọn tham số [0, 1] để xây dựng luật
phân lớp cho quyết định kd D với
1{ ,..., }sD d d ,
1 , , ; (i, j)i j k s k . Các luật của phân nhóm này được xác định theo
công thức (4.6)
Rule k: IF MF (Rule i) < And …MF (Rule j) < Then D is kd (4.6)
với MF (Rule i) = MF (Condition Part of Rule i) là giá trị hàm thuộc
phần điều kiện của luật i. Giá trị MF(Rule k) của các luật tính cho phân
nhóm này được xác định theo công thức (4.7).
IF MF (Rule i) < And.. MF (Rule j) < Then MF(Rule k)
= 1, otherwise MF(Rule k) = 0. (4.7)
Chú ý:
+ Mỗi thuộc tính chỉ chọn một biến ngôn ngữ có giá trị thấp nhất thỏa
mãn điều kiện nhỏ hơn . Nếu có nhiều hơn các biến ngôn ngữ của một thuộc
95
tính thỏa mãn điều kiện nhỏ hơn mà có giá trị bằng nhau thì biến ngôn ngữ
có khoảng cách nguyên gốc thỏa mãn (khoảng cách trực tiếp giữa biến ngôn
ngữ của thuộc tính điều kiện với một quyết định cụ thể, không tính phủ định)
được lựa chọn.
+ Các luật sinh ra trực tiếp theo công thức (4.5) phải có ít nhất một
khoảng cách Jaccard mờ của biến ngôn ngữ là khoảng cách nguyên gốc thỏa
mãn điều kiện nhỏ hơn .
Để đánh giá khả năng phân lớp dữ liệu của bảng quyết định theo các
tập luật quyết định, tính các giá trị MF(Rule i) cho mỗi đối tượng. Với mỗi
đối tượng, giá trị của MF(Rule i) cao nhất được lựa chọn gán nhãn (quyết
định) cho đối tượng. Khả năng gán nhãn cho các đối tượng theo các biến
ngôn ngữ của thuộc tính quyết định được xác định theo công thức (4.8)
( )iD d = MF(Rule i) (4.8)
Độ chính xác phân lớp của dữ liệu học theo tập luật quyết định được
xác định theo công thức (4.9)
Độ chính xác phân lớp=Số lượng đối tượng phân lớp chính
xác/tổng số đối tượng phân lớp (4.9)
Đối với phân lớp mờ, một đối tượng có khả năng được phân lớp vào
nhiều lớp khác nhau. Khả năng gán nhãn cho đối tượng vào phân lớp nào
được xác định theo công thức (4.8). Đối với những trường hợp một đối tượng
có giá trị gán nhãn bằng nhau ở các lớp khác nhau theo tập luật quyết định,
hay nói một cách khác là đối tượng đó không phân biệt được ở một số lớp, đó
là sự nhập nhằng trong việc phân lớp dữ liệu. Một cách tổng quát, độ nhập
nhằng của các đối tượng không gán được nhãn rõ ràng tính theo công thức
(4.10)
Độ nhập nhằng=Số lượng đối tượng không được gán nhãn rõ
ràng vào phân lớp/tổng số đối tượng phân lớp (4.10)
96
4.3.2.2. Thuật toán tìm luật quyết định dựa trên khoảng cách Jaccard mờ
Thuật toán tìm một tập luật quyết định từ bảng quyết định mờ đã rút
gọn thuộc tính sử dụng khoảng cách Jaccard mờ trực tiếp giữa các tập mờ
được phát biểu như sau
Thuật toán FJ_RBAR (Fuzzy Jaccard Rule based Attribute
Reduction): Thuật toán tìm một tập luật quyết định mờ của bảng quyết định
mờ đã rút gọn thuộc tính.
Đầu vào: Tập rút gọn 1{ ,..., }pP C C của bảng quyết định mờ đã rút
gọn thuộc tính và các tham số ngưỡng ,
Đầu ra: Tập luật quyết định Rules.
1. ;Rule k=0; 1{ ,..., }sD d d ;
1( ) {T ,...,T }k k
k kk iT C ;
2. For each u U Do phân nhóm jd D ;
// Phân nhóm các đối tượng theo giá trị lớn nhất của biến ngôn ngữ
của thuộc tính quyết định
3. For each jd D Do
4. Begin
5. For each ic C Do
6. Begin
7. Tính ( , )FJ j iD d c ;
8. If ( , ) min{ ( )}FJ j i i iD d c AND c T C Then W( ) {c }i ic ;
// Lấy biến ngôn ngữ có khoảng cách nhỏ nhất thỏa mãn
điều kiện để sinh luật
9. End;
// Sinh ra các luật quyết định mờ
10. For each ( )i ic W c Do i jRule j c d ;
11. End;
97
12. For each Wk C Do Tính Rule k ;
// Sử dụng tham số để tìm những luật còn lại
13. Return Rules;
Độ phức tạp tính toán khoảng cách Jaccard mờ trực tiếp của hai biến
ngôn ngữ trong trường hợp xấu nhất là ( )O U . Thuật toán có hai vòng lặp
lồng nhau theo số lượng biến ngôn ngữ của tập thuộc tính điều kiện và tập
thuộc tính quyết định. Do vậy, độ phức tạp tính toán của thuật toán
FJ_RBAR là ( )O C D U , với |C| là số biến ngôn ngữ của tất cả các thuộc
tính điều kiện của bảng quyết định, |D| là số biến ngôn ngữ của thuộc tính
quyết định, |U| là số đối tượng của bảng dữ liệu.
Ví dụ 4.4. Cho bảng quyết định mờ như ở Bảng 4.2, tìm một tập luật quyết
định phân lớp được thực hiện như sau:
Bảng 4.2. Bảng quyết định mờ chơi thể thao đã rút gọn thuộc tính
TT
1C 3C D
1c
2c 3c
7c 8c
1d 2d
3d
Phân
nhóm 1
2u 1 0 0 0.7 0.3 0.8 0.2 0
7u 1 0 0 0.2 0.8 0.7 0.4 0
4u 0.8 0.2 0 0.2 0.8 0.6 0.3 0.1
Phân
nhóm 2
1u 0.3 0.7 0 0.3 0.7 0.1 0.9 0
5u 0.5 0.5 0 0 1 0.6 0.8 0
6u 0 0.2 0.8 0 1 0 0.7 0.3
Phân
nhóm 3
8u 0.1 0.8 0.1 0.7 0.3 0 0 1
9u 0.3 0.7 0 1 0 0 0 1
3u 0 0.3 0.7 0.6 0.4 0 0.2 0.8
98
- Trong mỗi phân nhóm, tính khoảng cách Jaccard mờ trực tiếp giữa
biến ngôn ngữ của thuộc tính quyết định với các biến ngôn ngữ của thuộc
tính điều kiện theo công thức (4.4) như ở Bảng 4.3.
Bảng 4.3. Khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ
của Bảng 4.2
Quyết định
1C
3C
1c
2c 3c
7c 8c
1d 0.25 0.904762 1 0.47619 0.333333
2d 0.666667 0.416667 0.72 0.875 0.241379
3d 0.857143 0.357143 0.714286 0.178571 0.75
- Lựa chọn 0.245 (mức ý nghĩa do người dùng ấn định) để xác định
sự khác biệt giữa các biến ngôn ngữ theo khoảng cách Jaccard mờ trực tiếp,
khoảng cách nào có giá trị nhỏ hơn được xem như là “đủ gần” hay tương
tự với biến ngôn ngữ của thuộc tính quyết định. Sinh luật quyết định với
0.245 như sau:
+ Với quyết định “ 2d ”, khoảng cách Jaccard mờ trực tiếp giữa biến
ngôn ngữ của thuộc tính quyết định 2d D và biến ngôn ngữ của thuộc tính
điều kiện 8 3c C là 0.241379, thỏa mãn điều kiện nhỏ hơn tham số ngưỡng
0.245 . Do vậy, luật quyết định Rule 2 (luật quyết định thứ i (Rule i) được
đặt tương ứng với quyết định id D ) được rút ra
Rule 2: IF 3C is 8c THEN D is 2d .
Luật này được biểu diễn tương ứng ở bảng quyết định mờ chơi thể
thao (Bảng 1.2) là:
IF Độ ẩm is “Bình thường” THEN Quyết định is “Bơi”
99
+ Với quyết định “3d ”, khoảng cách Jaccard mờ trực tiếp giữa biến
ngôn ngữ của thuộc tính quyết định 3d D với các biến ngôn ngữ của thuộc
tính điều kiện 7 3c C là 0.178571 và với phủ định khoảng cách
1 1c C là
0.142857, đều thỏa mãn điều kiện nhỏ hơn tham số ngưỡng 0.245 . Luật
quyết định Rule 3 được rút ra
Rule 3: IF 1C is NOT 1c AND 3C is 7c THEN D is 3d .
Luật này được biểu diễn tương ứng ở bảng quyết định mờ chơi thể
thao (Bảng 1.2) là:
IF Thời tiết is NOT “Có nắng” AND Độ ẩm is “Ẩm ướt” THEN
Quyết định is “Lướt ván”
+ Với quyết định “1d ”, không có khoảng cách Jaccard mờ trực tiếp
nguyên gốc nào giữa biến ngôn ngữ của thuộc tính điều kiện và thuộc tính
quyết định của Bảng 4.3 nhỏ hơn để phân lớp. Do vậy, chúng ta xây dựng
luật cho quyết định “ 1d ” theo công thức (4.6) với tham số ngưỡng β=0.9 (do
người dùng chọn) được xác định như sau:
Rule 1: IF MF (Rule 2) < AND MF (Rule 3) < THEN D is “ 1d ”
- Tập luật quyết định sinh ra từ các tham số ngưỡng (α=0.245; β=0.9)
như sau:
Rule 1: IF MF (Rule 2) < AND MF (Rule 3) < THEN D is “ 1d ”
Rule 2: IF 3C is 8c THEN D is 2d
Rule 3: IF 1C is NOT 1c AND 3C is 7c THEN D is 3d
- Sử dụng các luật MF(Rule i) với 1 3i để gán nhãn cho các đối
tượng cụ thể. Khả năng lựa chọn các nhãn 1( )D d , 2( )D d , 3( )D d cho mỗi đối
tượng được tính
100
1( )D d = MF(Rule 1)
2( )D d = MF(Rule 2)
3( )D d = MF(Rule 3)
Ví dụ: Xét đối tượng 2u , ta có:
MF(Rule 2) = 0.3;
MF(Rule 3) = Min(0, 0.7) = 0;
Vì MF (Rule 2) = 0.3 và MF (Rule 3) = 0 , nên MF(Rule 1) =
1 theo công thức (4.7). Đối tượng 2u được gán nhãn vào các lớp id D theo
tập luật quyết định như sau:
1( )D d = MF(Rule 1) = 1
2( )D d = MF(Rule 2) = 0.3
3( )D d = MF(Rule 3) = 0
Như vậy, với các tham số ngưỡng (α=0.245; β=0.9) được chọn để tìm
tập luật quyết định, đối tượng 2u được gán nhãn vào nhóm quyết định 1( )D d
trong Bảng 4.1, tương ứng với quyết định chơi “bóng chuyền” trong Bảng
1.2
Tính tương tự cho các đối tượng khác, kết quả gán nhãn của Bảng 4.2
theo các luật quyết định với các tham số ngưỡng (α=0.245; β=0.9) như Bảng
4.4.
Bảng 4.4. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.9)
TT
Nhãn được biết trong
dữ liệu huấn luyện
Nhãn học được từ các
luật quyết định
1( )D d
2( )D d 3( )D d
1( )D d 2( )D d
3( )D d
2u 0.8 0.2 0 1 0.3 0
101
7u 0.7 0.4 0 1 0.8 0
4u 0.6 0.3 0.1 1 0.8 0.2
1u 0.1 0.9 0 0.3 0.7 0.3
5u 0.6 0.8 0 0 1 0
6u 0 0.7 0.3 0 1 0
8u 0 0 1 0.3 0.3 0.7
9u 0 0 1 0 0 0.7
3u 0 0.2 0.8 0.4 0.4 0.6
Bảng 4.4 cho thấy tất cả chín đối tượng của bảng quyết định được gán
nhãn đúng theo các luật quyết định rút ra từ dữ liệu. Độ chính xác phân lớp
trong trường hợp này là: 9 100%9 .
Với các tham số ngưỡng (α=0.245; β=0.8) được chọn để tìm tập luật
quyết định cho Bảng 4.2, kết quả gán nhãn của tập dữ liệu huấn luyện theo
các luật quyết định như Bảng 4.5.
Bảng 4.5. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.8)
TT
Nhãn được biết trong
dữ liệu huấn luyện
Nhãn học được từ các
luật quyết định
1( )D d
2( )D d 3( )D d
1( )D d 2( )D d
3( )D d
2u 0.8 0.2 0 1 0.3 0
7u 0.7 0.4 0 0 0.8 0
4u 0.6 0.3 0.1 0 0.8 0.2
1u 0.1 0.9 0 0.3 0.7 0.3
5u 0.6 0.8 0 0 1 0
6u 0 0.7 0.3 0 1 0
102
8u 0 0 1 0.3 0.3 0.7
9u 0 0 1 0 0 0.7
3u 0 0.2 0.8 0.4 0.4 0.6
Bảng 4.5 cho thấy có bảy đối tượng của bảng quyết định được gán
nhãn đúng theo các luật quyết định, hai đối tượng ( 7u , 4u ) của lớp “1d ” bị gán
nhãn sai vào quyết định “ 2d ”. Độ chính xác của phân lớp trong trường hợp
này là 77 %79
.78 .
4.3.2.3. Một số vấn đề về chọn tham số ngưỡng
Chúng ta nhận thấy rằng, độ chính xác phân lớp dữ liệu theo tập luật
quyết định phụ thuộc rất nhiều vào việc chọn các giá trị α, β phù hợp. Một số
kinh nghiệm chọn tham số ngưỡng [, ] được rút ra như sau:
- Chọn α đủ nhỏ để khoảng cách Jaccard mờ giữa biến ngôn ngữ của
thuộc tính quyết định được coi là tương tự hay “đủ gần” với một số biến
ngôn ngữ của thuộc tính điều kiện có ảnh hưởng đến quyết định, giá trị α thể
hiện mức ý nghĩa của tập luật do người dùng xác định. Dựa trên thực nghiệm
cho thấy, nếu giá trị α đủ nhỏ để luật sinh ra có ý nghĩa và có (m-1) luật sinh
ra trực tiếp từ bảng quyết định có m biến ngôn ngữ theo công thức (4.5), một
luật còn lại sinh ra theo công thức (4.6) thì tập luật này thường hỗ trợ phân
lớp dữ liệu tốt.
- Với ngưỡng β, chọn giá trị nhỏ nhất trong giới hạn chọn để phần điều
kiện của các luật sinh ra trực tiếp theo công thức (4.5) áp dụng cho các đối
tượng chưa được phân lớp nhỏ hơn β. Lúc đó các đối tượng còn lại được
phân lớp đúng theo các tập luật được sinh ra có sử dụng thêm tham số
ngưỡng β. Mục tiêu của việc chọn tham số ngưỡng β phù hợp để nhãn được
gán theo luật quyết định càng giống với nhãn đã biết từ tập dữ liệu huấn
luyện càng tốt.
103
Tham số ngưỡng [, ] chọn như trên được cho là phù hợp khi đảm
bảo được được mức ý nghĩa ở mức chấp nhận được và độ chính xác phân lớp
dữ liệu học được từ tập luật là tốt nhất.
Ví dụ 4.5 (Tiếp theo Ví dụ 4.4). Với khoảng cách Jaccard mờ giữa các biến
ngôn ngữ của thuộc tính điều kiện đã cho như Bảng 4.3, lựa chọn 0.26 .
Tính tương tự như Ví dụ 4.4 để tìm được một tập luật quyết định cho Bảng
4.2
Tập luật quyết định sinh ra từ các tham số ngưỡng α=0.26
Rule 1: IF 1C is 1c THEN D is 1d
Rule 2: IF 3C is 8c THEN D is 2d
Rule 3: IF 1C is NOT 1c AND 3C is 7c THEN D is 3d
Tập luật này được biểu diễn tương ứng ở bảng quyết định mờ chơi thể
thao (Bảng 1.2) là:
Rule 1: IF Thời tiết is “Có nắng” THEN Quyết định is “Bóng
chuyền”
Rule 2: IF Độ ẩm is “Bình thường” THEN Quyết định is “Bơi”
Rule 3: IF Thời tiết is NOT “Có nắng” AND Độ ẩm is “Ẩm ướt”
THEN Quyết định is “Lướt ván”
Vậy, tập luật quyết định sinh ra của Bảng 4.2 với α=0.26 (không cần
sử dụng tham số ). Kết quả gán nhãn của Bảng 4.2 theo các luật quyết định
vừa tìm được với các tham số ngưỡng (α=0.26) cho ở Bảng 4.6
Bảng 4.6. Kết quả gán nhãn của Bảng 4.2 với (α=0.26)
TT
Nhãn được biết trong
dữ liệu huấn luyện
Nhãn học được từ các
luật quyết định
1( )D d
2( )D d 3( )D d
1( )D d 2( )D d
3( )D d
104
2u 0.8 0.2 0 1 0.3 0
7u 0.7 0.4 0 1 0.8 0
4u 0.6 0.3 0.1 0.8 0.8 0.2
1u 0.1 0.9 0 0.3 0.7 0.3
5u 0.6 0.8 0 0.5 1 0
6u 0 0.7 0.3 0 1 0
8u 0 0 1 0.1 0.7 0.7
9u 0 0 1 0.3 1 0.7
3u 0 0.2 0.8 0 0.6 0.6
Bảng 4.6 cho thấy có 5/9 đối tượng của bảng quyết định được gán nhãn
đúng ( 2u , 7u , 1u , 5u , 6u ) theo tập luật quyết định, đối tượng 9u bị gán nhãn sai,
3/9 đối tượng ( 4u , 8u , 3u ) không phân biệt được nhãn thuộc vào lớp nào rõ
ràng nhất (nhập nhằng trong khả năng phân lớp).
Độ chính xác phân lớp của các đối tượng theo tập luật quyết định trong
trường hợp này là 5 55 %9
.56 .
Độ nhập nhằng của các đối tượng trong trường hợp này là 3 33 %9
.33 .
Qua Ví dụ 4.4 và Ví dụ 4.5 cho thấy việc chọn tham số ngưỡng [, ]
rất quan trọng, ảnh hưởng đến mức ý nghĩa của luật (chấp nhận độ sai lệch
khoảng cách giữa các biến ngôn ngữ) và độ chính xác phân lớp của dữ liệu
học được từ tập luật. Với =0.245 của Ví dụ 4.4 rõ ràng có mức ý nghĩa tốt
hơn (sai lệch về khoảng cách ít hơn) là =0.26 của Ví dụ 4.5. Tập luật quyết
định sinh ra với tham số (=0.245, =0.9) cho độ chính xác phân lớp dữ liệu
của Bảng 4.2 là 100%. Ngược lại với =0.26 của Ví dụ 4.5, mức ý nghĩa của
tập luật kém hơn (sai lệch khoảng cách lớn hơn) và độ chính xác phân lớp dữ
105
liệu của Bảng 4.2 học theo tập luật này là 55.56%. Rõ ràng, tập luật sinh ra
bởi Ví dụ 4.4 tốt hơn tập luật ở Ví dụ 4.5.
4.3.3. Thử nghiệm và đánh giá kết quả
Mục đích thử nghiệm nhằm đánh giá độ chính xác phân lớp dữ liệu
theo tập luật quyết định sinh ra từ các thuật toán MRBFA, MRBBA [21] và
FJ_RBAR, là những công bố gần đây cho kết quả tốt. Độ chính xác phân lớp
được tính bằng tỷ lệ những đối tượng được gán nhãn đúng trên tổng số đối
tượng được gán nhãn. Để tiến hành thử nghiệm, luận án thực hiện các công
việc sau.
1) Xây dựng tập luật từ dữ liệu huấn luyện
- Chọn sáu bộ dữ liệu mẫu lấy từ kho dữ liệu UCI [99] cho ở Bảng 2.2
để tiến hành thử nghiệm.
Bảng 2.2. Bộ dữ liệu thử nghiệm
TT Bộ dữ liệu
Số thuộc
tính điều
kiện
Số đối
tượng Số lớp
1 Fisher_Order 35 47 4
2 Iris 4 150 3
3 Glass 10 214 7
4 Sonar 60 208 2
5 Sensor_Readings_24 24 5456 4
6 EEG_Eye_State 14 14980 2
- Cài đặt ba thuật toán MRBFA, MRBBA và FJ_RBAR bởi ngôn ngữ
C#. Thuật toán FJ_RBAR được thực hiện trên các bảng quyết định mờ đã
được rút gọn thuộc tính bởi thuật toán F_RSAR1. Các thuật toán MRBFA,
106
MRBBA [21] sinh luật quyết định trực tiếp từ bảng quyết định mờ dựa trên
miền dương mờ, không thông qua bước rút gọn thuộc tính.
- Mờ hóa sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] theo thuật toán
[21], [84], [92] với số mờ có hàm thuộc hình tam giác. Các giá trị thực của
thuộc tính A tại mỗi đối tượng u U được biểu diễn bởi { ( ), }X x u u U ;
được gom vào k biến ngôn ngữ Ti, i=1,...,k. Mỗi biến ngôn ngữ có hàm thuộc
hình tam giác như sau:
+ 1
1 2 2 1 1 2
2
1,( ) ( ) / ( ),
0,
x mT x m x m m m x m
m x
+ 1 1 1
1
1,( ) ( ) / ( ),
0,
k
k k k k k k
k
x mT x x m m m m x m
x m
+
1
1 1 1
1 1 1
1
0,( ) / ( ),
( ) 2,3,..., 1( ) / ( ),0,
i
i i i i ii
i i i i i
i
x mm x m m m x m
T x i kx m m m m x m
x m
(4.11)
Điểm trung tâm mi , i=1,...,k được tính theo giải thuật Feature-maps
của Kohonen theo các công trình [52]-[54]. Trong phạm vi nghiên cứu của
luận án này không nghiên cứu về các phương pháp mờ hóa bảng quyết định
miền gián trị thực. Các tập dữ liệu mờ được sử dụng làm đầu vào cho các
thuật toán MRBFA, MRBBA và F_RSAR1. Thuật toán FJ_RBAR sử dụng
đầu vào là bảng dữ liệu mờ đã rút gọn thuộc tính thu được từ F_RSAR1.
- Trên máy tính PC với cấu hình: Bộ xử lý Pentium Core i3, 2.4 GHz
CPU, 2 GB RAM, sử dụng hệ điều hành Windows 10, chạy thử nghiệm các
thuật toán MRBFA, MRBBA và FJ_RBAR trên sáu bộ dữ trên để tìm các tập
luật quyết định cho mỗi bộ dữ liệu.
2) Kiểm tra độ chính xác phân lớp trên tập kiểm tra
107
Để đánh giá độ chính xác phân lớp dữ liệu, luận án phân chia mỗi tập
dữ liệu thành mười phần bằng nhau; chín phần được sử dụng làm tập dữ liệu
huấn luyện nhằm tìm tập luật quyết định, một phần còn lại được sử dụng làm
tập dữ liệu kiểm tra để đánh giá độ chính xác phân lớp dữ liệu theo các luật
quyết định vừa tìm được. Đối với phần dữ liệu sử dụng làm tập kiểm tra, ghi
nhớ và loại bỏ nhãn ban đầu của các đối tượng; sau đó tiến hành gán nhãn
cho các đối tượng theo tập luật quyết định. So sánh nhãn gán theo tập luật
quyết định với nhãn ban đầu, nếu trùng nhau là phân lớp đúng, ngược lại là
phân lớp sai. Lặp lại mười lần với việc hoán chuyển phần dữ liệu huấn luyện
và phần dữ liệu kiểm tra để đánh giá độ chính xác phân lớp trung bình và độ
lệch chuẩn trên tập kiểm tra; độ lệch chuẩn đặc trưng cho sự biến thiên của
dữ liệu.
Đối với thuật toán FJ_RBAR lựa chọn tham số ngưỡng
[0.1, 0.5], [0.6,1.0] (do người dùng ấn định) để giới hạn luật, bước
nhảy cho mỗi sự thay đổi tham số ngưỡng là 0.01, đây là bước nhảy phù hợp
để tìm được những tập luật có ý nghĩa với thời gian thực hiện chấp nhận
được mà các phương pháp khác cũng thường lựa chọn. Lý do chọn
[0.1, 0.5] bởi vì đây là mức ý nghĩa chấp nhận được của tập luật sinh ra,
sự sai lệch về khoảng cách giữa các biến ngôn ngữ không quá lớn để tập luật
còn có ý nghĩa. Tham số này càng lớn thì độ sai lệch về khoảng cách giữa
các thuộc tính phụ thuộc nhau để rút ra các luật càng nhiều, dẫn đến mức ý
nghĩa của tập luật càng giảm. Theo công thức (4.4), khoảng cách Jaccard mờ
trực tiếp giữa hai biến ngôn ngữ trong bảng quyết định mờ thuộc đoạn [0,1],
nếu khoảng cách giữa hai biến ngôn ngữ nào nhỏ hơn thì coi như hai biến
đó tương tự nhau. Cách chọn nhằm mục đích xác định các đối tượng vào
các phân lớp theo biến ngôn ngữ của thuộc tính quyết định. Nhãn phân lớp
của mỗi đối tượng là giá trị của biến ngôn ngữ của thuộc tính quyết định.
Khả năng phân lớp của mỗi đối tượng vào mỗi lớp chính là giá trị hàm thuộc
của biến ngôn ngữ của thuộc tính quyết định. Các thuật toán MRBFA,
108
MRBBA chọn tham số ngưỡng và từ 0.5 đến 0.8 theo công trình [21] để
giới hạn luật, bước nhảy cho mỗi sự thay đổi tham số ngưỡng là 0.01. Với
FJ_RBAR trong thử nghiệm, tham số ngưỡng [0.1, 0.5] đối với mỗi bộ số
liệu được chọn sao cho có (m-1) luật được sinh ra trực tiếp từ bảng quyết
định có m biến ngôn ngữ theo công thức (4.5), một luật còn lại sinh ra theo
công thức (4.6). Trong giới hạn này, nếu có nhiều tham số thoả mãn để
sinh luật, chọn giá trị nhỏ nhất để sinh ra tập luật. Tham số ngưỡng
[0.6,1.0] được chọn sao cho càng nhiều đối tượng được gán nhãn đúng
theo tập luật càng tốt, nếu có nhiều tham số thoả mãn, chọn giá trị nhỏ nhất
để rút ra tập luật.
3) Kết quả thực nghiệm biểu diễn bởi các Bảng 4.7, Hình 4.2 và Hình 4.3
Bảng 4.7. Kết quả thực nghiệm của MRBFA, MRBBA và FJ_RBAR
T
T Tập dữ liệu
MRBFA MRBBA FJ_RBAR
Độ chính xác
phân lớp
Độ chính xác
phân lớp
Độ chính xác
phân lớp
Tham số
ngưỡng
1 Fisher_Order 0.7842 ± 0.0482 0.7725 ± 0.0411 0.7512 ± 0.0512 (α=0.28; β=0.91)
2 Iris 0.8607 ± 0.0275 0.8108 ± 0.0268 0.9071 ± 0.0326 (α=0.23; β=0.82)
3 Glass 0.5432 ± 0.0696 0.5353 ± 0.0787 0.4658 ± 0.0884 (α=0.15; β=0.85)
4 Sonar 0.9174 ± 0.0231 0.9168 ± 0.0249 0.9182 ± 0.0255 (α=0.3; β=0.75)
5 Sensor_Reading
s_24 0.8232 ± 0.0895 0.8203 ± 0.0723 0.9152 ± 0.0912 (α=0.18; β=0.9)
6 EEG_Eye_State 0.8532 ± 0.0521 0.8412 ± 0.0542 0.7932 ± 0.0512 (α=0.25; β=0.75)
109
Hình 4.2. Độ chính xác phân lớp của MRBFA, MRBBA và FJ_RBAR
Hình 4.3. Độ phân tán dữ liệu của MRBFA, MRBBA và FJ_RBAR
Bảng 4.7, Hình 4.2 và Hình 4.3 cho thấy trên sáu bộ dữ liệu thử
nghiệm, thuật toán FJ_RBAR cho độ chính xác phân lớp tốt nhất tại 3/6 bộ
(Iris, Sonar, Sensor_Readings_24). Trong đó, Sensor_Readings_24 có số
lượng đối tượng khá lớn (5456 đối tượng) và bộ Iris có số đối tượng khá nhỏ
(150 đối tượng); Sonar là bộ dữ liệu có số lượng thuộc tính lớn nhất (60
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
MRBFA
MRBBA
FJ_RBAR
00.010.020.030.040.050.060.070.080.090.1
MRBFA
MRBBA
FJ_RBAR
110
thuộc tính) trong các bộ dữ liệu thử nghiệm. Do vậy, luận án kết luận tính
hiệu quả của phương pháp đề xuất không phụ thuộc vào kích cỡ dữ liệu. Ở
những bộ dữ liệu còn lại, thuật toán FJ_RBAR cho độ chính xác phân lớp
kém hơn MRBFA và MRBBA. Sự chênh lệch về độ chính xác phân lớp dữ
liệu ở những bộ dữ liệu thử nghiệm là không nhiều. Mặt khác, độ lệch chuẩn
của FJ_RBAR là lớn nhất trong đa số các bộ dữ liệu thử nghiệm (5/6 bộ, trừ
EEG_Eye_State). Qua đó cho thấy độ chính xác phân lớp của dữ liệu của
FJ_RBAR học theo tập luật bị ảnh hưởng nhiều hơn bởi sự thay đổi giá trị dữ
liệu vì độ lệch chuẩn đặc trưng cho sự biến thiên dữ liệu. Điều này phù hợp
với thực tế là vì FJ_RBAR sinh ra các luật từ những phân nhóm dữ liệu dựa
trên khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ của bảng
quyết định mờ (tính trên một số đối tượng trong phân nhóm của bảng dữ
liệu). Ngược lại, MRBFA và MRBBA xác định độ quan trọng của thuộc tính
để rút ra các luật quyết định dựa trên miền dương mờ, mỗi luật sinh ra phải
xét toàn bộ các đối tượng của tập dữ liệu. Từ đó, luận án kết luận rằng
FJ_RBAR tỏ ra hiệu quả ở những bộ dữ liệu ổn định so với MRBFA và
MRBBA. Nói một cách khác, MRBFA và MRBBA có ưu thế hơn trên những
bộ dữ liệu có biến động, độ chính xác phân lớp giữa các lần hoán đổi tập dữ
liệu huấn luyện và tập dữ liệu kiểm tra ít bị ảnh hưởng khi giá trị của dữ liệu
thay đổi. Độ chính xác phân lớp của các phương pháp chỉ hơn kém nhau trên
từng bộ dữ liệu thử nghiệm, hiệu quả của từng phương pháp phụ thuộc hoàn
toàn vào sự phân bố dữ liệu, về tổng thể các phương pháp này là tương
đương nhau theo tiêu chí đánh giá về sự hỗ trợ phân lớp dữ liệu.
4.4. Kết luận chương 4
Chương 4 của luận án giới thiệu một phương pháp rút gọn thuộc tính
trực tiếp của bảng quyết định mờ sử dụng phân hoạch mờ xác định trước trên
mỗi thuộc tính, bảo toàn miền dương mờ. Đóng góp chính của chương này là
đề xuất độ đo khoảng cách Jaccard mờ trực tiếp giữa hai tập mờ, ứng dụng
xây dựng phương pháp sinh luật quyết định của bảng quyết định mờ. Khoảng
111
cách Jaccard mờ giữa hai tập mờ được tính trực tiếp trên miền giá trị của hai
tập mờ nên không bị mất mát thông tin. Trên cơ sở đó, lựa chọn những tham
số ngưỡng [ , ] [0,1] phù hợp để sinh ra các luật quyết định, kết quả thu
được tập luật hỗ trợ phân lớp dữ liệu. Phương pháp sinh luật quyết định được
thực hiện trên bảng quyết định mờ sau khi đã rút gọn thuộc tính nên tập luật
thu được sẽ đơn giản hơn các luật sinh bởi các phương pháp khác sử dụng
bảng quyết định mờ chưa rút gọn thuộc tính. Độ chính xác của dữ liệu phân
lớp cũng tương đương một số phương pháp khác [21], [44], [51] sử dụng
cùng một số bộ dữ liệu mô phỏng thực nghiệm. Độ phức tạp tính toán của
thuật toán FJ_RBAR là ( )O C D U nên có khả năng áp dụng thực tế. Do
vậy, kết quả nghiên cứu của chương này bổ sung làm phong phú thêm bộ sưu
tập các kỹ thuật rút gọn thuộc tính và sinh luật quyết định của bảng quyết
định mờ.
112
KẾT LUẬN
1) Những kết qủa chính của luận án:
(1) Với bài toán tìm một tập rút gọn của bảng quyết định miền giá trị thực
theo tiếp cận tập thô mờ, luận án nghiên cứu các nhóm phương pháp rút gọn
thuộc tính sử dụng quan hệ tương đương mờ dựa trên miền dương mờ,
entropy thông tin mờ và ma trận phân biệt mờ. Trên bảng quyết định miền
giá trị thực, luận án đạt được những kết quả sau:
- Cải tiến phương pháp sử dụng miền dương mờ nhằm khắc phục những
hạn chế của các công bố trước đây là tập rút gọn chưa đảm bảo không
dư thừa thuộc tính và bảo toàn miền dương mờ. Đây là phương pháp
rút gọn thuộc tính cơ bản nhất theo tiếp cận tập thô mờ. Đóng góp này
được trình bày ở công trình [CCN1], [CCN2].
- Xây dựng khoảng cách Jaccard mờ và đề xuất phương pháp rút gọn
thuộc tính của bảng quyết định miền giá trị thực sử dụng độ đo
khoảng cách Jaccard mờ. Dựa vào kết quả thực nghiệm trên một số bộ
dữ liệu lấy từ kho dữ liệu UCI [99], kết luận phương pháp sử dụng
khoảng cách Jaccard mờ cải thiện hơn phương pháp sử dụng entropy
thông tin mờ theo hai tiêu chí đánh giá: Độ chính xác phân lớp và thời
gian thực hiện của thuật toán trên một số bộ số liệu. Đóng góp này
được trình bày ở công trình [CCN3].
- Đề xuất khoảng cách giữa hai phân hoạch mờ và ứng dụng xây dựng
phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực.
Dựa vào kết quả thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu
UCI [99], kết luận phương pháp sử dụng khoảng cách phân hoạch mờ
cải thiện hơn các phương pháp sử dụng entropy thông tin mờ và miền
dương mờ theo hai tiêu chí đánh giá: Độ chính xác phân lớp và thời
gian thực hiện của thuật toán trên đa số bộ số liệu thử nghiệm. Đóng
góp này được trình bày ở công trình [CCN4].
113
(2) Với bài toán rút gọn thuộc tính và sinh luật quyết định của bảng quyết
định mờ, luận án nghiên cứu phương pháp rút gọn thuộc tính và sinh luật
quyết định dựa trên các phân hoạch mờ xác định trước trên mỗi thuộc tính.
Đối với bảng quyết định mờ, luận án đạt được kết quả sau:
- Cải tiến phương pháp rút gọn thuộc tính dựa trên miền dương mờ để
tìm được một tập rút gọn không dư thừa và bảo toàn miền dương mờ.
Phương pháp đề xuất cải tiến điều kiện dừng và công thức tính độ
quan trọng của thuộc tính của thuật toán FUZZY-QUICKREDUCT,
kiểm tra tính dưa thừa của tập rút gọn. Đóng góp này được trình bày ở
công trình [CCN2].
- Đề xuất phương pháp sinh luật quyết định của bảng quyết định mờ sử
dụng khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ. Bằng
lý thuyết và thực nghiệm, luận án cho thấy phương pháp đề xuất có độ
chính xác phân lớp dữ liệu tương đương các phương pháp khác. Đóng
góp này được trình bày ở công trình [CCN5].
2) Hướng phát triển của luận án:
(1) Đối với bảng quyết định có miền giá trị thực, tiếp tục nghiên cứu mối
liên hệ giữa các tập rút gọn. Từ đó, hoàn thiện việc phân loại và so
sánh các phương rút gọn thuộc tính của bảng quyết định có miền giá
trị thực theo tiếp cận tập thô mờ.
(2) Đối với bảng quyết định mờ, nghiên cứu các phương pháp hiệu quả để
rút gọn thuộc tính và sinh luật quyết định theo tiêu chí đánh giá độ
chính xác phân lớp dữ liệu và thời gian thực hiện. Xây dựng các độ đo
đánh giá hiệu năng của tập luật quyết định trên bảng quyết định mờ.
114
Danh mục các công trình của tác giả
TẠP CHÍ KHOA HỌC
[CCN1]. Cao Chính Nghĩa, Vũ Đức Thi, Nguyễn Long Giang (2016),
“Rút gọn trực tiếp thuộc tính trên bảng quyết định theo tiếp cận tập
thô mờ”, Tạp chí Khoa học công nghệ quân sự, số 43, Tr. 110-118.
[CCN2]. Cao Chính Nghĩa, Vũ Đức Thi, Tân Hạnh, Nguyễn Long Giang
(2016), “Rút gọn thuộc tính của bảng quyết định sử dụng miền
dương mờ”, Tạp chí Khoa học Công nghệ thông tin và Truyền
thông, Học viện Công nghệ Bưu chính viễn thông, số 2, Tr. 3-10.
[CCN3]. Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh
(2016), “Fuzzy distance based attribute reduction in decision
tables”, Chuyên san Các công trình nghiên cứu, phát triển và ứng
dụng CNTT&TT số 16 (36), Bộ Thông tin và truyền thông, Tr. 104-
112.
[CCN4]. Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu
Duc Thi (2016), “About a fuzzy distance between two fuzzy
partitions and attribute reduction problem”, Cybernetics and
Information Technologies, Scopus index, Vol 16, No 4, pp. 13-28.
HỘI NGHỊ KHOA HỌC
[CCN5]. Nguyễn Quang Huy, Nguyễn Long Giang, Cao Chính Nghĩa,
Tân Hạnh, Phạm Văn Dũng (2016), Một phương pháp sinh luật
quyết định của bảng quyết định mờ sử dụng khoảng cách mờ, Hội
thảo quốc gia lần thứ IXX, Một số vấn đề chọn lọc của công nghệ
thông tin và truyền thông, tr. 276-281.
115
TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt
[1] Hoàng Thị Lan Giao (2009), Một thuật toán tìm tập rút gọn trong bảng
quyết định không đầy đủ, Tạp chí Tin học và Điều khiển học 25(1), tr.
69-78.
[2] Ngọc Minh Châu, Nguyễn Xuân Thảo (2013), Một thuật toán tìm tập
rút gọn sử dụng ma trận phân biệt được, tạp chí khoa học và phát triển,
11(5), tr. 729-734.
[3] Nguyễn Đức Thuần (2010), Phủ tập thô và độ đo đánh giá hiệu năng tập
luật quyết định, Luận án Tiến sĩ Toán học, Viện Công nghệ thông tin.
[4] Nguyễn Long Giang (2012), Nghiên cứu một số phương pháp khai phá
dữ liệu theo tiếp cận lý thuyết tập thô, Luận án Tiến sĩ Toán học, Viện
Công nghệ thông tin.
[5] Nguyễn Long Giang, Vũ Đức Thi (2011), Một phương pháp rút gọn
thuộc tính dựa trên entropy cải tiến, Tạp chí Tin học và Điều khiển học,
27(2), tr. 166-175.
[6] Nguyễn Long Giang, Vũ Đức Thi (2011), Thuật toán tìm tất cả các tập
rút gọn trong bảng quyết định, Tạp chí Tin học và Điều khiển học,
27(3), tr. 199-205.
[7] Phùng Thị Hiền (2014), Nghiên cứu rút gọn thuộc tính trong hệ thông
tin quyết định giá trị tập, Luận án Tiến sĩ Công nghệ thông tin, Học
viện Kỹ thuật quân sự.
[8] Vũ Đức Thi (2012), Một số vấn đề tính toán liên quan đến cơ sở dữ liệu
và khai phá dữ liệu, Tạp chí Khoa học và Công nghệ 50(6), tr. 679-703.
Tài liệu tiếng Anh
116
[9] Al Daoud, E. (2015), An efficient algorithm for finding a fuzzy rough
set reduct using an improved harmony search, International Journal of
Modern Education and Computer Science, 7(2), 16.
[10] Aydogan, E. K., Gencer, C., & Agirgun, B. (2010), An Attribute
Reduction Algorithm Based on Fuzzy Rough Set, In 24th mini EURO
Conference MEC EurOPT.
[11] Azhagusundari, B., & Thanamani, D. A. S. (2013), Feature selection
based on fuzzy entropy, IJETTCS, 2(2), pp. 4-30.
[12] Bai, H., Ge, Y., Wang, J., Li, D., Liao, Y., & Zheng, X. (2014), A
method for extracting rules from spatial data based on rough fuzzy sets,
Knowledge-Based Systems, 57, pp. 28-40.
[13] Beaubouef, T., & Petry, F. E. (2000), Fuzzy rough set techniques for
uncertainty processing in a relational database, International Journal of
Intelligent Systems, 15(5), pp. 389-424.
[14] Bhatt, R. B., and Gopal, M. (2005), On fuzzy-rough sets approach to
feature selection, Pattern recognition letters, 26(7), pp. 965-975.
[15] Chen, D. G., Tsang, E. C., and Zhao, S. Y. (2007, October), An
approach of attributes reduction based on fuzzy T L rough sets, In 2007
IEEE International Conference on Systems, Man and Cybernetics (pp.
486-491), IEEE.
[16] Chen, D., Yang, W., & Li, F. (2008), Measures of general fuzzy rough
sets on a probabilistic space, Information Sciences, 178(16), pp. 3177-
3187.
[17] Chen, D., Hu, Q., & Yang, Y. (2011), Parameterized attribute reduction
with Gaussian kernel based fuzzy rough sets, Information
Sciences, 181(23), pp. 5169-5179.
[18] Chen, D., Zhang, L., Zhao, S., Hu, Q., and Zhu, P. (2012), A novel
algorithm for finding reducts with fuzzy rough sets, IEEE Transactions
on Fuzzy Systems, 20(2), pp. 385-389.
117
[19] Chen, S. M., Lee, S. H., and Lee, C. H. (2001), A new method for
generating fuzzy rules from numerical data for handling classification
problems, Applied Artificial Intelligence, 15(7), pp. 645-664.
[20] Cheng, Y. (2012), A new approach for rule extraction in fuzzy
information systems, Journal of Computational Information Systems,
21(8), pp. 8795-8805.
[21] Cheng, Y. (2015), Forward approximation and backward approximation
in fuzzy rough sets, Neurocomputing, 148, pp. 340-353.
[22] Chierichetti, F., Kumar, R., Pandey, S., & Vassilvitskii, S. (2010,
January), Finding the jaccard median, In Proceedings of the twenty-first
annual ACM-SIAM symposium on Discrete Algorithms (pp. 293-311),
Society for Industrial and Applied Mathematics.
[23] Cornelis, C., Jensen, R., Hurtado, G., & Śle, D. (2010), Attribute
selection with fuzzy decision reducts, Information Sciences, 180(2), pp.
209-224.
[24] Dai, J., and Xu, Q. (2013), Attribute selection based on information
gain ratio in fuzzy rough set theory with application to tumor
classification, Applied Soft Computing, 13(1), pp. 211-221.
[25] Dai, J., & Tian, H. (2013), Fuzzy rough set model for set-valued data,
Fuzzy Sets and Systems, 229, pp. 54-68.
[26] Degang, C., and Suyun, Z. (2010), Local reduction of decision system
with fuzzy rough sets, Fuzzy Sets and Systems, 161(13), pp. 1871-1883.
[27] Deng, T., Chen, Y., Xu, W., and Dai, Q. (2007), A novel approach to
fuzzy rough sets based on a fuzzy covering, Information
Sciences, 177(11), pp. 2308-2326.
[28] Demetrovics, J., Thi, V. D., Giang, N. L. (2013), An Efficient
Algorithm for Determining the Set of All Reductive Attributes in
Incomplete Decision Table, Cybernetics and Information
Technologies, 13(4), pp. 118-126.
118
[29] Demetrovics, J., , Thi, V. D., Giang, N. L. (2014), On Finding All
Reducts of Consistent Decision Tables, Cybernetics and Information
Technologies, 14(4).
[30] Demetrovics, J., Huong, N. T. L., Thi, V. D., Giang, N. L. (2016),
Metric Based Attribute Reduction Method in Dynamic Decision
Tables, Cybernetics and Information Technologies, 16(2), pp. 3-15.
[31] Dong, C., Wu, D., & He, J. (2008, December), Knowledge reduction of
evaluation dataset based on genetic algorithm and fuzzy rough set,
In Computer Science and Software Engineering, 2008 International
Conference on (Vol. 3, pp. 889-892), IEEE.
[32] Dubois, D., and Prade, H. (1990), Rough fuzzy sets and fuzzy rough
sets, International Journal of General System, 17(2-3), pp. 191-209.
[33] Dubois, D., and Prade, H. (1992), Putting rough sets and fuzzy sets
together, Intelligent Decision Support, Kluwer Academic Publishers,
Dordrecht.
[34] Fujita, O. (2013), Metrics based on average distance between
sets, Japan Journal of Industrial and Applied Mathematics, 30(1), pp.
1-19.
[35] Gardner, A., Kanno, J., Duncan, C. A., & Selmic, R. (2014), Measuring
distance between unordered sets of different sizes, In Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition, pp.
137-143.
[36] He, Q., Wu, C., Chen, D., and Zhao, S. (2011), Fuzzy rough set based
attribute reduction for information systems with fuzzy
decisions, Knowledge-Based Systems, 24(5), pp. 689-696.
[37] Hong, T. P., Wang, T. T., & Chien, B. C. (2001), Learning approximate
fuzzy rules from training examples. In Fuzzy Systems, 2001, The 10th
IEEE International Conference on (Vol. 1, pp. 256-259), IEEE.
119
[38] Hu, Q., Xie, Z., and Yu, D. (2007), Hybrid attribute reduction based on
a novel fuzzy-rough model and information granulation, Pattern
recognition, 40(12), pp. 3509-3521.
[39] Hu, Q., Yu, D., and Xie, Z. (2006), Information-preserving hybrid data
reduction based on fuzzy-rough techniques, Pattern recognition
letters, 27(5), pp. 414-423.
[40] Hu, Q., Yu, D., Xie, Z., and Liu, J. (2006), Fuzzy probabilistic
approximation spaces and their information measures, IEEE
transactions on fuzzy systems, 14(2), pp. 191-201.
[41] Hu, Q., An, S., & Yu, D. (2010), Soft fuzzy rough sets for robust
feature evaluation and selection, Information Sciences, 180(22), pp.
4384-4400.
[42] Hu, Q., Zhang, L., Chen, D., Pedrycz, W., & Yu, D. (2010), Gaussian
kernel based fuzzy rough sets: Model, uncertainty measures and
applications, International Journal of Approximate Reasoning, 51(4),
pp. 453-471.
[43] Inuiguchi, M., Greco, S., & Slowinski, R. (2004), Fuzzy rough sets,
gradual decision rules and approximate reasoning, Mathematical
Programming Concerning Decision Makings and Uncertainties.
[44] Jensen, R., and Q. Shen, Q.(2008), Computational Intelligence and
Feature Selection, Rough and Fuzzy Approaches, Aberystwyth
University, IEEE Computational Intelligence Society, Sponsor.
[45] Jensen, R., and Shen, Q. (2002), Fuzzy-rough sets for descriptive
dimensionality reduction. In Fuzzy Systems, 2002, FUZZ-IEEE'02,
Proceedings of the 2002 IEEE International Conference on (Vol. 1, pp.
29-34), IEEE.
[46] Jensen, R., & Shen, Q. (2002, September), Aiding fuzzy rule induction
with fuzzy-rough attribute reduction, In Proceedings of the 2002 UK
Workshop on Computational Intelligence (pp. 81-88).
120
[47] Jensen, R., and Shen, Q. (2004), Fuzzy–rough attribute reduction with
application to web categorization, Fuzzy sets and systems, 141(3), pp.
469-485.
[48] Jensen, R., and Shen, Q. (2004), Semantics-preserving dimensionality
reduction: rough and fuzzy-rough-based approaches, IEEE
Transactions on knowledge and data engineering, 16(12), pp. 1457-
1471.
[49] Jensen, R., and Shen, Q. (2007), Fuzzy-rough sets assisted attribute
selection, IEEE Transactions on fuzzy systems, 15(1), pp. 73-89.
[50] Jensen, R., and Shen, Q. (2009), New approaches to fuzzy-rough
feature selection, IEEE Transactions on Fuzzy Systems, 17(4), pp. 824-
838.
[51] Jensen, R., Cornelis, C., and Shen, Q. (2009, August), Hybrid fuzzy-
rough rule induction and feature selection. In Fuzzy Systems, 2009,
FUZZ-IEEE 2009, IEEE International Conference on (pp. 1151-1156),
IEEE.
[52] Kohonen, T. (1988), An introduction to neural computing, Neural
networks, 1(1), 3-16.
[53] Kohonen, T. (1998), The self-organizing map, Neurocomputing, 21(1),
pp. 1-6.
[54] Kohonen, T. (2012), Self-organization and associative memory (Vol.8).
Springer Science & Business Media.
[55] Kumar, M., & Yadav, N. (2014), Fuzzy Rough Sets and Its Application
in Data Mining Field, Advances in Computer Science and Information
Technology (ACSIT), 237.
[56] LEVASHENKO, V., and MARTINCOVÁ, P. (2005), Fuzzy decision
tree for parallel processing support, Journal of Information, Control and
Management Systems, Vol. 3.
121
[57] Liu, G. (2008), Axiomatic systems for rough sets and fuzzy rough sets,
International Journal of Approximate Reasoning, 48(3), pp. 857-867.
[58] Liu, X., Qian, Y., & Liang, J. (2014), A rule-extraction framework
under multigranulation rough sets, International Journal of Machine
Learning and Cybernetics, 5(2), pp. 319-326.
[59] Maji, P., & Garai, P. (2013), On fuzzy-rough attribute selection: criteria
of max-dependency, max-relevance, min-redundancy, and max-
significance, Applied Soft Computing, 13(9), pp. 3968-3980.
[60] Mageswari, G. U., & Devi, M. I. (2016), Attribute subset selection
based on fuzzy rough set and ranking approach, Int J Adv Engg Tech,
Vol. VII, Issue II, April-June, pp. 735-742.
[61] Meghabghab, G. (2006, June), Fuzzy Rough Sets as a Pair of Fuzzy
Numbers: A New Approach and New Findings, In Fuzzy Information
Processing Society, 2006. NAFIPS 2006, Annual meeting of the North
American (pp. 46-51), IEEE.
[62] Meng, J., Xu, Y., & Zhang, J. (2012, August), Comparison of two
algorithms of attribute reduction based on fuzzy rough set,
In Computational and Information Sciences (ICCIS), 2012 Fourth
International Conference on (pp. 542-545), IEEE.
[63] Ming, Z., Zhengbo, Y., Liukun, Z., Huijie, W., and Xiaogang, X.
(2012), The Extraction Method of the Energy Consumption
Characteristics Based on Fuzzy Rough Set, AASRI Procedia, 1, pp.
142-149.
[64] Nguyen, L. G. (2012, September), Metric based attribute reduction in
decision tables, In Computer Science and Information Systems
(FedCSIS), 2012 Federated Conference on (pp. 311-316), IEEE.
[65] Ouyang, Y., Wang, Z., & Zhang, H. P. (2010), On fuzzy rough sets
based on tolerance relations, Information Sciences, 180(4), pp. 532-542.
122
[66] Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About
Data, Kluwer Academic Publishers.
[67] Pawlak, R., Grzymala-Busse, J.W., Slowinski, R., Ziako, W. (1995),
Rough sets, Communications, ACM 38(11), pp. 89-95.
[68] Pawlak, Z. (1982), Rough sets, International Journal of Computer &
Information Sciences, 11(5), pp. 341-356.
[69] Qian, Y., Li, Y., Liang, J., Lin, G., and Dang, C. (2015), Fuzzy granular
structure distance, IEEE Transactions on Fuzzy Systems, 23(6), pp.
2245-2259.
[70] Qian, Y., Liang, J., and Dang, C. (2009), Knowledge structure,
knowledge granulation and knowledge distance in a knowledge
base, International Journal of Approximate Reasoning, 50(1), pp. 174-
188.
[71] Qian, Y., Liang, J., Wei-zhi, Z. W., and Dang, C. (2011), Information
granularity in fuzzy binary GrC model, IEEE Transactions on Fuzzy
Systems, 19(2), pp. 253-264.
[72] Qian, Y., Wang, Q., Cheng, H., Liang, J., and Dang, C. (2015), Fuzzy-
rough feature selection accelerator, Fuzzy Sets and Systems, 258, pp.
61-78.
[73] Radzikowska, A. M., and Kerre, E. E. (2002), A comparative study of
fuzzy rough sets. Fuzzy sets and systems, 126(2), pp. 137-155.
[74] Shen, Q., and Jensen, R. (2004), Selecting informative features with
fuzzy-rough sets and its application for complex systems
monitoring. Pattern recognition, 37(7), pp. 1351-1363.
[75] Sun, R., & Han, R. (2009, June), Data mining based on fuzzy rough set
theory and its application in the glass identification, In Information and
Automation, 2009. ICIA'09. International Conference on (pp. 154-157),
IEEE.
123
[76] Sun, B., and Ma, W. (2011), Fuzzy rough set model on two different
universes and its application, Applied Mathematical Modelling 35, pp.
1798–1809.
[77] Tavan, P., Grubmüller, H., & Kühnel, H. (1990), Self-organization of
associative memory and pattern classification: recurrent signal
processing on topological feature maps, Biological Cybernetics, 64(2),
pp. 95-105.
[78] Tsang, G. C., Degang, C., Tsang, E. C., Lee, J. W., and Yeung, D. S.
(2005, October), On attributes reduction with fuzzy rough sets, In 2005
IEEE International Conference on Systems, Man and Cybernetics (Vol.
3, pp. 2775-2780), IEEE.
[79] Tsang, E. C., and Chen, D. G. (2006, August), The Fuzzy Rough Set
Approaches of Fuzzy Reasoning, In 2006 International Conference on
Machine Learning and Cybernetics (pp. 1642-1646), IEEE.
[80] Tsang, E. C., Chen, D., Yeung, D. S., Wang, X. Z., and Lee, J. W.
(2008). Attributes reduction using fuzzy rough sets, IEEE Transactions
on Fuzzy systems, 16(5), pp. 1130-1141.
[81] Tsang, E. C., Zhao, S. Y., and Lee, J. W. (2007, August), Rule
induction based on fuzzy rough sets, In 2007 International Conference
on Machine Learning and Cybernetics (Vol. 5, pp. 3028-3033), IEEE.
[82] Wang, X. Z., Ha, Y., & Chen, D. G. (2005, August), On the reduction
of fuzzy rough sets, In Machine Learning and Cybernetics, 2005,
Proceedings of 2005 International Conference on (Vol. 5, pp. 3174-
3178), IEEE.
[83] Wang, X., & Hong, J. (1999), Learning optimization in simplifying
fuzzy rules, Fuzzy sets and systems, 106(3), pp. 349-356.
[84] Wang, X., Tsang, E. C., Zhao, S., Chen, D., & Yeung, D. S. (2007),
Learning fuzzy rules from fuzzy samples based on rough set
technique, Information sciences, 177(20), pp. 4493-4514.
124
[85] Wei-feng, D., Hai-ming, L., Yan, G., & Dan, M. (2005, July), Another
kind of fuzzy rough sets, In Granular Computing, 2005 IEEE
International Conference on (Vol. 1, pp. 145-148), IEEE.
[86] Wu, Q. E., Wang, T., Huang, Y. X., & Li, J. S. (2006, August), New
research on fuzzy rough sets, In Machine Learning and Cybernetics,
2006 International Conference on (pp. 4178-4183). IEEE.
[87] Wu, W. Z., Mi, J. S., and Zhang, W. X. (2003), Generalized fuzzy
rough sets.Information sciences, 151, pp. 263-282.
[88] Xu, F. F., Miao, D. Q., and Wei, L. (2009), Fuzzy-rough attribute
reduction via mutual information with an application to cancer
classification, Computers and Mathematics with Applications, 57(6),
pp. 1010-1017.
[89] Xu, F., Miao, D., and Wei, L. (2007, August), An Approach for Fuzzy-
Rough Sets Attributes Reduction via Mutual Information, In FSKD
(3) (pp. 107-112).
[90] Yao, Y. Y. (1998), A comparative study of fuzzy sets and rough sets,
Information sciences, 109(1), pp. 227-242.
[91] Yeung, D. S., Chen, D., Tsang, E. C., Lee, J. W., and Xizhao, W.
(2005), On the generalization of fuzzy rough sets, IEEE Transactions
on fuzzy systems, 13(3), pp. 343-361.
[92] Yuan, Y., and Shaw, M. J. (1995), Induction of fuzzy decision
trees, Fuzzy Sets and systems, 69(2), pp. 125-139.
[93] Zadeh, L. A. (1965), Fuzzy sets, Information and control, 8(3), pp. 338-
353.
[94] Zeng, A., Li, T., Liu, D., Zhang, J., & Chen, H. (2015), A fuzzy rough
set approach for incremental feature selection on hybrid information
systems, Fuzzy Sets and Systems, 258, pp. 39-60.
[95] Zhang, S., & Sun, J. (2009, August), Continuous value attribute
decision table analysis method based on fuzzy set and rough set theory,
125
In Fuzzy Systems and Knowledge Discovery, 2009, FSKD'09, Sixth
International Conference on (Vol. 2, pp. 75-79), IEEE.
[96] Zhang, M., Chen, D. G., & Yang, Y. Y. (2013, July), A new algorithm
of attribute reduction based on fuzzy clustering, In Machine Learning
and Cybernetics (ICMLC), 2013 International Conference on (Vol. 1,
pp. 155-158), IEEE.
[97] Zhang, X., Mei, C., Chen, D., and Li, J. (2016), Feature selection in
mixed data: A method using a novel fuzzy rough set-based information
entropy, Pattern Recognition, 56, pp. 1-15.
[98] Zhao, S., & Tsang, E. C. (2008), On fuzzy approximation operators in
attribute reduction with fuzzy rough sets, Information
Sciences, 178(16), pp. 3163-3176.
[99] http://archive.ics.uci.edu/ml/datasets.html
[100] https://sourceforge.net/projects/weka