CÁC RÚT G THU À SINH LUẬT QUYẾT ĐỊNHportal.ptit.edu.vn/saudaihoc/wp-content/uploads/2017/11/LUANANTS... · tận tình hướng dẫn tác giả hoàn thành ... Tác giả

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

CAO CHÍNH NGHĨA

NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT QUYẾT ĐỊNH

THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI - 2017

BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

CAO CHÍNH NGHĨA

NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT QUYẾT ĐỊNH

THEO TIẾP CẬN TẬP THÔ MỜ

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 62.48.01.04

LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. GS.TS. VŨ ĐỨC THI

2. TS. TÂN HẠNH

HÀ NỘI - 2017

LỜI CẢM ƠN

Luận án này được hoàn thành với sự nỗ lực không ngừng của tác giả và sự

giúp đỡ hết mình từ các thầy giáo hướng dẫn, bạn bè và người thân. Đầu tiên, tác

giả xin bày tỏ lời tri ân tới GS.TS Vũ Đức Thi và TS. Tân Hạnh, những thầy giáo đã

tận tình hướng dẫn tác giả hoàn thành luận án này.

Tác giả xin gửi lời cảm ơn tới các thầy, cô giáo và cán bộ của Học viện Công

nghệ Bưu chính Viễn thông - Bộ Thông tin và Truyền thông, là cơ sở đào tạo đã

luôn tạo điều kiện để NCS có thể hoàn thành luận án của mình.

Tác giả xin gửi lời cảm ơn sâu sắc đến TS. Nguyễn Long Giang - một người

thầy thầm lặng và các cán bộ Phòng Tin học quản lý, Viện Công nghệ Thông tin,

Viện Khoa học và Công nghệ Việt Nam đã nhiệt tình giúp đỡ và tạo ra môi trường

nghiên cứu tốt để tác giả hoàn thành công trình của mình; cảm ơn các thầy cô và các

đồng nghiệp ở các nơi mà tác giả tham gia viết bài đã có những góp ý chính xác để

tác giả có được những công bố như ngày hôm nay.

Tác giả xin gửi lời cảm ơn tới Đảng ủy, Ban Giám đốc Học viện Cảnh sát

Nhân dân, các đồng nghiệp Bộ môn Toán - Tin học nơi tác giả công tác đã ủng hộ

để luận án được hoàn thành đúng thời hạn.

Cuối cùng, tác giả xin gửi tới bạn bè, người thân lời cảm ơn chân thành nhất

vì đã đồng hành cùng tác giả trong suốt thời gian qua. Con xin cảm ơn Cha, Mẹ và

gia đình đã luôn là chỗ dựa vững chắc về tinh thần và vật chất, cũng là những người

luôn mong mỏi cho con thành công; cảm ơn vợ và các em đã gánh vác công việc gia

đình thay cho anh; xin lỗi các con vì phần nào đó đã chịu thiệt thòi trong thời gian

bố học tập nghiên cứu, chính các con là nguồn động lực lớn lao giúp bố hoàn thành

được công việc khó khăn này.

Hà Nội, tháng 11 năm 2016

Cao Chính Nghĩa

LỜI CAM ĐOAN

Các kết quả trình bày trong luận án là công trình nghiên cứu của tôi được

hoàn thành dưới sự hướng dẫn của GS.TS. Vũ Đức Thi, TS. Tân Hạnh và TS.

Nguyễn Long Giang. Những kết quả trình bày là mới và chưa từng được công bố ở

các công trình của người khác.

Tôi xin chịu trách nhiệm về những lời cam đoan của mình.

Cao Chính Nghĩa

i

MỤC LỤC

MỤC LỤC ....................................................................................................................... i

Danh mục các thuật ngữ ................................................................................................ iii

Bảng các ký hiệu, từ viết tắt .......................................................................................... iv

Danh sách bảng ............................................................................................................ vii

Danh sách hình vẽ ....................................................................................................... viii

MỞ ĐẦU ....................................................................................................................... 1

CHƯƠNG 1. CÁC KIẾN THỨC CƠ SỞ ....................................................................... 9

1.1. Một số khái niệm về tập thô ............................................................................. 9

1.1.1. Hệ thông tin .............................................................................................. 9

1.1.2. Các tập xấp xỉ ......................................................................................... 10

1.1.3. Miền dương ............................................................................................ 11

1.1.4. Bảng quyết định ...................................................................................... 11

1.2. Một số khái niệm về tập thô mờ xác định trên bảng quyết định miền giá trị thực ...................................................................................................................... 11

1.2.1. Bảng quyết định miền giá trị thực ........................................................... 12

1.2.2. Quan hệ tương đương mờ ....................................................................... 12

1.2.3. Ma trận tương đương mờ ........................................................................ 13

1.2.4. Phân hoạch mờ và lớp tương đương mờ .................................................. 14

1.2.5. Các tập xấp xỉ mờ ................................................................................... 17

1.2.6. Miền dương mờ ...................................................................................... 17

1.3. Một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ ................ 18

1.3.1. Bảng quyết định mờ ................................................................................ 18

1.3.2. Phân hoạch mờ và lớp tương đương mờ .................................................. 20

1.3.3. Các tập xấp xỉ mờ ................................................................................... 21

1.3.4. Miền dương mờ ...................................................................................... 21

1.4. Rút gọn thuộc tính trong bảng quyết định....................................................... 23

1.4.1. Tổng quan về rút gọn thuộc tính ............................................................. 23

1.4.2. Tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp cận tập thô ............................................................................................................... 26

1.4.3. Định hướng nghiên cứu của luận án ........................................................ 28

1.5. Kết luận chương 1.......................................................................................... 29

ii

CHƯƠNG 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜ VÀ KHOẢNG CÁCH JACCARD MỜ .. 30

2.1. Đặt vấn đề ..................................................................................................... 30

2.2. Rút gọn thuộc tính sử dụng miền dương mờ ................................................... 31

2.2.1. Phương pháp rút gọn thuộc tính sử dụng miền dương mờ ....................... 32

2.2.2. Thử nghiệm và đánh giá kết quả ............................................................. 37

2.3. Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ ..................................... 44

2.3.1. Khoảng cách Jaccard mờ và các tính chất ............................................... 44

2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ .......... 52

2.3.3. Thử nghiệm và đánh giá kết quả ............................................................. 56

2.4. Kết luận chương 2.......................................................................................... 61

CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ .................................. 63

3.1. Đặt vấn đề ..................................................................................................... 63

3.2. Khoảng cách phân hoạch mờ và các tính chất ................................................ 64

3.3. Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch mờ ........... 70

3.4. Thử nghiệm và đánh giá kết quả .................................................................... 77

3.5. Kết luận chương 3.......................................................................................... 82

CHƯƠNG 4. RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH MỜ ................................................................................................................... 84

4.1. Đặt vấn đề ..................................................................................................... 84

4.2. Phương pháp rút gọn thuộc tính của bảng quyết định mờ ............................... 87

4.3. Phương pháp sinh luật quyết định của bảng quyết định mờ ............................ 91

4.3.1. Luật quyết định mờ ................................................................................. 92

4.3.2. Sinh luật quyết định từ bảng quyết định mờ ............................................ 93

4.3.3. Thử nghiệm và đánh giá kết quả ........................................................... 105

4.4. Kết luận chương 4........................................................................................ 110

KẾT LUẬN ............................................................................................................... 112

Danh mục các công trình của tác giả .......................................................................... 114

TÀI LIỆU THAM KHẢO .......................................................................................... 115

iii

Danh mục các thuật ngữ

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Bảng quyết định Decision Table

Bảng quyết định miền giá trị thực Numerical Decision Table

Bảng quyết định mờ Fuzzy Decision Table

Hệ thông tin Information System

Khoảng cách mờ Fuzzy Distance

Luật quyết định mờ Fuzzy Decision Rule

Ma trận tương đương mờ Fuzzy Equivalent Relational Matrix

Miền dương mờ Fuzzy Positive Region

Quan hệ tương đương Equivalent Relation

Quan hệ tương đương mờ Fuzzy Equivalent Relation

Rút gọn thuộc tính Attribute Reduction

Tập mờ Fuzzy Set

Tập rút gọn Reduct

Tập thô Rough Set

Tập thô mờ Fuzzy Rough Set

Xấp xỉ dưới Lower Approximation

Xấp xỉ trên Upper Approximation

Xấp xỉ dưới mờ Fuzzy Lower Approximation

Xấp xỉ trên mờ Fuzzy Upper Approximation

iv

Bảng các ký hiệu, từ viết tắt

Ký hiệu, từ viết tắt Diễn giải

,I S U A Hệ thông tin

,D T U C D Bảng quyết định

,DT U C D Bảng quyết định mờ

U Số đối tượng

C Số thuộc tính điều kiện trong bảng quyết định

A Số thuộc tính

u a Giá trị của đối tượng u tại thuộc tính a

I N D P Quan hệ P không phân biệt

Pu Lớp tương đương chứa u của quan hệ IND P

Pi Ru

Lớp tương đường mờ chứa u của quan hệ tương đương mờ PR

/U P Phân hoạch của U sinh bởi tập thuộc tính P

P Phân hoạch mờ theo tập thuộc tính P

PX Pxấp xỉ dưới của X

PX Pxấp xỉ trên của X

PP N X Pmiền biên của X

PP O S D Pmiền dương của D

PS IG b Độ quan trọng của thuộc tính b với tập thuộc tính P

( )A u Hàm thuộc của đối tượng u với tập mờ A

H P Entropy Shannon

E P Entropy Liang

v

,P QNFD R R Khoảng cách phân hoạch mờ giữa hai phân hoạch mờ PR

và QR

,N Fd C C D Khoảng cách phân hoạch mờ giữa hai tập thuộc tính C và

C D

( , )F JD A B Khoảng cách Jaccard mờ giữa hai tập mờ A và B

,F Jd C C D Khoảng cách Jaccard mờ giữa hai tập thuộc tính C và

C D

F_RSAR1 Thuật toán rút gọn thuộc tính dựa trên miền dương mờ

F_RSAR1 (Fuzzy Rough Set Based Attribute Reduction 1)

F_RSAR2 Thuật toán rút gọn thuộc tính dựa trên miền dương mờ

F_RSAR2 (Fuzzy Rough Set Based Attribute Reduction 2)

FJ_DBAR Thuật toán rút gọn thuộc tính dựa trên khoảng cách Jaccard

mờ (Fuzzy Jaccard Distance Based Attribute Reduction)

FJ_RBAR Thuật toán sinh luật quyết định mờ dựa trên khoảng cách

Jaccard mờ (Fuzzy Jaccard Rule Based Attribute Reduction)

NF_DBAR Thuật toán rút gọn thuộc tính dựa trên khoảng cách phân

hoạch mờ (New Fuzzy Distance Based Attribute Reduction)

FAR-VPFRS

Thuật toán rút gọn thuộc tính dựa trên miền dương mờ

(Forward Attribute Reduction Based On Variable Precision

Fuzzy-Rough Model)

FA-FPR

Thuật toán rút gọn thuộc tính dựa trên miền dương mờ cải

tiến (Forward Approximation - Fuzzy Positive Region

Reduction)

FA-FSCE

Thuật toán rút gọn thuộc tính dựa trên Entropy cải tiến

(Forward Approximation - Fuzzy Conditional Entropy To

Design A Heuristic Feature Selection Algorithm)

vi

GRAF

Thuật toán rút gọn thuộc tính dựa trên Entropy tăng thêm

(Attribute Selection Based On Information Gain Ratio In

Fuzzy Rough Set Theory)

MRBFA Thuật toán sinh luật quyết định mờ dựa trên xấp xỉ tiến

(Mine Rules Based On The Forward Approximation)

MRBBA Thuật toán sinh luật quyết định mờ dựa trên xấp xỉ lùi (Mine

Rules Based On The Backward Approximation)

vii

Danh sách bảng

Bảng 1.1. Bảng quyết định miền giá trị thực .................................................................... 12

Bảng 1.2. Bảng quyết định mờ chơi thể thao ................................................................... 18

Bảng 1.3. Bảng quyết định mờ của Ví dụ 1.3 .................................................................. 22

Bảng 2.1. Bảng quyết định miền giá trị thực của Ví dụ 2.1 .............................................. 34

Bảng 2.2. Bộ dữ liệu thử nghiệm ..................................................................................... 37

Bảng 2.3. Kết quả thực nghiệm của F_RSAR2, FAR-VPFRS ......................................... 40

Bảng 2.4. Tập rút gọn của F_RSAR2, FAR-VPFRS ........................................................ 42

Bảng 2.5. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS .............................. 42

Bảng 2.6. Kết quả thực nghiệm của FJ_DBAR và GRAF ............................................... 57

Bảng 2.7. Tập rút gọn thu được bởi FJ_DBAR và GRAF ................................................ 59

Bảng 2.8. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF ..................................... 59

Bảng 3.1. Mối liên hệ giữa khoảng cách phân hoạch mờ và entropy thông tin ................. 69

Bảng 3.2. Kết quả thực nghiệm của FA_FSCE, FA_FPR, NF_DBAR ............................. 78

Bảng 3.3. Tập rút gọn của FA_FSCE, FA_FPR, NF_DBAR .......................................... 80

Bảng 3.4. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR, NF_DBAR .................. 80

Bảng 4.1. Bảng quyết định mờ chơi thể thao biểu diễn lại Bảng 1.2 ................................ 89

Bảng 4.2. Bảng quyết định mờ chơi thể thao đã rút gọn thuộc tính .................................. 97

Bảng 4.3. Khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ của Bảng 4.2 ......... 98

Bảng 4.4. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.9) ................................... 100

Bảng 4.5. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.8) ................................... 101

Bảng 4.6. Kết quả gán nhãn của Bảng 4.2 với (α=0.26) ................................................ 103

Bảng 4.7. Kết quả thực nghiệm của MRBFA, MRBBA và FJ_RBAR ........................... 108

viii

Danh sách hình vẽ

Hình 1.1. Quá trình lựa chọn thuộc tính .......................................................................... 25

Hình 1.2. Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói ................................. 26

Hình 1.3. Mô hình phương pháp heuristic rút gọn thuộc tính .......................................... 27

Hình 2.1. Thời gian thực hiện của F_RSAR2, FAR-VPFRS ............................................ 41

Hình 2.2. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS .............................. 43

Hình 2.3. Thời gian thực hiện của FJ_DBAR và GRAF ................................................. 58

Hình 2.4. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF ..................................... 61

Hình 3.1. Thời gian thực hiện của FA_FSCE, FA_FPR, NF_DBAR ............................... 79

Hình 3.2. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR và NF_DBAR ............. 81

Hình 4.1. Phân lớp dữ liệu theo các luật quyết định mờ ................................................... 86

Hình 4.2. Độ chính xác phân lớp của MRBFA, MRBBA và FJ_RBAR ......................... 109

Hình 4.3. Độ phân tán dữ liệu của MRBFA, MRBBA và FJ_RBAR ............................. 109

1

MỞ ĐẦU

Rút gọn thuộc tính và sinh luật quyết định (luật phân lớp) là hai bài toán

quan trọng trong quá trình khám phá tri thức từ dữ liệu. Rút gọn thuộc tính thuộc

giai đoạn tiền xử lý dữ liệu còn sinh luật quyết định thuộc giai đoạn khai phá dữ

liệu. Rút gọn thuộc tính của bảng quyết định là quá trình lựa chọn tập con nhỏ nhất

của tập thuộc tính điều kiện, loại bỏ các thuộc tính dư thừa mà bảo toàn thông tin

phân lớp của bảng quyết định, gọi là tập rút gọn (reduct). Kết quả rút gọn thuộc tính

ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ khai phá: Gia tăng tốc độ,

cải thiện chất lượng, tính dễ hiểu của các kết quả thu được. Sinh luật quyết định là

bước tiếp theo của rút gọn thuộc tính trong khai phá dữ liệu nhằm đánh giá chất

lượng phân lớp của dữ liệu thông qua độ hỗ trợ của tập luật quyết định. Độ chính

xác phân lớp được đánh giá thông qua tỷ lệ phân lớp đúng theo luật quyết định trên

tổng số lớp của tập dữ liệu.

Các kỹ thuật rút gọn thuộc tính được phân thành hai loại: Lựa chọn thuộc

tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [44]. Lựa

chọn thuộc tính là chọn ra một tập con tốt nhất (theo một nghĩa nào đó) từ tập dữ

liệu ban đầu. Biến đổi thuộc tính là thực hiện việc biến đổi các thuộc tính của tập dữ

liệu ban đầu thành một tập dữ liệu với các thuộc tính mới có số lượng ít hơn sao cho

bảo tồn được thông tin nhiều nhất. Các công trình nghiên cứu về rút gọn thuộc tính

thường tập trung vào nghiên cứu các kỹ thuật lựa chọn thuộc tính. Lựa chọn thuộc

tính là quá trình lựa chọn một tập con gồm P thuộc tính từ tập gồm A thuộc tính

(PA) sao cho không gian thuộc tính được thu gọn lại một cách tối ưu theo một tiêu

chuẩn nhất định. Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn

thuộc tính: Lọc (filter) và đóng gói (wrapper). Cách tiếp cận kiểu lọc thực hiện việc

lựa chọn thuộc tính độc lập với thuật toán khai phá sử dụng sau này. Các thuộc tính

được chọn chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu. Ngược lại

với cách tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn

bằng cách áp dụng ngay kỹ thuật khai phá cụ thể, độ chính xác của kết quả được lấy

làm tiêu chuẩn để lựa chọn các tập con thuộc tính [44].

2

Lý thuyết tập thô (Rough set) do Pawlak đề xuất [66] là công cụ hiệu quả

giải quyết bài toán rút gọn thuộc tính trong bảng quyết định và được cộng đồng

nghiên cứu về tập thô thực hiện lâu nay. Trong lý thuyết tập thô, dữ liệu được biểu

diễn thông qua một hệ thông tin ,IS U A với U là tập các đối tượng và A là tập

các thuộc tính. Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ

không phân biệt được để đưa ra các tập xấp xỉ biểu diễn tập đối tượng cần quan sát.

Bảng quyết định là một hệ thông tin IS với tập thuộc tính A được chia thành hai

tập con khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và

tập thuộc tính quyết định. Nói cách khác, ,DT U C D với C D . Bảng

quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại các thuộc

tính điều kiện có thể cung cấp cho ta thông tin về giá trị của thuộc tính quyết định.

Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực

hiện trên các bảng quyết định có miền giá trị rời rạc. Trong thực tế, miền giá trị

thuộc tính của các bảng quyết định thường chứa giá trị thực. Ví dụ, thuộc tính trọng

lượng cơ thể và huyết áp trong bảng dữ liệu bệnh nhân thường là các giá trị thực,

liên tục. Để thực hiện các phương pháp rút gọn thuộc tính theo tiếp cận tập thô,

miền giá trị thuộc tính thực, liên tục cần được rời rạc hóa. Tuy nhiên, các phương

pháp rời rạc hóa không bảo toàn sự khác nhau ban đầu giữa các đối tượng trong dữ

liệu gốc và do đó làm giảm độ chính xác phân lớp sau khi rút gọn thuộc tính. Để

giải quyết bài toán rút gọn thuộc tính trực tiếp trên các bảng quyết định có miền giá

trị thực, trong mấy năm gần đây các nhà nghiên cứu đề xuất hướng tiếp cận mới sử

dụng lý thuyết tập thô mờ.

Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois, D., và Prade, H., [32],

[33] đề xuất là sự kết hợp của lý thuyết tập thô và lý thuyết tập mờ nhằm xấp xỉ các

tập mờ dựa trên một quan hệ tương đương mờ (fuzzy equivalent relation) được xác

định trên miền giá trị thuộc tính. Lý thuyết tập thô truyền thống dựa trên quan hệ

tương đương để xấp xỉ tập hợp, trong đó độ tương đương của hai đối tượng là 1 nếu

chúng tương đương, ngược lại là 0 nếu chúng không tương đương. Lý thuyết tập thô

3

mờ sử dụng quan hệ tương đương mờ thay thế quan hệ tương đương, độ tương

đương mờ của hai đối tượng là một giá trị nằm trong đoạn [0,1] cho thấy tính gần

nhau, hay khả năng phân biệt giữa hai đối tượng. Do đó, quan hệ tương đương mờ

bảo toàn sự khác nhau, hay độ tương đương, giữa các đối tượng và các phương pháp

rút gọn thuộc tính theo tiếp cận tập thô mờ có tiềm năng trong việc bảo toàn độ

chính xác phân lớp sau khi thực hiện các phương pháp rút gọn thuộc tính.

Chủ đề nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thô mờ đã thu hút

sự quan tâm của các nhà nghiên cứu trong mấy năm gần đây. Các nghiên cứu liên

quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ tập trung giải quyết hai bài toán

chính:

1) Bài toán thứ nhất là rút gọn thuộc tính trực tiếp trên các bảng quyết định

có miền giá trị thực (miền giá trị thuộc tính là các số thực) không qua

bước rời rạc hoá dữ liệu [15], [18], [24], [26], [36], [38], [39], [63], [79],

[80], [97]. Với bài toán này, đối tượng nghiên cứu là các bảng quyết định

miền giá trị thực. Một quan hệ tương đương mờ được định nghĩa trên

miền giá trị của thuộc tính. Quan hệ này cho phép xác định các ma trận

tương đương mờ. Dựa trên ma trận quan hệ tương đương mờ, các toán tử

của tập thô mờ được xây dựng như lớp tương đương mờ, tập xấp xỉ dưới

mờ và xấp xỉ trên mờ, miền dương mờ... Lớp tương đương mờ là đơn vị

cơ sở để xây dựng các độ đo hiệu quả giải quyết bài toán rút gọn thuộc

tính. Các kết quả nghiên cứu theo hướng tiếp cận này tập trung vào ba

nhóm chính: Nhóm các phương pháp sử dụng miền dương mờ [9], [38]-

[40], [72], nhóm phương pháp sử dụng ma trận phân biệt mờ [15], [18],

[26], [80], nhóm phương pháp sử dụng entropy thông tin mờ [24], [38]-

[40], [88], [89]. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu

UCI [99] cho thấy, các phương pháp rút gọn thuộc tính theo hướng tiếp

cận này có độ chính xác phân lớp cao hơn các phương pháp rút gọn thuộc

tính theo tiếp cận tập thô truyền thống. Tuy nhiên, chưa có nghiên cứu đầy

đủ để so sánh, đánh giá các phương pháp đã có về độ chính xác phân lớp

4

và thời gian thực hiện. Do đó, việc tìm kiếm các phương pháp hiệu quả

hơn các phương pháp đã công bố theo hướng tiếp cận này nhằm nâng cao

độ chính xác phân lớp và thời gian thực hiện là vấn đề nghiên cứu thứ

nhất của luận án.

2) Bài toán thứ hai là rút gọn thuộc tính và sinh luật trực tiếp trên bảng quyết

định mờ, là bảng quyết định mà giá trị thuộc tính là các tập mờ [9], [44],

[45], [47]-[51], [74], [88], [89]. Với bài toán này, đối tượng nghiên cứu là

các bảng quyết định mờ (là các bảng quyết định sau khi được mờ hóa

bằng các tập mờ). Các phân hoạch mờ được tính toán trên miền giá trị các

thuộc tính. Trên cơ sở đó, các lớp tương đương mờ được xác định. Các

lớp tương đương mờ là đơn vị tính toán cơ sở để tính toán các toán tử

trong lý thuyết tập thô mờ như các tập xấp xỉ mờ, miền dương mờ và là

đơn vị cơ sở để tính toán các độ đo sử dụng để giải quyết bài toán rút gọn

thuộc tính. Sinh luật là bài toán tiếp theo của rút gọn thuộc tính nhằm sinh

tập luật phân lớp dữ liệu. Các nghiên cứu liên quan đến việc giải quyết bài

toán sinh luật quyết định trên bảng quyết định mờ phải kể đến các công

trình [19], [21], [44], [51], [56], [74], [92]. Các công bố này sử dụng các

độ đo khác nhau nhằm trích lọc hệ luật mờ như sử dụng miền dương mờ

và một số độ đo khác. Việc tìm kiếm các độ đo nhằm nâng cao hiệu quả

của phương pháp trích lọc hệ luật mờ về thời gian thực hiện và độ chính

xác phân lớp là vấn đề nghiên cứu thứ hai của luận án.

Kỹ thuật sử dụng khoảng cách đóng vai trò quan trọng trong khai phá dữ

liệu. Trên thế giới, kỹ thuật này được nhiều người quan tâm nghiên cứu và áp dụng

vào việc giải quyết các bài toán như phân lớp, phân cụm, lựa chọn đặc trưng,…Ở

Việt Nam, luận án tiến sĩ của tác giả Nguyễn Long Giang là công trình nghiên cứu

khá đầy đủ về một số phương pháp rút gọn thuộc tính của bảng quyết định theo tiếp

cận lý thuyết tập thô, đặc biệt là phương pháp sử dụng khoảng cách [4]. Phương

pháp rút gọn thuộc tính sử dụng khoảng cách theo tiếp cận tập thô được chứng minh

là mang lại hiệu quả hơn so với các phương pháp khác [4]. Do đó, việc phát triển

5

các độ đo khoảng cách theo tiếp cận tập thô mờ (gọi là khoảng cách mờ) có tiềm

năng trong việc giải quyết bài toán rút gọn thuộc tính và sinh luật theo tiếp cận tập

thô mờ.

Từ các phân tích nêu trên, nghiên cứu sinh đặt ra mục tiêu nghiên cứu như

sau:

1) Với bài toán thứ nhất, nghiên cứu sinh tiếp tục nghiên cứu các phương

pháp hiệu quả rút gọn thuộc tính trực tiếp trên các bảng quyết định có

miền giá trị thực theo tiếp cận tập thô mờ. Tính hiệu quả dựa trên hai tiêu

chí đánh giá: Nâng cao độ chính xác phân lớp và cải thiện hiệu năng (thời

gian thực hiện) so với các phương pháp khác đã công bố. Việc tìm kiếm

các phương pháp dựa trên các độ đo khoảng cách đã được sử dụng trong

lý thuyết tập thô.

2) Với bài toán thứ hai, nghiên cứu sinh nghiên cứu các phương pháp hiệu

quả rút gọn thuộc tính và sinh luật quyết định trên bảng quyết định mờ.

Tính hiệu quả dựa trên hai tiêu chí đánh giá là độ chính xác phân lớp và

thời gian thực hiện.

Với mục tiêu đặt ra, luận án thu được các kết quả chính như sau:

1) Đề xuất các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết

định miền giá trị thực theo tiếp cận tập thô mờ, bao gồm:

- Phương pháp rút gọn thuộc tính sử dụng miền dương mờ nhằm cải tiến

một số phương pháp dựa trên miền dương mờ đã công bố trước đó [38]

để tìm tập rút gọn không dư thừa thuộc tính và bảo toàn miền dương mờ.

Kết quả này công bố trong công trình [CCN1], [CCN2].

- Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ và

khoảng cách phân hoạch mờ. Khoảng cách Jaccard mờ được nghiên cứu

sinh xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn [4]

để đo khoảng cách giữa hai tập mờ. Khoảng cách phân hoạch mờ được

xây dựng dựa trên khoảng cách mờ giữa hai tập mờ do nghiên cứu sinh

6

đề xuất. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI [99]

chứng minh hai phương pháp sử dụng khoảng cách mờ hiệu quả hơn các

phương pháp đã công bố trên cả hai tiêu chí: Độ chính xác phân lớp và

thời gian thực hiện trên một số bộ dữ liệu thực nghiệm. Các kết quả này

góp phần hình thành nhóm phương pháp rút gọn thuộc tính sử dụng

khoảng cách mờ theo tiếp cận tập thô mờ, được công bố trong các công

trình [CCN3], [CCN4].

2) Đề xuất phương pháp rút gọn thuộc tính và sinh luật trong bảng quyết

định mờ theo tiếp cận tập thô mờ. Phương pháp rút gọn thuộc tính sử

dụng miền dương mờ được công bố trong công trình [CCN2], phương

pháp sinh hệ luật mờ trên bảng quyết định mờ sử dụng khoảng cách

Jaccard mờ được công bố trong [CCN5]. Bằng lý thuyết và thực nghiệm

chứng minh phương pháp đề xuất tương đương với các phương pháp

khác trên tiêu chí độ chính xác phân lớp dữ liệu.

Đối tượng nghiên cứu của luận án là các bảng quyết định có miền giá trị

thực và bảng quyết định mờ.

Phạm vi nghiên cứu của luận án tập trung trọng tâm vào hai bài toán:

1) Bài toán thứ nhất là rút gọn thuộc tính của bảng quyết định miền giá trị

thực trong bước tiền xử lý số liệu.

2) Bài toán thứ hai là rút gọn thuộc tính và sinh luật quyết định của bảng

quyết định mờ.

Phương pháp nghiên cứu của luận án là nghiên cứu lý thuyết và nghiên

cứu thực nghiệm. Về nghiên cứu lý thuyết: Các định lý, mệnh đề trong luận án

được chứng minh chặt chẽ dựa vào các kiến thức cơ bản và các kết quả nghiên cứu

đã công bố. Về nghiên cứu thực nghiệm: Luận án thực hiện cài đặt các thuật toán,

chạy thử nghiệm thuật toán với các bộ số liệu lấy từ kho dữ liệu UCI [99], so sánh

và đánh giá kết quả thực nghiệm so với kết quả nghiên cứu lý thuyết và các công bố

khác để khẳng định được tính đúng đắn của kết quả nghiên cứu.

7

Bố cục của luận án gồm phần mở đầu và bốn chương nội dung, phần kết

luận và danh mục các tài liệu tham khảo. Cụ thể như sau:

Chương 1 trình bày một số khái niệm cơ bản gồm: Một số khái niệm về lý

thuyết tập thô; một số khái niệm cơ bản về tập thô mờ xác định trên bảng quyết định

miền giá trị thực; một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ;

tổng quan về bài toán rút gọn thuộc tính. Các kiến thức cơ sở này được sử dụng trong

các chương sau, là các đóng góp chính của luận án.

Chương 2 trình bày các kết quả nghiên cứu về các phương pháp rút gọn thuộc

tính trong bảng quyết định miền giá trị thực sử dụng miền dương mờ và khoảng cách

Jaccard mờ, bao gồm:

1) Đề xuất cải tiến một thuật toán rút gọn thuộc tính của bảng quyết định dựa

trên miền dương mờ; đây là phương pháp tìm một tập rút gọn sử dụng

quan hệ tương đương mờ theo tiếp cận tập thô mờ có độ phức tạp tính toán

là hàm đa thức và bảo toàn miền dương mờ. Phương pháp đề xuất khắc

phục được một số hạn chế về thời gian tính toán hàm mũ như công bố của

nhóm tác giả trong [44] và bảo toàn miền dương mờ, tìm được một tập rút

gọn với số thuộc tính là nhỏ nhất, loại bỏ được các thuộc tính dư thừa như

trong công bố của nhóm tác giả trong [38].

2) Xây dựng thuật toán rút gọn thuộc tính của bảng quyết định miền giá trị

thực sử dụng khoảng cách Jaccard mờ. Khoảng cách Jaccard mờ được

nghiên cứu sinh xây dựng dựa trên khoảng cách Jaccard giữa hai tập hợp

hữu hạn [4] để đo khoảng cách giữa hai tập mờ. Kết quả so sánh đánh giá

phương pháp đề xuất với các phương pháp khác dựa trên hai tiêu chuẩn:

Độ chính xác phân lớp dữ liệu và thời gian thực hiện của phương pháp.

Chương 3 trình bày kết quả nghiên cứu về phương pháp rút gọn thuộc tính

trong bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách phân hoạch mờ,

bao gồm:

8

1) Đề xuất độ đo khoảng cách phân hoạch mờ dựa trên khoảng cách mờ giữa

hai tập mờ.

2) Xây dựng thuật toán rút gọn thuộc tính của bảng quyết định miền giá trị

thực sử dụng khoảng cách phân hoạch mờ. Kết quả so sánh đánh giá

phương pháp đề xuất với các phương pháp khác dựa trên hai tiêu chuẩn:

Độ chính xác phân lớp dữ liệu và thời gian thực hiện của phương pháp.

Chương 4 trình bày phương pháp rút gọn thuộc tính và sinh luật quyết

định của bảng quyết định mờ dựa trên tập thô mờ. Phương pháp rút gọn thuộc tính

sử dụng miền dương mờ, phương pháp sinh luật sử dụng khoảng cách Jaccard mờ.

Dựa trên lý thuyết và các thực nghiệm, chứng minh rằng phương pháp đề xuất là

tương đương với các phương pháp khác dựa trên tiêu chí độ chính xác phân lớp dữ

liệu và thời gian thực hiện; độ phức tạp tính toán của các phương pháp sinh luật

quyết định trong trường hợp tổng quát là ( )O C D U với |C| là số biến ngôn ngữ của

tất cả các thuộc tính điều kiện, |D| là số biến ngôn ngữ của tất cả các thuộc tính

quyết định, |U| là số đối tượng của bảng dữ liệu.

Cuối cùng, phần kết luận nêu những đóng góp của luận án, hướng phát triển

tiếp theo và những vấn đề quan tâm của tác giả.

9

CHƯƠNG 1. CÁC KIẾN THỨC CƠ SỞ

Nội dung của chương này trình bày những kiến thức cơ sở về tập thô, tập thô

mờ liên quan đến bài toán rút gọn thuộc tính và sinh luật quyết định; trình bày một số

khái niệm cơ bản về tập thô mờ trên bảng quyết định miền giá trị thực để giải quyết

bài toán rút gọn thuộc tính sử dụng quan hệ tương đương mờ; trình bày một số khái

niệm cơ bản về tập thô mờ trên bảng quyết định mờ để giải quyết bài toán rút gọn

thuộc tính và sinh luật quyết định dựa trên các phân hoạch mờ xác định trước trên

mỗi thuộc tính. Ngoài ra, Chương 1 trình bày tổng quan về rút gọn thuộc tính trong

bảng quyết định theo tiếp cận lý thuyết tập thô truyền thống, là cơ sở để phát triển

các kỹ thuật này theo tiếp cận tập thô mờ và định hướng nghiên cứu của luận án. Các

kết quả nghiên cứu được trình bày trong các chương tiếp theo của luận án.

1.1. Một số khái niệm về tập thô

Phần này trình bày tóm tắt một số khái niệm cơ bản về lý thuyết tập thô

truyền thống của Pawlak [66].

1.1.1. Hệ thông tin

Hệ thông tin là một cặp ,IS U A trong đó U là tập hữu hạn khác rỗng các

đối tượng gọi là tập vũ trụ; A là tập hữu hạn khác rỗng các thuộc tính.

Xét hệ thông tin ,IS U A , mỗi tập con thuộc tính P A xác định một

quan hệ hai ngôi trên U , ký hiệu là IND P , xác định bởi

( ) {( , ) | , ( ) ( )}IND P u v U U a P a u a v (1.1)

Ký hiệu a u là giá trị thuộc tính a tại đối tượng u, IND P được gọi là quan

hệ P-không phân biệt được. Dễ thấy rằng đây là một quan hệ tương đương trên U . Nếu

( , ) ( )u v IND P thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong

P . Quan hệ tương đương IND P xác định một phân hoạch trên U , ký hiệu là

/U IND P hay /U P , cụ thể:

10

/ : /U P a P U IND a (1.2)

với : , ,A B X Y X A Y B X Y .

Ký hiệu lớp tương đương trong phân hoạch /U P chứa đối tượng u là Pu , khi đó

,P

u v U u v IND P .

1.1.2. Các tập xấp xỉ

Cho hệ thông tin ,IS U A và tập đối tượng X U . Với một tập thuộc tính

P A cho trước, chúng ta có các lớp tương đương của phân hoạch /U P . Trong lý

thuyết tập thô truyền thống, để biểu diễn X thông qua các lớp tương đương của

/U P (còn gọi là biểu diễn X bằng tri thức có sẵn P), người ta xấp xỉ X bởi hợp của

một số hữu hạn các lớp tương đương của /U P . Có hai cách xấp xỉ tập đối tượng X

thông qua tập thuộc tính P, được gọi là P-xấp xỉ dưới và P-xấp xỉ trên của X, ký

hiệu lần lượt là PX và PX , được xác định như sau:

,P

PX u U u X PPX u U u X (1.3)

Tập PX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập

PX bao gồm các phần tử của U có khả năng thuộc vào X dựa vào tập thuộc tính P.

Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập

PPN X PX PX : P-miền biên của X,

U P X : P-miền ngoài của X. (1.4)

Dễ thấy P-miền biên của X là tập chứa các đối tượng có thể thuộc X, còn P-

miền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các lớp

của phân hoạch /U P , các xấp xỉ dưới và trên của X có thể viết lại

/P X Y U P Y X , /P X Y U P Y X (1.5)

Trong trường hợp PPN X thì X được gọi là tập rõ, ngược lại X được

gọi là tập thô.

11

1.1.3. Miền dương

Xét hệ thông tin ,IS U A với ,P Q A , ta gọi tập /

( )PX U Q

POS Q PX

là

P-miền dương của Q. Dễ thấy ( )PPOS Q là tập các đối tượng trong U được phân lớp

đúng vào các lớp của /U Q sử dụng tập thuộc tính P. Rõ ràng, ( )PPOS Q là tập tất cả

các đối tượng u sao cho với mọi v U mà u P v P ta đều có u Q v Q . Nói

một cách hình thức, ( )P QPPOS Q u U u u .

1.1.4. Bảng quyết định

Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng

dụng là bảng quyết định. Bảng quyết định ,DT U C D là một dạng đặc biệt của

hệ thông tin, trong đó tập các thuộc tính A bao gồm hai tập con tách biệt nhau: Tập

các thuộc tính điều kiện C và tập các thuộc tính quyết định D với C D .

Bảng quyết định DT được gọi là nhất quán khi và chỉ khi phụ thuộc hàm CD

nghiệm đúng, nghĩa là với mọi , ,u v U u C v C kéo theo u D v D . Ngược lại

DT là không nhất quán. Dễ thấy bảng quyết định DT là nhất quán khi và chỉ khi

CPOS D U . Trong trường hợp bảng không nhất quán thì CPOS D chính là tập con

cực đại của U sao cho phụ thuộc hàm C D đúng.

Bảng quyết định DT được gọi là bảng quyết định miền giá trị thực nếu miền giá

trị của mọi c C là các giá trị số thực.

1.2. Một số khái niệm về tập thô mờ xác định trên bảng quyết định

miền giá trị thực

Trong mục này, luận án trình bày một số khái niệm về tập thô mờ xác định

trên bảng quyết định miền giá trị thực. Các khái niệm này được sử dụng để xây

dựng phương pháp rút gọn thuộc tính trong bảng quyết định miền giá trị thực theo

tiếp cận tập thô mờ, được trình bày ở Chương 2 và Chương 3 của luận án.

12

1.2.1. Bảng quyết định miền giá trị thực

Cho bảng quyết định ,DT U C D , nếu miền giá trị của mọi thuộc tính

c C là các giá trị số thực thì bảng quyết định DT được gọi là bảng quyết định miền

giá trị thực.

Ví dụ 1.1. Bảng quyết định miền giá trị thực ,DT U C D cho ở Bảng 1.1 với

1 2 3 4, , ,U u u u u , 1 2 3 4, , ,C c c c c .

Bảng 1.1. Bảng quyết định miền giá trị thực

U 1c 2c 3c 4c D

1u 2.5045 5.4072 1.4741 5.9308 0

2u 1.9559 4.0554 7.6407 9.4846 1

3u 4.3517 9.5647 3.4221 4.7597 1

4u 2.7831 9.2830 4.8055 9.8475 1

1.2.2. Quan hệ tương đương mờ

Cho bảng quyết định miền giá trị thực ,DT U C D , một quan hệ R xác

định trên miền giá trị thuộc tính được gọi là quan hệ tương đương mờ nếu thỏa mãn

các điều kiện sau với mọi , ,x y z U

1) Tính phản xạ (reflexive): , 1R x x ;

2) Tính đối xứng (symetric): , ,R x y R y x ;

3)Tính bắc cầu max-min (max-min transitive): , min , , ,R x z R x y R y z ;

Cho hai quan hệ tương đương mờ PR và QR xác định trên tập thuộc tính P và Q,

khi đó với mọi ,x y U ta có [72]:

1) , ,P Q P QR R R x y R x y ; (1.6)

13

2) , max , , ,P Q P Q P QR R R R x y R x y R x y ; (1.7)

3) , min , , ,P Q P Q P QR R R R x y R x y R x y ; (1.8)

4) , ,P Q P QR R R x y R x y . (1.9)

1.2.3. Ma trận tương đương mờ

Cho bảng quyết định miền giá trị thực ,DT U C D với 1 2, ,..., nU x x x

và PR là quan hệ tương đương mờ xác định trên tập thuộc tính P C . Quan hệ PR

được biểu diễn bởi ma trận tương đương mờ ijPn n

M R p

như sau:

11 12 1

21 22 2

1 2

...

...( )

... ... ... ......

n

nP

n n nn

p p pp p p

M R

p p p

(1.10)

với ,Pij i jp R x x là giá trị của quan hệ giữa hai đối tượng ix và jx trên tập thuộc tính

P , 0,1ijp , , , 1 ,i jx x U i j n .

Trong các công trình [24], [69], [72], các tác giả sử dụng quan hệ tương

đương mờ theo công thức (1.11) để xây dựng các ma trận tương đương mờ trực tiếp

từ các thuộc tính của bảng quyết định có miền giá trị thực

max min max min

1 4* 0.25

0,

i j i j

ij

p x p x p x p x, ifp p p p p

otherwise

(1.11)

với ip x là giá trị của thuộc tính p tại đối tượng ix , max min,p p tương ứng là giá trị

lớn nhất, nhỏ nhất của thuộc tính p. Dễ thấy, giá trị các phần tử của ma trận tương

đương mờ thuộc đoạn [0,1], nếu max minp p (tử thức và mẫu thức đều bằng 0) thì

định nghĩa 1ijp . Khi đó sử dụng quan hệ tương đương mờ ở công thức (1.11) và

quan hệ tương đương ở công thưc (1.12) là như nhau

14

1ijp nếu j i Px x và 0ijp nếu j i P

x x (1.12)

Nói cách khác, lớp tương đương i Px có thể xem là lớp đương đương mờ, ký

hiệu là i Px , với hàm thuộc 1

i Pjx x nếu j i P

x x và 0i P

jx x nếu

.j i Px x

Do đó, luận án sử dụng quan hệ tương đương mờ xác định theo công thức

(1.11) để thực hiện các phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết

định miền giá trị thực. Đối với các bảng quyết định có miền giá trị hỗn hợp (thuộc

tính định danh và thuộc tính số), luận án sử dụng kết hợp công thức (1.11) và (1.12)

để xây dựng các ma trận tương đương mờ, ma trận tương đương mờ của các thuộc

tính định danh được xây dựng theo công thức (1.12).

1.2.4. Phân hoạch mờ và lớp tương đương mờ

Cho bảng quyết định miền giá trị thực ,DT U C D và ,P Q C . Theo

[72] ta có P aa PR R và P Q P QR R R , nghĩa là với mọi ,x y U ,

, min , , ,P Q P QR x y R x y R x y . Giả sử ijPn n

M R p

và ij( )Q

n nM R q

là

ma trận tương đương mờ của PR , QR , khi đó ma trận tương đương mờ trên tập

thuộc tính S P Q là:

ij( )S P Qn n

M R M R s

với ij ij ijmin ,s p q (1.13)

Với P C , 1 2, ,..., nU x x x , quan hệ tương đương mờ PR xác định một phân

hoạch mờ / PP U R trên U

11/ ,...,

P P P

nP P i nR R Ri

R U R x x x

(1.14)

với 1 1 2 2/ / ... /Pi i i in nR

x p x p x p x là một tập mờ đóng vai trò là một lớp tương

đương mờ (fuzzy equivalent class) của đối tượng ix . Hàm thuộc của các đối tượng

xác định bởi:

15

, ,Pi RP

Pj i j i j ijx Rx x x R x x p với mọi jx U . (1.15)

Khi đó, lực lượng của lớp đương đương mờ Pi Rx được tính bởi [72]:

1P

n

i ijRj

x p

(1.16)

Ví dụ 1.2. Cho bảng quyết định miền giá trị thực (Bảng 1.1) của Ví dụ 1.1.

Ma trận tương đương mờ của thuộc tính 1c xác định theo công thức (1.11)

được tính

1

1 0.0841 0 0.53490.0841 1 0 0

0 0 1 00.534

( )

9 0 0 1

cM R

Ma trận tương đương mờ của thuộc tính D xác định theo công thức (1.11)

hoặc (1.12) cho kết quả như nhau

1 0 0 00 1 1 10 1 1 1

( )

0 1 1 1

DM R

Khi đó, lớp tương đương mờ của đối tượng 1x theo quan hệ 1cR của ma trận

1cM R là một tập mờ, ký hiệu là 1

1 Rcx được xác định như sau:

1

1 1 2 3 41/ 0.0841/ 0 / 0.5349 /Rc

x x x x x

Ký hiệu dấu “/” biểu diễn cặp giá trị của hàm thuộc với phần tử cụ thể tương

ứng của một đối tượng trong tập mờ. Ký hiệu dấu “+” biểu diễn sự kết hợp của các

phần tử trong tập mờ [40].

Phân hoạch mờ của quan hệ 1Rc thông qua ma trận 1cM R ở công thức

(1.14) được xác định như sau:

16

1 111 1 1 1

4

1 2 3 41

/ , , ,c c i Rc Rc Rc Rc Rci

R U R x x x x x

Các lớp tương đương mờ được xác định theo quan hệ 1Rc là:

1

1 1 2 3 41/ 0.0841/ 0 / 0.5349 /Rc

x x x x x

1

2 1 2 3 40.0841/ 1/ 0/ 0/Rc

x x x x x

1

3 1 2 3 40 / 0 / 1/ 0 /Rc

x x x x x

1

4 1 2 3 40.5349/ 0/ 0/ 1/Rc

x x x x x

Lực lượng của lớp tương đương mờ của đối tượng 1x theo quan hệ 1cR của

ma trận 1cM R , ký hiệu là 1

1 Rcx được xác định như sau:

1

1 1 0.0841 0 0.5 4 1. 199 63Rc

x

Gọi là tập tất cả các phân hoạch mờ trên U xác định bởi các quan hệ tương

đương mờ trên các tập thuộc tính, khi đó được gọi là một không gian phân hoạch

mờ trên U. Như vậy, một không gian phân hoạch mờ được xác định bởi quan hệ

tương đương mờ định nghĩa trực tiếp trên miền giá trị thuộc tính. Mỗi tập thuộc tính

P A xác định một phân hoạch / PP U R .

Xét phân hoạch mờ 1 , ...,P P

P nR RR x x với 1 1/ ... /

Pi i in nRx p x p x .

Trường hợp đặc biệt, nếu 0ijp với ,i j n thì 0Pi R

x và khi đó phân hoạch mờ

PR được gọi là mịn nhất, ký hiệu là . Khi đó 1 ,..., nx x

với

1/ , , , 0n

i ij j ijjx x i j n

. Nếu 1ijp với ,i j n thì Pi R

x U với i n và

khi đó phân hoạch mờ PR được gọi là thô nhất, ký hiệu là . Khi đó

1 , ..., nx x

với 1/ , , , 1n

i ij j ijjx x i j n

.

17

1.2.5. Các tập xấp xỉ mờ

Cho bảng quyết định miền giá trị thực ,DT U C D . Giả sử PR là một

quan hệ tương đương mờ xác định trên tập thuộc tính P C . Theo mục (1.2.4),

Pi Rx là một tập mờ đóng vai trò là một lớp tương đương mờ của đối tượng ix U .

Hàm thuộc của các đối tượng jx U xác định bởi:

, ,

Pi RPPj i j i j ijx Rx x x R x x p với mọi jx U (1.17)

với ijPn n

M R p

là ma trận tương đương mờ của PR .

Cho X là một tập mờ trên U và PR là một quan hệ tương đương mờ trên tập

thuộc tính P C . Khi đó, tập xấp xỉ dưới PR X và tập xấp xỉ trên PR X của X là

các tập mờ và hàm thuộc của các đối tương x U được xác định như sau [32], [33],

[44], [47]:

/

sup , inf 1 ,P

PF F XR X y UF U R

x min x max y y

(1.18)

/

sup ,sup ,P

PF F XR X y UF U R

x min x min y y

(1.19)

với ký hiệu inf, sup tương ứng là cận dưới đúng và cận trên đúng của tập hợp X; F

là các lớp tương đương mờ của phân hoạch mờ / PU R . Bộ , PPR X R X được gọi

là tập thô mờ [32], [33], [44], [47]. Mô hình tập thô mờ này được xây dựng trên

quan hệ tương đương mờ xác định trên miền giá trị thuộc tính của bảng quyết định

giá trị thực.

1.2.6. Miền dương mờ

Theo lý thuyết tập thô truyền thống, khái niệm miền dương được định nghĩa

là giao của tất cả các tập xấp xỉ dưới. Trong lý thuyết tập thô mờ, với hai quan hệ

tương đương mờ ,P QR R xác định trên hai tập thuộc tính ,P Q C , miền dương mờ

18

P

QRPOS R là một tập mờ, hàm thuộc của các đối tượng x U được xác định như

sau:

/sup

Q PR P QR XPOS R

X U Rx x

(1.20)

1.3. Một số khái niệm về tập thô mờ xác định trên bảng quyết định mờ

Mục này trình bày một số khái niệm về tập thô mờ xác định trên bảng quyết

định mờ. Các khái niệm này được sử dụng để xây dựng phương pháp rút gọn thuộc

tính và sinh luật trực tiếp trên bảng quyết định mờ theo tiếp cận tập thô mờ. Các

khái niệm này được sử dụng ở Chương 4 của luận án.

1.3.1. Bảng quyết định mờ

Bảng quyết định mờ là bảng quyết định mà các thuộc tính là các tập mờ

(fuzzy set). Bảng quyết định ,DT U C D với 1 9, ...,U u u , C ={Thời tiết,

Nhiệt độ, Độ ẩm}, D ={Quyết định} cho ở Bảng 1.2 dưới đây là một ví dụ minh họa

về bảng quyết định mờ [19], [21].

Bảng 1.2. Bảng quyết định mờ chơi thể thao

TT Thời tiết Nhiệt độ Độ ẩm Quyết định

Có

nắng

Có

mây

Có

mưa Nóng

Trung

bình Lạnh

Ẩm

ướt

Bình

thường

Bóng

chuyền Bơi

Lướt

ván

1u 0.3 0.7 0 0.2 0.7 0.1 0.3 0.7 0.1 0.9 0

2u 1 0 0 1 0 0 0.7 0.3 0.8 0.2 0

3u 0 0.3 0.7 0 0.7 0.3 0.6 0.4 0 0.2 0.8

4u 0.8 0.2 0 0 0.7 0.3 0.2 0.8 0.6 0.3 0.1

5u 0.5 0.5 0 1 0 0 0 1 0.6 0.8 0

6u 0 0.2 0.8 0 1 0 0 1 0 0.7 0.3

19

7u 1 0 0 0.7 0.3 0 0.2 0.8 0.7 0.4 0

8u 0.1 0.8 0.1 0 0.9 0.1 0.7 0.3 0 0 1

9u 0.3 0.7 0 0.9 0.1 0 1 0 0 0 1

Trên bảng quyết định mờ, mỗi thuộc tính chứa các biến ngôn ngữ hay là các

tập mờ, được biểu diễn bởi các cột. Ví dụ thuộc tính “Thời tiết”, mỗi thành phần

“Có nắng”, “Có mây” hoặc “Có mưa” là các biến ngôn ngữ hay các tập mờ. Giá trị

của đối tượng trên các tập mờ chính là giá trị của hàm thuộc, ví dụ: μ Có nắng (u1) =

0.3.

Bảng quyết định mờ thường thể hiện ở ba dạng sau [21]: Tập thuộc tính điều

kiện là tập rõ và tập thuộc tính quyết định là tập mờ; tập thuộc tính điều kiện là tập

mờ và tập thuộc tính quyết định là tập rõ; cả tập thuộc tính điều kiện và tập thuộc

quyết định đều là các tập mờ.

Từ bảng quyết định gốc (ví dụ từ các bảng dữ liệu từ kho dữ liệu UCI [99]),

việc xây dựng bảng quyết định mờ phụ thuộc vào việc lựa chọn số lượng biến ngôn

ngữ (tập mờ) cho mỗi thuộc tính và phụ thuộc vào việc lựa chọn hàm thuộc cho tập

mờ. Ví dụ: Thuộc tính “nhiệt độ cơ thể” có thể sử dụng ba biến ngôn ngữ (3 tập mờ)

là nóng, trung bình, lạnh...và phụ thuộc vào ngữ cảnh của mỗi bài toán cụ thể mà có

các phương án lựa chọn tốt nhất. Trong phạm vi luận án, việc xây dựng phương

pháp rút gọn thuộc tính và sinh luật được thực hiện trên bảng quyết định mờ. Còn

việc chuyển đổi từ bảng quyết định gốc sang bảng quyết định mờ là lĩnh vực nghiên

cứu khác, ngoài phạm vi của luận án.

Trong tập rõ, người ta sử dụng hàm thuộc để xác định một phần tử có thuộc

về tập A hay không theo công thức (1.21)

1

( )0A

if u Au u U

if u A

(1.21)

20

Ngược lại, lý thuyết tập mờ cho phép xác định mức độ một phần tử u thuộc

về một tập mờ A là 0 ( ) 1,A u u U . Cho A và B là hai tập mờ của tập vũ trụ U

với hàm thuộc A , B tương ứng. Một số phép toán giữa hai tập mờ A và B được

xác định như sau [93]:

1) ( ) max{ ( ), ( )},A B A Bu u u u U

; (1.22)

2) ( ) min{ ( ), ( )},A B A Bu u u u U

; (1.23)

3) ( ) 1 ( ),AAu u u U . (1.24)

1.3.2. Phân hoạch mờ và lớp tương đương mờ

Như đã trình bày ở mục 1.3.1, với bảng quyết định mờ ,DT U C D , mỗi

thuộc tính xác định được các tập mờ, mỗi tập mờ xác định được hàm thuộc của tất

cả các đối tượng, là giá trị của đối tượng trên cột (tập mờ) của bảng quyết định mờ.

Cho bảng quyết định mờ ,DT U C D , với thuộc tính a C , phân hoạch

mờ /U a được xác định là các tập mờ (biến ngôn ngữ) của thuộc tính a C . Khi

đó, phân hoạch mờ sinh ra bởi tập thuộc tính P C được xác định như sau:

/ : /U P a P U a (1.25)

với : , ,A B X Y X A Y B X Y .

Mỗi phần tử trong phân hoạch mờ /U P là một lớp tương đương mờ. Hàm

thuộc của các đối tượng được định nghĩa dựa trên lý thuyết tập mờ như sau:

1 1 2... , ,...,n nF F F F Fx min x x x (1.26)

với iF là các lớp tương đương mờ đã được xác định.

21

1.3.3. Các tập xấp xỉ mờ

Cho bảng quyết định mờ ,DT U C D và P C . Với tập mờ X , dựa vào

các lớp tương đương mờ, tập xấp xỉ dưới mờ và xấp xỉ trên mờ của tập X là các

tập mờ và hàm thuộc của các đối tượng được xác định như sau:

/sup , inf 1 ,F FPX Xy UF U P

x min x max y y

(1.27)

/sup ,sup ,F F XP X y UF U P

x min x min y y

(1.28)

với ký hiệu inf X , sup X tương ứng là cận dưới đúng và cận trên đúng của tập hợp

X . F là các lớp tương đương mờ của phân hoạch mờ /U P được tính trên bảng

quyết định mờ theo mục 1.3.2. Bộ ,PX PX được gọi là một tập thô mờ được xây

dựng trên các phân hoạch mờ xác định trước trên mỗi thuộc tính của bảng quyết

định mờ.

1.3.4. Miền dương mờ

Cho bảng quyết định mờ ,DT U C D với ,P Q C . Khi đó, miền dương

mờ là tập mờ, hàm thuộc của các đối tượng được tính trực tiếp từ bảng quyết định

mờ bởi các tập xấp xỉ dưới mờ như sau [47]:

/

supP P XPOS Q

X U Qx x

(1.29)

Lực lượng của miền dương mờ được tính theo công thức [47]

P PPOS Q x U POS Qx x

(1.30)

Ví dụ 1.3. [47] Bảng quyết định mờ ,DT U C D cho ở Bảng 1.3 với

, ,C a b c , D d .

22

Bảng 1.3. Bảng quyết định mờ của Ví dụ 1.3

Đối

tượng

a b c d

Na Za Nb Zb Nc Zc

1u 0.8 0.2 0.6 0.4 1 0 No

2u 0.8 0.2 0 0.6 0.2 0.8 Yes

3u 0.6 0.4 0.8 0.2 0.6 0.4 No

4u 0 0.4 0.6 0.4 0 1 Yes

5u 0 0.6 0.6 0.4 0 1 Yes

6u 0 0.6 0 1 0 1 No

Các lớp tương đương mờ sinh bởi các tập thuộc tính a , b , c tương

ứng là: / { } ,a aU a N Z , / {b} ,b bU N Z , / {c} ,c cU N Z với ,a aN Z là hai tập

mờ xác định trên thuộc tính a ; ,b bN Z là hai tập mờ xác định trên thuộc tính b và

,c cN Z là hai tập mờ xác định trên thuộc tính c ;

1 3 6 2 4 5/ / { } , , , , ,U D U d u u u u u u .

Tính các tập xấp xỉ dưới đối với các thuộc tính a , b và c . Xét thuộc tính a ,

với lớp tương đương 1 3 61 3 6 , ,, , , a u u uX u u u x được tính:

1 3 61 3 6 , ,, ,/{a}

sup , inf 1 ,F F u u ua u u u y UF Ux min x max y y

Xét lớp tương đương mờ aN trên thuộc tính a , ta có:

1 3 6, ,, inf 1 ,a a u u uN Ny U

min x max y y

Đối tượng u1 được tính:

0.8,inf 1,0.2,1,0.4,1,1 0.2min

23

Tương tự đối với aZ

0.2, inf 1,0.8,1,0.6,0.4,1 0.2min

Vì vậy 11,3,6 0.2a u . Tính a -xấp xỉ dưới của 1 3 6, ,X u u u đối với các

đối tượng khác bằng cách tương tự ta có: 1 3 6 2, , 0.2a u u u u ,

1 3 6 3, , 0.4a u u u u ,

1 3 6 4, , 0.4a u u u u ,

1 3 6 5, , 0.4a u u u u , 1 3 6 6, , 0.4a u u u u .

Tính tương tự với lớp tương đương 2 4 52 4 5 , ,, , , a u u uX u u u x , miền dương

mờ đối với các đối tượng được tính bởi công thức (1.29). Ta có: 1 0.2aPOS d u ,

2 0.2aPOS d u ,

3 0.4aPOS d u ,

4 0.4aPOS d u ,

5 0.4aPOS d u ,

6 0.4aPOS d u . Từ đó, lực lượng của miền dương mờ của {d} trên { }a tính theo

công thức (1.30) là 2aPOS d x .

Tính tương tự đối với thuộc tính b và c , ta có: 2.4bPOS d x

,

1.6cPOS d x

,

{a , b}3.4POS d x

,

{b ,c}

3.2POS d x

,

{a , b , c} C3.4POS d POS dx x

.

1.4. Rút gọn thuộc tính trong bảng quyết định

1.4.1. Tổng quan về rút gọn thuộc tính

Rút gọn thuộc tính là bài toán quan trọng trong bước tiền xử lý số liệu với

mục tiêu là giảm số chiều dữ liệu (số thuộc tính) bằng cách loại bỏ dữ liệu dư thừa

nhằm nâng cao hiệu quả của các thuật toán khai phá dữ liệu và học máy. Rút gọn

thuộc tính của bảng quyết định là quá trình lựa chọn tập con của tập thuộc tính điều

kiện mà bảo toàn thông tin phân lớp của bảng quyết định, gọi là tập rút gọn (reduct).

Kết quả rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu quả thực hiện các nhiệm vụ

24

khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu của các kết quả thu

được.

Các kỹ thuật rút gọn thuộc tính được phân thành hai loại: Lựa chọn thuộc

tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation) [44].

Lựa chọn thuộc tính là chọn một tập con tốt nhất (theo một nghĩa nào đó) từ

tập dữ liệu ban đầu.

Biến đổi thuộc tính thực hiện việc biến đổi các thuộc tính ban đầu thành một

tập các thuộc tính mới với số lượng ít hơn sao cho bảo tồn được thông tin nhiều

nhất.

Các công trình nghiên cứu về rút gọn thuộc tính thường tập trung vào nghiên

cứu các kỹ thuật lựa chọn thuộc tính. Lựa chọn thuộc tính là qúa trình lựa chọn một

tập con gồm P thuộc tính từ tập gồm A thuộc tính (P A) sao cho không gian thuộc

tính được thu gọn lại một cách tối ưu theo một tiêu chuẩn nhất định. Việc tìm ra một

tập con thuộc tính tốt nhất thường khó thực hiện; bài toán liên quan đến vấn đề này

thuộc lớp bài toán NP-khó. Nhìn chung, một thuật toán lựa chọn thuộc tính thường

bao gồm bốn khâu cơ bản:

Tạo lập tập con

Đánh giá tập con

Kiểm tra điều kiện dừng

Kiểm chứng kết quả.

Tạo lập tập con thuộc tính là quá trình tìm kiếm liên tiếp nhằm tạo ra các tập

con để đánh giá, lựa chọn. Giả sử có A thuộc tính trong tập dữ liệu ban đầu, khi đó

số tất cả các tập con từ A thuộc tính sẽ là 2 A . Như vậy, rất khó khăn khi tìm tập con

tối ưu từ tất cả các tập con này. Phương pháp chung để tìm tập con thuộc tính tối ưu

là lần lượt tạo ra các tập con để so sánh. Mỗi tập con sinh ra bởi một thủ tục sẽ được

đánh giá theo một tiêu chuẩn nhất định và đem so sánh với tập con tốt nhất trước

đó. Nếu tập con này tốt hơn, nó sẽ thay thế tập cũ. Quá trình tìm kiếm tập con thuộc

tính tối ưu sẽ dừng khi một trong bốn điều kiện sau xảy ra:

25

Đã thu được số thuộc tính quy định

Số bước lặp quy định cho quá trình lựa chọn đã hết

Việc thêm vào hay loại bớt một thuộc tính nào đó không cho một tập con trở

nên tốt hơn

Đã thu được tập con tốt nhất theo tiêu chuẩn đánh giá. Tập con tốt nhất cuối

cùng phải được kiểm chứng thông qua việc tiến hành các phép kiểm định, so sánh

các kết quả khai phá với tập thuộc tính “tốt nhất” này và tập thuộc tính ban đầu trên

các tập dữ liệu khác nhau. Quá trình lựa chọn thuộc tính được biểu diễn như hình

sau [44]:

Hình 1.1. Quá trình lựa chọn thuộc tính

Hiện nay có hai cách tiếp cận chính đối với bài toán lựa chọn thuộc tính: Lọc

(filter) và đóng gói (wrapper). Cách tiếp cận kiểu lọc thực hiện việc lựa chọn thuộc

tính độc lập với các thuật toán khai phá sử dụng sau này. Các thuộc tính được chọn

chỉ dựa trên độ quan trọng của chúng trong việc mô tả dữ liệu. Ngược lại với cách

tiếp cận lọc, lựa chọn thuộc tính kiểu đóng gói tiến hành việc lựa chọn bằng cách áp

dụng ngay kỹ thuật khai phá cụ thể với tập rút gọn vừa thu được, độ chính xác của

kết quả được lấy làm tiêu chuẩn để lựa chọn các tập con thuộc tính. Các hướng tiếp

cận lọc và đóng gói của bài toán lựa chọn thuộc tính được biểu diễn [44].

Tập con phù hợp

Tập

thuộc tính Tạo lập tập con Đánh giá

Điều kiện dừng

Kiểm chứng kết quả

Tập con

Sai Đúng

26

Hình 1.2. Lựa chọn thuộc tính theo hướng tiếp cận lọc & đóng gói

1.4.2. Tổng quan về rút gọn thuộc tính trong bảng quyết định theo tiếp

cận tập thô

Lý thuyết tập thô được xem là công cụ hiệu quả để giải quyết bài toán rút

gọn thuộc tính và được cộng đồng nghiên cứu về tập thô thực hiện lâu nay [1]-[8].

Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đều thực hiện

trên các bảng quyết định có miền giá trị rời rạc, nghĩa là các bảng quyết định thu

được sau khi thực hiện bước rời rạc hóa dữ liệu. Đối với một bảng quyết định có thể

có nhiều tập rút gọn khác nhau. Tuy nhiên, thực tế thường không đòi hỏi tìm tất cả

các tập rút gọn mà chỉ cần tìm được một tập rút gọn (tốt nhất) theo một tiêu chuẩn

đánh giá nào đó là đủ. Theo lý thuyết tập thô, Pawlak đưa ra khái niệm tập rút gọn

dựa trên miền dương và xây dựng thuật toán heuristic tìm một tập rút gọn tốt nhất

của bảng quyết định dựa trên tiêu chí đánh giá là độ quan trọng của thuộc tính.

Phương pháp heuristic tìm một tập rút gọn tốt nhất bao gồm các bước: Định nghĩa

tập rút gọn, định nghĩa độ quan trọng của thuộc tính và sau đó xây dựng thuật toán

heuristic tìm một tập rút gọn. Phương pháp rút gọn thuộc tính heuristic được mô

hình hóa như sau:

Đóng gói

Tập thuộc tính Lựa chọn thuộc tính tập con

Lọc

Giải thuật học

Tập thuộc tính Tạo lập tập con Giải thuật học

Các tập con

Đánh giá

27

Hình 1.3. Mô hình phương pháp heuristic rút gọn thuộc tính

Các thuật toán heuristic tìm tập rút gọn thường được xây dựng theo hai

hướng tiếp cận khác nhau: Hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp

cận từ trên xuống (top-down).

Hướng tiếp cận Botton-Up

Xuất phát từ tập rỗng hoặc tập lõi.

Thêm dần các thuộc tính có độ quan trọng lớn nhất cho đến khi thu

được Reduct.

Kiểm tra tính tối thiểu của tập rút gọn thu được.

Hướng tiếp cận Top-Down

Xuất phát từ tập thuộc tính ban đầu.

Loại bỏ thuộc tính có độ quan trọng nhỏ nhất cho đến khi thu được

Reduct.

Kiểm tra tính tối thiểu của tập rút gọn thu được.

Tập thuộc tính ban đầu

Định nghĩa tập rút gọn

Định nghĩa độ quan trọng của thuộc tính

Xây dựng thuật toán heuristic tìm một tập rút gọn

Tập rút gọn

28

Tiêu chuẩn so sánh, đánh giá các phương pháp là số lượng thuộc tính của tập

rút gọn, độ phức tạp của thuật toán heuristic tìm tập rút gọn và độ chính xác phân

lớp của tập dữ liệu sau khi rút gọn.

Thời gian qua đã chứng kiến sự phát triển mạnh mẽ và sôi động của lĩnh vực

nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô [1]-[8], [22], [28]-[30],

[64]. Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu

các phương pháp rút gọn thuộc tính trong bảng quyết định. Các phương pháp chính

là: Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong

đại số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng

entropy thông tin, phương pháp sử dụng khoảng cách. Kỹ thuật sử dụng khoảng

cách tuy ra đời muộn hơn nhưng đóng vai trò quan trọng trong khai phá dữ liệu, đặc

biệt với bài toán rút gọn thuộc tính theo tiếp cận lý thuyết tập thô đã thu được nhiều

kết quả tốt [4]. Do vậy, việc phát triển các độ đo khoảng cách theo tiếp cận tập thô

mờ có tiềm năng trong việc giải quyết bài toán rút gọn thuộc tính trực tiếp của bảng

quyết định miền giá trị thực.

1.4.3. Định hướng nghiên cứu của luận án

Tiêu chuẩn so sánh, đánh giá các phương pháp là số lượng thuộc tính của tập

rút gọn, độ phức tạp của thuật toán heuristic tìm tập rút gọn và độ chính xác phân lớp

của tập dữ liệu sau khi rút gọn.

Lý thuyết tập thô mờ (Fuzzy rough set) do Dubois, D., và Prade, H., [32], [33]

đề xuất được xem là công cụ hiệu quả để giải quyết bài toán rút gọn thuộc tính đã và

đang thu hút sự quan tâm của cộng đồng nghiên cứu về tập thô mờ trong mấy năm

gần đây [9]-[18], [23]-[26], [34]-[36], [38], [39], [44], [45], [47]-[51], [59]-[63], [74],

[78]-[80], [85]-[89], [94]-[98]. Các nghiên cứu về rút gọn thuộc tính trong bảng quyết

định theo tiếp cận tập thô mờ tập trung giải quyết hai bài toán: Bài toán rút gọn thuộc

tính trực tiếp trên bảng quyết định miền giá trị thực và bài toán rút gọn thuộc tính và

sinh luật trên bảng quyết định mờ. Do đó, định hướng nghiên cứu của luận án là đề

xuất các phương pháp hiệu quả nhằm giải quyết hai bài toán trên.

29

1.5. Kết luận chương 1

Chương 1 trình bày một số khái niệm cơ bản trong lý thuyết tập thô; một số

khái niệm cơ bản về tập thô mờ nhằm giải quyết bài toán rút gọn thuộc tính trực tiếp

trên bảng quyết định miền giá trị thực ở Chương 2 và Chương 3; một số khái niệm cơ

bản về tập thô mờ nhằm giải quyết bài toán rút gọn thuộc tính và sinh luật trên bảng

quyết định mờ ở Chương 4. Ngoài ra, Chương 1 còn trình bày tổng quan về rút gọn

thuộc tính và định hướng nghiên cứu của luận án. Các khái niệm được trình bày ở

Chương 1 là các kiến thức nền tảng được sử dụng trong các chương sau của luận án.

30

CHƯƠNG 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜ VÀ

KHOẢNG CÁCH JACCARD MỜ

Nội dung chương này trình bày hai phương pháp rút gọn thuộc tính

của bảng quyết định miền giá trị thực dựa trên quan hệ tương đương mờ.

Bằng lý thuyết và thực nghiệm đánh giá hiệu quả của từng phương pháp.

Phương pháp sử dụng miền dương mờ tìm được một tập rút gọn không dư

thừa và bảo toàn miền dương mờ; phương pháp sử dụng khoảng cách

Jaccard mờ cải thiện được độ chính xác phân lớp và giảm được thời gian

thực hiện trên một số bộ số liệu thực nghiệm so với một số kỹ thuật khác.

2.1. Đặt vấn đề

Chủ đề nghiên cứu về rút gọn thuộc tính của bảng quyết định theo tiếp

cận tập thô mờ đã thu hút được sự quan tâm nghiên cứu trong thời gian qua.

Với bài toán tìm tập rút gọn của bảng quyết định có miền giá trị thực theo

tiếp cận tập thô mờ sử dụng quan hệ tương đương mờ, các nghiên cứu tập

trung vào ba hướng tiếp cận chính: Nhóm các phương pháp sử dụng miền

dương mờ [9], [38]-[40], [72], nhóm phương pháp sử dụng ma trận phân biệt

mờ [15], [18], [26], [80], nhóm phương pháp sử dụng entropy thông tin mờ

[24], [38]-[40], [88], [89]. Các phương pháp này đã được nghiên cứu tương

đối toàn diện trên mỗi hướng tiếp cận, thuật toán heuristic tìm một tập rút

gọn của các phương pháp đều có độ phức tạp tính toán trong trường hợp tổng

quát là là 3 2( )O C U , với U là số lượng đối tượng, C là số lượng thuộc tính

điều kiện. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] chỉ

ra rằng, các phương pháp của các nhóm chỉ tỏ ra hiệu quả hơn nhau trên một

số bộ số liệu cụ thể nào đó tùy vào đặc điểm của số liệu chứ không hơn nhau

trên tất cả các bộ số liệu. Bên cạnh đó, phương pháp này tỏ ra hiệu quả hơn

phương pháp kia còn phụ thuộc vào tiêu chí đánh giá cụ thể như: Số lượng

31

thuộc tính của tập rút gọn, thời gian thực hiện thuật toán hay độ chính xác

phân lớp dữ liệu.

Với bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định miền giá

trị thực theo tiếp cận tập thô mờ, chương này trình bày các kết quả nghiên

cứu sau:

1) Cải tiến phương pháp sử dụng miền dương mờ của Hu, Q., và các

cộng sự [38] để tìm tập rút gọn không dư thừa và bảo toàn miền dương mờ

nhằm khắc phục hạn chế trong [38] về tập rút gọn chưa đảm bảo loại bỏ được

các thuộc tính dư thừa. Cụ thể là cải tiến công thức tính độ quan trọng của

thuộc tính thông qua lực lượng của miền dương mờ và loại bỏ thuộc tính dư

thừa của tập rút gọn.

2) Xây dựng độ đo khoảng cách Jaccard giữa hai tập mờ dựa trên

khoảng cách Jaccard giữa hai tập hợp hữu hạn, gọi là khoảng cách Jaccard

mờ và ứng dụng rút gọn thuộc tính của bảng quyết định nhằm nâng cao độ

chính xác phân lớp dữ liệu và giảm thiểu thời gian thực hiện hơn so với các

phương pháp khác đã công bố trước đây. Ưu điểm của phương pháp sử dụng

khoảng cách Jaccard mờ là cải thiện được thời gian thực hiện so với các

phương pháp khác khi tìm được tập rút gọn giống nhau trên cùng bộ số liệu.

Kết quả này góp phần hình thành nên nhóm phương pháp rút gọn thuộc tính

của bảng quyết định miền giá trị thực sử dụng khoảng cách mờ theo tiếp cận

tập thô mờ.

Các kết quả chính trong chương này được công bố trong các công

trình [CCN1], [CCN2], [CCN3].

2.2. Rút gọn thuộc tính sử dụng miền dương mờ

Rút gọn thuộc tính của bảng quyết định sử dụng miền dương mờ được

coi là thuật toán cơ bản nhất về rút gọn thuộc tính của bảng quyết định theo

tiếp cận tập thô mờ, là sự kế thừa của rút gọn thuộc tính sử dụng miền dương

32

theo tiếp cận tập thô truyền thống [68]. Theo hướng tiếp cận này, Hu, Q., và

các cộng sự đề xuất thuật toán FAR-VPFRS [38] tìm một tập rút gọn sử dụng

độ phụ thuộc của thuộc tính dựa trên miền dương mờ. Tuy nhiên, thuật toán

FAR-VPFRS còn tồn tại một số hạn chế là chưa đảm bảo được tập rút gọn

thu được là không dư thừa thuộc tính do không có bước kiểm tra để loại bỏ

các thuộc tính dư thừa trong tập rút gọn. Bên cạnh đó, FAR-VPFRS còn mất

thêm một bước trung gian để ánh xạ các bảng quyết định miền giá trị thực về

bảng quyết định mờ; là bảng quyết định có miền giá trị nằm trong đoạn [0,1].

Dựa trên phương pháp của Hu, Q., phần này đề xuất phương pháp rút gọn

thuộc tính dựa trên miền dương mờ sử dụng quan hệ tương đương mờ được

định nghĩa trực tiếp trên miền giá trị của thuộc tính. Phương pháp đề xuất là

sự cải tiến phương pháp của Hu, Q., để tìm một tập rút gọn dựa trên miền

dương mờ, loại bỏ những thuộc tính dư thừa của tập rút gọn và bảo toàn

miền dương mờ.

2.2.1. Phương pháp rút gọn thuộc tính sử dụng miền dương mờ

Phương pháp đề xuất bao gồm các bước: Định nghĩa tập rút gọn dựa

trên miền dương mờ sử dụng quan hệ tương đương mờ, định nghĩa độ quan

trọng của thuộc tính và xây dựng thuật toán heuristic tìm tập rút gọn dựa trên

tiêu chuẩn độ quan trọng của thuộc tính.

Định nghĩa 2.1. Cho bảng quyết định có miền giá trị thực ,DT U C D ,

quan hệ tương đương mờ R và tập thuộc tính P C . Nếu

1)

R RP CPOS D POS Dx x

2)

( { })

,R RP p C

POS D POS Dp P x x

(2.1)

(2.2)

thì P là một tập rút gọn của C dựa trên miền dương mờ.

Định nghĩa 2.2. Cho bảng quyết định có miền giá trị thực ,DT U C D và

quan hệ tương đương mờ R xác định trên miền giá trị thuộc tính. Với P C ,

33

độ quan trọng của thuộc tính b C P đối với tập thuộc tính P dựa trên quan

hệ R được định nghĩa:

( {b})

POS ( ) POS ( )( ) ( )P R RP P

D DRSIG b x x

(2.3)

Độ quan trọng của thuộc tính ở công thức (2.3) được sử dụng làm tiêu

chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm một tập rút gọn dựa

trên miền dương mờ như sau:

Thuật toán F_RSAR2 (Fuzzy Rough Set based Attribute Reduction 2):

Thuật toán tìm một tập rút gọn không dư thừa dựa trên miền dương mờ sử

dụng quan hệ tương đương mờ.

Đầu vào: Bảng quyết định giá trị thực ,DT U C D , quan hệ tương

đương mờ R .

Đầu ra: Một tập rút gọn P .

// Khởi tạo các giá trị với tập rút gọn ban đầu bằng rỗng

1. POS ( ); | ( ) | 0R DP x

;

2. Tính POS ( )( )RC

D x ;

// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất để xây

dựng tập rút gọn

3. While POS ( ) POS ( )( ) ( )R RP C

D Dx x Do

4. Begin

5. For c C P Do ( {c})

POS ( ) POS ( )( ) ( )R RP P

P D DSIG c x x

;

// Tính độ quan trọng cho mỗi thuộc tính điều kiện còn lại

với tập thuộc tính quyết định

6. Chọn mc C P sao cho ( ) { ( )}P m Pc C PSIG c Max SIG c

;

// Chọn thuộc tính có độ quan trọng lớn nhất dựa trên miền

34

dương mờ kết nạp vào tập rút gọn

7. { }mP P c ;

8. End;

// Kiểm tra thuộc tính dư thừa trong P nếu có

9. For each a P

10. Begin

11. Tính ( { })

( ) ( )R P a

POS D x

;

12. If ( { })

POS ( ) POS ( )( ) ( )R RP a C

D Dx x

then P P a ;

// Loại bỏ những thuộc tính không cần thiết để xây dựng tập rút

gọn không dư thừa thuộc tính

13. End;

14. Return P;

Ví dụ 2.1. Cho bảng quyết định miền giá trị thực ,DT U C D như ở

Bảng 2.1 với 1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c , quan hệ tương

đương mờ R được định nghĩa ở công thức (1.11).

Bảng 2.1. Bảng quyết định miền giá trị thực của Ví dụ 2.1

U 1c 2c 3c 4c 5c 6c D

1u 0.8 0.2 0.6 0.4 1 0 0

2u 0.8 0.2 0 0.6 0.2 0.8 1

3u 0.6 0.4 0.8 0.2 0.6 0.4 0

4u 0 0.4 0.6 0.4 0 1 1

5u 0 0.6 0.6 0.4 0 1 1

6u 0 0.6 0 1 0 1 0

35

Áp dụng các bước của thuật toán F_RSAR2 để tìm một tập rút gọn

nhỏ nhất, ta có:

POS ( ); | ( ) | 0R DP x

; tính các ma trận tương đương mờ của tập

thuộc tính điều kiện

1 2 3 4 5 6( ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( )c c c c c c CM R M R M R M R M R M R M R .

1

1 1 0 0 0 01 1 0 0 0 00 0 1 0 0 00 0 0 1 1 10 0 0 1 1 10 0 0 1 1

( )

1

cM R

, 2

1 1 0 0 0 01 1 0 0 0 00 0 1 1 0 00 0 1 1 0 00 0 0 0 1 1

(

0 0 0 1 1

)

0

cRM

3

1 0 0 1 1 00 1 0 0 0 10 0 1 0 0 01 0 0 1 1 01 0 0 1 1 00 1 0 0 0

( )

1

cM R

, 4

1 0 0 1 1 00 1 0 0 0 00 0 1 0 0 01 0 0 1 1 01 0 0 1 1 0

(

0 0 0 0 1

)

0

cRM

5

1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1

( )cRM

, 6

1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1

( )cRM

1 0 0 0 0 00 1 0 0 0 00 0 1 0 0 00 0 0 1 0 00 0 0 0 1 0

(

0 0 0 0 1

)

0

CM R

36

Ta có phân hoạch 1 3 6 2 4 5/ , , , , ,U D u u u u u u . Xét 1 3 6, ,X u u u ,

xấp xỉ dưới mờ CR X là tập mờ với hàm thuộc của x U tính bởi

1 3 61 3 6 , ,, , inf max 1 ,C RC

x u u uR u u u y Ux y y

. Từ ma trận CM R ta có

11 2 3 4 5 6

1 0 0 0 0 0CR

uu u u u u u

, do đó

, ,1 3 6 1 inf 1,1,1,1,1,1 1C u u uR u ,

tương tự ta có , ,1 3 6 2 0

C u u uR u , , ,1 3 6 3 1

C u u uR u , , ,1 3 6 4 0

C u u uR u ,

, ,1 3 6 5 0

C u u uR u , , ,1 3 6 6 1

C u u uR u , , ,2 4 5 1 0

C u u uR u , , ,2 4 5 2 1

C u u uR u

, ,2 4 5 3 0C u u uR u ,

, ,2 4 5 4 1C u u uR u ,

, ,2 4 5 5 1C u u uR u ,

, ,2 4 5 6 0C u u uR u .

Từ đó, hàm thuộc của các đối tượng đối với miền dương mờ

CRPOS D là

, , , ,1 3 6 2 4 51 1 1sup , 1C u u u C u u uRC

POS D R Ru u u ,

2 1RC

POS D u , 3 1RC

POS D u , 4 1RC

POS D u , 5 1RC

POS D u ,

6 1RC

POS D u .

Từ đó:

6R RC C

POS D POS Dx Ux x

.

Tính tương tự:

1

1Rc

POS D x ,

2

0Rc

POS D x ,

3

1Rc

POS D x ,

4

3Rc

POS D x ,

5

2.8Rc

POS D x ,

6

2.8Rc

POS D x ; 1({ c } ) 1RS IG

, 2({ c } ) 0RS IG

,

3({ c } ) 1RS IG

, 4({ c } ) 3RS IG

, 5({ c } ) 2 .8RS IG

, 6({ c } ) 2 .8RS IG

. Thuộc

tính 4c được lựa chọn và 4P c .

Tiếp tục tính được

{ { }4} 1

6R c c

POS D x

, kiểm tra

{ } { }4 1

6R R Cc c

POS D POS Dx x

, thuật toán dừng và 4 1,P c c . Sau khi

kiểm tra tính dư thừa, kết luận 4 1,P c c là tập rút gọn của DT .

37

Thuật toán F_RSAR2 tìm được một tập rút gọn dựa trên độ quan

trọng của thuộc tính bảo toàn được miền dương mờ. Thuật toán F_RSAR2

cải tiến công thức tính độ quan trọng của thuộc tính theo công thức (2.3)

giảm bớt số lượng phép tính, làm tiêu chuẩn lựa chọn thuộc tính cho tập rút

gọn và có pha kiểm tra loại bỏ thuộc tính dư thừa so với công trình [38].

Thuật toán F_RSAR2 có độ phức tạp tính toán ma trận tương đương mờ của

một thuộc tính là 2( )O U với U là số lượng đối tượng, C là số lượng thuộc

tính điều kiện; độ phức tạp tính toán của ( )CM R là 2( )O C U . Thuật toán có

hai vòng lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ

phức tạp tính toán của F_RSAR2 là 3 2( )O C U .

2.2.2. Thử nghiệm và đánh giá kết quả

Luận án chọn sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] có miền giá

trị số thực, số nguyên cho ở Bảng 2.2 để tiến hành thử nghiệm. Môi trường

thử nghiệm là máy tính PC với cấu hình Pentium core i3 2.4 GHz CPU, 2 GB

bộ nhớ RAM, sử dụng hệ điều hành Windows 10. Các bộ dữ liệu thử nghiệm

này được sử dụng xuyên suốt trong toàn bộ luận án. Lý do chọn các bộ dữ

liệu này để mô phỏng thực nghiệm là do đa số các phương pháp rút gọn

thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ sử dụng để tiện so

sánh với phương pháp đề xuất.

Bảng 2.2. Bộ dữ liệu thử nghiệm

TT Bộ dữ liệu

Số thuộc

tính điều

kiện

Số đối

tượng Số lớp

1 Fisher_Order 35 47 4

2 Iris 4 150 3

3 Glass 10 214 7

38

4 Sonar 60 208 2

5 Sensor_Readings_24 24 5456 4

6 EEG_Eye_State 14 14980 2

Các bộ dữ liệu thực nghiệm phong phú và đa dạng, có số lượng thuộc

tính và đối tượng từ ít tới nhiều. Bộ dữ liệu có số thuộc tính ít nhất (Iris) là

04 thuộc tính, bộ dữ liệu có số thuộc tính nhiều nhất (Sonar) là 60 thuộc tính.

Bộ dữ liệu có số đối tượng ít nhất (Fisher_Order) là 47 đối tượng, nhiều nhất

(EEG_Eye_State) là 14980 đối tượng. Cụ thể như sau:

1) Fisher_Order: Bảng dữ liệu có miền giá trị số nguyên, phù hợp với bài

toán phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 35,

số lượng đối tượng là 47, số lớp là 4 (D1, D2, D3, D4). Số đối tượng thuộc

về mỗi lớp cụ thể là

- D1: 10 đối tượng, tỷ lệ (21.28%)

- D2: 10 đối tượng, tỷ lệ (21.28%)

- D3: 10 đối tượng, tỷ lệ (21.28%)

- D4: 17 đối tượng, tỷ lệ (36.17%)

2) Iris: Bảng dữ liệu về có miền giá trị số thực, phù hợp với bài toán

phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 4, số

lượng đối tượng là 150, số lớp là 3 (Iris Setosa, Iris Versicolour, Iris

Virginica). Số đối tượng thuộc về mỗi lớp là

- Iris Setosa: 50 đối tượng, tỷ lệ (33.33%)

- Iris Versicolour: 50 đối tượng, tỷ lệ (33.33%)

- Iris Virginica: 50 đối tượng, tỷ lệ (33.33%)

3) Glass: Bảng dữ liệu có miền giá trị số thực, phù hợp với bài toán phân

lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 10, số lượng

đối tượng là 214. Số đối tượng thuộc về các lớp cụ thể là

- Window glass: 163 đối tượng, tỷ lệ (76.17%). Trong đó có 87 đối

tượng thuộc lớp float processed (70 building windows, 17 vehicle

39

windows), 76 đối tượng thuộc lớp non-float processed (76 building

windows, 0 vehicle windows).

- Non-window glass: 51 đối tượng, tỷ lệ (23.83%). Trong đó có 13 đối

tượng thuộc lớp containers, 9 đối tượng thuộc lớp tableware, 29 đối

tượng thuộc lớp headlamps.

4) Sonar: Bảng dữ liệu có miền giá trị số thực, phù hợp với bài toán phân

lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính là 60, số lượng

đối tượng là 208; số lớp là 2 (R, M). Số đối tượng thuộc vào các lớp cụ thể là

- R: 97 đối tượng, tỷ lệ (46.63%)

- M: 111 đối tượng, tỷ lệ (53.37%)

5) Sensor_Readings_24: Bảng dữ liệu về có miền giá trị số thực, phù hợp

với bài toán phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng thuộc tính

là 24, số lượng đối tượng là 5456, số lớp là 4 (Move-Forward, Slight-Right-

Turn, Sharp-Right-Turn, Slight-Left-Turn). Số đối tượng thuộc vào các lớp

cụ thể là

- Move-Forward: 2205 đối tượng, tỷ lệ (40.41%)

- Slight-Right-Turn: 826 đối tượng, tỷ lệ (15.13%)

- Sharp-Right-Turn: 2097 đối tượng, tỷ lệ (38.43%)

- Slight-Left-Turn: 328 đối tượng, tỷ lệ (6.01%)

6) EEG_Eye_State: Bảng dữ liệu có miền giá trị số thực, sử dụng thử

nghiệm cho bài toán phân lớp, không tồn tại giá trị khuyết thiếu. Số lượng

thuộc tính là 14, số lượng đối tượng là 14980, số lớp là 2 (0, 1). Số đối tượng

thuộc vào các lớp cụ thể là

- 0: 8257 đối tượng, tỷ lệ (55.12%)

- 1: 6723 đối tượng, tỷ lệ (44.88%)

40

Luận án chọn thuật toán FAR-VPFRS (tìm một tập rút gọn dựa trên

miền dương mờ) trong công trình [38] của Hu, Q., để so sánh với thuật toán

đề xuất F_RSAR2 về tập rút gọn, độ chính xác phân lớp sau khi rút gọn

thuộc tính và thời gian thực hiện của thuật toán. Để tiến hành thử nghiệm,

luận án thực hiện các công việc sau:

1) Cài đặt các thuật toán F_RSAR2, FAR-VPFRS [38] bằng ngôn ngữ

C#, các thuật toán sử dụng quan hệ tương đương mờ theo công thức (1.11).

2) Thực hiện hai thuật toán trên sáu bộ dữ liệu mẫu với môi trường thử

nghiệm được chọn.

3) Sử dụng thuật toán C4.5 trong công cụ J48 của WEKA [100] để đánh

giá độ chính xác phân lớp của hai thuật toán bằng cách chọn 2/3 số đối tượng

làm tập huấn luyện (training set), 1/3 số đối tượng còn lại làm tập kiểm tra

(testing set).

Bảng 2.3 là kết quả thử nghiệm về thời gian thực hiện và số lượng

thuộc tính của tập rút gọn của hai thuật toán trên sáu bộ số liệu được chọn

với U là số đối tượng, C là số thuộc tính điều kiện, R là số thuộc tính của

tập rút gọn với mỗi thuật toán, t là thời gian thực hiện (đơn vị là giây).

Bảng 2.3. Kết quả thực nghiệm của F_RSAR2, FAR-VPFRS

TT Bộ số liệu C FA_RSAR2 FAR_VPFRS

R t R t

1 Fisher_Order 35 19 0.216 21 0.209

2 Iris 4 1 0.003 2 0.003

3 Glass 10 7 0.40 7 0.040

4 Sonar 60 12 2.975 12 2.889

5 Sensor_Readings_24 24 15 2.634 15 2.465

6 EEG_Eye_State 14 7 4.969 7 4.356

41

Hình 2.1 là biểu đồ so sánh thời gian thực hiện của F_RSAR2, FAR-

VPFRS trên sáu bộ dữ liệu thử nghiệm cụ thể.

Hình 2.1. Thời gian thực hiện của F_RSAR2, FAR-VPFRS

Hình 2.1 cho thấy, thời gian thực hiện của thuật toán FAR-VPFRS là

nhỏ hơn một chút so với thuật toán F_RSAR2 trong bốn bộ dữ liệu

(Fisher_Order, Sonar, Sensor_Readings_24, EEG_Eye_State), bằng nhau ở

hai bộ dữ liệu (Iris, Glass). Điều này phù hợp với lý thuyết, mặc dù các thuật

toán đều có độ phức tạp tính toán trong trường hợp tổng quát là 3 2( )O C U

nhưng F_RSAR2 mất thêm thời gian kiểm tra tính dư thừa của tập rút gọn,

nếu tập rút gọn càng nhiều thuộc tính, thời gian kiểm tra càng tăng lên. Bù

lại, công thức tính độ quan trọng của thuộc tính của F_RSAR2 ít phép tính

hơn FAR-VPFRS do đã cải tiến công thức tính độ quan trọng của thuộc tính

làm tiêu chuẩn để xây dựng tập rút gọn. Trên các tập dữ liệu nhỏ thì thời gian

thực hiện của hai thuật toán này không có sự chênh lệch. Do vậy, F_RSAR2

là chấp nhận được để tìm tập rút gọn không dư thừa thuộc tính.

Bảng 2.4 là các tập rút gọn cụ thể thu được bởi hai thuật toán

F_RSAR2, FAR-VPFRS trên sáu bộ dữ liệu thử nghiệm.

0

1

2

3

4

5

6

F_RSAR2

FAR_VPFRS

42

Bảng 2.4. Tập rút gọn của F_RSAR2, FAR-VPFRS

TT Bộ dữ liệu Tập rút gọn của

F_RSAR2

Tập rút gọn của

FAR-VPFRS

1 Fisher_Order

{22,11,13,14,15,16,17,18,1

9,29,30,31,32,33,34,9,20,5,

25}

{22,11,13,14,15,16,17,18,19

,29,30,31,32,33,34,9,20,5,25

,10,3}

2 Iris {4} {4,3}

3 Glass {2,1,3,4,5,8,6} {2,1,3,4,5,8,6}

4 Sonar {21,36,30,11,28,54,41,22,3

2,57,39,16}

{21,36,30,11,28,54,41,22,32

,57,39,16}

5 Sensor_Readings_24 {17,4,3,7,2,15,5,10,21,8,6,1

4,11,1,9}

{17,4,3,7,2,15,5,10,21,8,6,1

4,11,1,9}

6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5}

Bảng 2.5 biểu diễn số lượng thuộc tính của tập rút gọn và độ chính

xác phân lớp của F_RSAR2, FAR-VPFRS trên sáu bộ dữ liệu thử nghiệm.

Bảng 2.5. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS

TT Bộ số liệu U C

F_RSAR2 FAR-VPFRS

R

Độ chính

xác phân

lớp C4.5

(%)

R

Độ chính

xác phân

lớp C4.5

(%)

1 Fisher_Order 47 35 19 78.72 21 76.59

2 Iris 150 4 1 94.67 2 94.00

3 Glass 214 10 7 81.56 7 81.56

4 Sonar 208 60 12 70.60 12 70.60

5 Sensor_Readings_24 5456 24 15 95.12 15 95.12

6 EEG_Eye_State 14980 14 7 81.25 7 81.25

43

Hình 2.2 là biểu đồ so sánh độ chính xác phân lớp đánh giá thông qua

thuật toán C4.5 của công cụ WEKA [100] của hai thuật toán trên sáu bộ dữ

liệu cụ thể.

Hình 2.2. Độ chính xác phân lớp C4.5 của F_RSAR2, FAR-VPFRS

Kết quả thử nghiệm ở Bảng 2.5 và Hình 2.2 chỉ ra rằng tại 4/6 bộ dữ

liệu thử nghiệm (Glass, Sonar, Sensor_Readings_24, EEG_Eye_State) có tập

rút gọn giống nhau, độ chính xác phân lớp của F_RSAR2 và FAR-VPFRS là

như nhau. Độ chính xác phân lớp của F_RSAR2 cao hơn FAR-VPFRS tại

2/6 bộ dữ liệu (Fisher_Order, Iris) mà tập rút gọn thu được từ F_RSAR2 có

số lượng thuộc tính ít hơn FAR-VPFRS. Từ đó luận án kết luận rằng, thuật

toán F_RSAR2 có khả năng cải thiện độ chính xác phân lớp dữ liệu hơn

FAR-VPFRS trên một số bộ dữ liệu thử nghiệm mà tập rút gọn thu được ít

thuộc tính hơn, loại bỏ được những thuộc tính dư thừa để nâng cao độ chính

xác phân lớp dữ liệu. Đây là một trong những mục tiêu quan trọng mà rút

gọn thuộc tính hướng tới.

78.72

94.67

81.56

70.6

95.12

81.25

0.00

10.00

20.00

30.00

40.00

50.00

60.00

70.00

80.00

90.00

100.00

F_RSAR2

FAR-VPFRS

44

2.3. Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ

Một khoảng cách trên tập hợp U là một ánh xạ : 0,d U U thỏa

mãn các điều kiện sau với mọi , ,x y z U .

1) , 0d x y , , 0d x y khi và chỉ khi x y ;

2) , ,d x y d y x ;

3) , , ,d x y d y z d x z .

Điều kiện 3) được gọi là tiên đề bất đẳng thức tam giác. Bộ đôi

,U d được gọi là một không gian khoảng cách.

Tiếp nối sự thành công của kỹ thuật rút gọn thuộc tính sử dụng

khoảng cách Jaccard trong tập thô truyền thống [4], phần này của luận án đề

xuất phương pháp sử dụng khoảng cách Jaccard mờ do tác giả xây dựng dựa

trên khoảng cách Jaccard truyền thống để rút gọn thuộc tính của bảng quyết

định miền giá trị thực theo tiếp cận tập thô mờ.

2.3.1. Khoảng cách Jaccard mờ và các tính chất

Định nghĩa 2.3. Cho U là tập hữu hạn các đối tượng và ,A B U . Khoảng

cách Jaccard để đo độ tương tự hay độ “gần nhau” giữa hai tập hợp hữu hạn

[4], được định nghĩa như sau

( , ) 1J

A BD A B

A B

(2.4)

Hệ số Jaccard đo độ tương tự giữa hai tập hợp A và B được định nghĩa

( , )A B

J A BA B

(2.5)

Hiển nhiên ( , ) ( , ) 1JD A B J A B .

Từ công thức tính khoảng cách Jaccard (2.4) giữa hai tập hợp, chúng

ta dễ dàng nhận thấy rằng 0 ( , ) 1JD A B . Khoảng cách Jaccard giữa hai tập

45

hợp đạt giá trị nhỏ nhất bằng 0 khi hai tập hợp đó bằng nhau, ngược lại

khoảng cách Jaccard đạt giá trị lớn nhất bằng 1 khi hai tập hợp đó không có

phần tử chung nào.

Bổ đề 2.1. Cho ba số thực a, b, m với a b . Khi đó, ta có

min , min ,a b a m b m .

Chứng minh: Dễ thấy rằng min , min ,a b a m b m thỏa mãn với

ba trường hợp: , ,m a b m a m b . Vậy Bổ đề 2.1 được chứng minh.

Bổ đề 2.2. Cho ba tập mờ , ,A B C trên cùng tập đối tượng U. Khi đó ta có:

1) Nếu A B thì B B C A A C (2.6)

2) Nếu A B thì C C A C C B (2.7)

3) A A B C C A C C B (2.8)

Chứng minh:

1) Vì A B , với mọi ix U ta có i iB Ax x . Áp dụng Bổ đề 2.1 ta

có: min , min ,i i i i i iB B C CA Ax x x x x x

1 1 1 1

min , min ,U U U U

i i i i i iB A B C A Ci i i i

x x x x x x

B A B C A C B B C A A C

2) Vì A B , với mọi ix U ta có i iB Ax x

min , min ,i i i iB C CAx x x x

min , min ,i i i i i iC C C B CAx x x x x x

1 1 1 1

min , min ,U U U U

i i i i i iC A C C B Ci i i i

x x x x x x

C C A C C B .

46

3) Từ A C A , áp dụng tính chất 1) có A A B A C A C B (*)

Mặt khác, từ A B A , áp dụng tính chất 2) có C C A B C C A (**)

Từ (*) và (**), ta có: A A B C C A B A C A C B C C A

0A A B

Áp dụng tiếp tính chất 2), ta có: 0A A B C C A C C B

= A A B C C A C C B .

Ví dụ 2.2. Cho ba tập mờ , ,A B C với A B trên cùng một tập không gian đối

tượng 2 3 4{ }1U x ,x ,x ,x , cụ thể như sau:

1 2 3 40.1 / 0.2 / 0.2 / 0.3 /A x x x x ;

1 2 3 40.2 / 0.3 / 0.3 / 0.4 /B x x x x ;

1 2 3 40.1 / 0.5 / 0.1 / 0.9 /C x x x x ;

Tính: 0.8; 1.2; 1.6;A B C 0.8; 0.9; 0.7;A B B C A C

Từ kết quả trên, ta có: 1.2 0.9 0.8 0.7 0.3 0.1B B C A A C

1.6 0.7 1.6 0.9 0.9 0.7C C A C C B

0.8 0.8 1.6 0.7 1.6 0.9

0.9 0.7

A A B C C A C C B

Định lý 2.1. Cho , ,A B C là ba tập mờ trên tập đối tượng U . Khi đó

( , ) 1FJ

A BD A B

A B

(2.9)

47

là khoảng cách Jaccard mờ giữa hai tập mờ ,A B .

Hệ số Jaccard mờ giữa A và B được xác định

( , )A B

J A BA B

(2.10)

Chứng minh: Để chứng minh ( , )FJD A B là một độ đo khoảng cách

Jaccard mờ trên tập đối tượng U , nghĩa là mọi tập mờ , ,A B C trên U thỏa

mãn các điều kiện sau:

1) ( , ) 0FJD A B , điều kiện ( , ) 0FJD A B khi và chỉ khi A B

2) ( , ) ( , )FJ FJD A B D B A

3) ( , ) ( , ) ( , )FJ FJ FJD A B D B C D A C

Hiển nhiên ( , )FJD A B thỏa mãn điều kiện 1 và điều kiện 2. Để chứng

minh điều kiện 3 (bất đẳng thức tam giác), ta cần chứng minh bất đẳng thức

sau:

( , ) ( , ) 1 ( , )J A B J B C J A C (2.11)

Giả sử U n và 1 2 nU {u , u ,...,u } . Ta biểu diễn tập X U bởi một

véc tơ n chiều 1 2( , ,..., )X

nV x x x với i iXx u . Với , ,A B C U , giả sử

1 2( , , ..., )AnV a a a ,

1 2( , , ..., )BnV b b b ,

1 2( , , ..., )CnV c c c .

Đặt

1min{ , }

nAB

i ii

V a b

, khi đó ,J A B được biểu diễn:

1

1 1 1

min{ , },

min{ , }+ min{ , }- min{ , }

n

i ii

n n n

i i i i i ii i i

AB

A A B B AB

a bA BJ A B

A B a a b b a b

VV V V

(2.12)

48

Nếu , ,J A B J A C hoặc , ,J B C J A C thì hiển nhiên (2.11) thỏa

mãn. Do đó, ta cần chứng minh (2.11) đối với trường hợp đồng thời , ,J A B J A C và , ,J B C J A C . Từ (2.12) ta có:

,

1 ,AB A A B B

J A BV V V

J A B

(2.13)

Ta phải chứng minh : ( )( ) 0B A B CV V V V hay 0B B B C A B ACV V V V

1 1 1 1

min( , ) min( , ) min( , ) min( , ) 0

0

n n n n

i i i i i i i ii i i i

b b b c a b a c

B B C A B A C

(thỏa mãn theo tính chất 3 của bổ đề 2.2 là điều phải chứng minh).

Kết hợp với (2.12) ta có:

, , ,0

1 , 1 , 1 ,BB BB CC AA BB AA CC

J B C J A B J A CV V V V V V V

J B C J A B J A C

, ,1 0

1 , 1 ,

, , , ,

1 , 1 , 1 , 1 ,

BB

A A C C

J A B J B CV

J A B J B C

J A B J A C J B C J A CV V

J A B J A C J B C J A C

(2.14)

Rõ ràng A A A BV V , sử dụng (2.13) thu được

,

1 ,AA AA BB

J A BV V V

J A B

hay ,A A ABV J A B V (2.15)

Từ giả thiết , , 0J A B J A C ta có

, ,0

1 , 1 ,

J A B J A C

J A B J A C

. Do đó từ

(2.15) ta có

49

, , , ,,

1 , 1 , 1 , 1 ,A A B B

J A B J A C J A B J A CV J A B V

J A B J A C J A B J A C

(2.16)

Tương tự:

, , , ,,

1 , 1 , 1 , 1 ,CC B B

J B C J A C J B C J A CV J B C V

J B C J A C J B C J A C

(2.17)

Từ (2.14), (2.16), (2.17) ta có:

, , , ,1 ,

1 , 1 , 1 , 1 ,B B B B

J A B J B C J A B J A CV J A B V

J A B J B C J A B J A C

, ,,

1 , 1 ,B B

J B C J A CJ B C V

J B C J A C

(2.18)

Nếu 0B BV thì hiển nhiên (2.11) thỏa mãn. Giả sử 0B BV . Khi đó,

(2.18) tương đương với:

2 2, , , , , ,

1 ,1 , 1 , 1 ,

J A B J A B J B C J B C J A B J B CJ A C

J A B J B C J A C

, , 1 ,J A B J B C J A C .

Do đó, bất đẳng thức (2.11) được chứng minh.

Tiếp theo, luận án xây dựng khoảng cách Jaccard mờ giữa hai phân

hoạch dựa trên ma trận tương đương mờ, áp dụng rút gọn thuộc tính của

bảng quyết định miền giá trị thực. Cho bảng quyết định ,DT U C D với

1 ,..., nU u u và P C , giả sử i Pu là một lớp tương đương chứa iu trong

phân hoạch /U P . Khi đó, khoảng cách giữa tập thuộc tính C và C D

trong công trình [4] được xây dựng dựa trên khoảng cách Jaccard giữa hai

tập hợp hữu hạn như sau:

50

1

1, 1U

i iC C DJ

i i iC C D

u ud C C D

U u u

(2.19)

Sử dụng các phép toán trong [4] biến đổi độ đo khoảng cách trong công

thức (2.19) tương đương công thức (2.20) như sau:

1 1

1 1, 1 1( )

U Ui i i i iC C D C D

Ji ii i i iC C D C

u u u u ud C C D

U Uu u u u

(2.20)

Độ đo khoảng cách trong công thức (2.20) đặc trưng cho độ “gần

nhau” giữa tập thuộc tính điều kiện C và tập thuộc tính quyết định D và

được tác giả trong công trình [4] sử dụng để xây dựng phương pháp rút gọn

thuộc tính trong bảng quyết định. Sử dụng độ đo khoảng cách trong công

thức (2.20) kết hợp với công thức (2.9), luận án xây dựng độ đo khoảng cách

Jaccard mờ giữa hai phân hoạch mờ dựa trên ma trận tương đương mờ theo

hướng tiếp cận tập thô mờ.

Định nghĩa 2.4. Cho bảng quyết định mờ ,DT U C D , giả sử hai quan

hệ tương đương mờ CR và DR xác định trên hai tập thuộc tính C và D tương

ứng. Gọi Cijr là các phần tử của ma trận tương đương mờ CM R và D

ijr là

các phần tử của ma trận tương đương mờ DM R với 1 ,i j n . Dựa trên

công thức (2.20) và (2.9), luận án xây dựng độ đo khoảng cách Jaccard mờ

giữa hai tập thuộc tính C và C D dựa trên ma trận quan hệ tương đương

mờ như sau:

1

1

1

min ,1, 1

nC D

ij ijUj

FJ nCi

ijj

r rd C C D

U r

(2.21)

Mệnh đề 2.1. Cho bảng quyết định mờ ,DT U C D và CR , DR là hai quan

hệ tương đương mờ xác định trên tập thuộc tính C, D. Khi đó ta có:

51

1) 0 , 1FJd C C D (2.22)

2) , 0FJd C C D khi C DR R (2.23)

Chứng minh:

1) Theo công thức tính khoảng cách mờ (2.21), dễ dàng nhận thấy

0 , 1FJd C C D .

2) Theo tính chất của quan hệ tương đương mờ [40], [72] ta có: C DR R , ,C DR x y R x y , [1..n]C D

ij ijr r i j . Thay vào công thức

(2.21) ta có , 0FJd C C D .

Mệnh đề 2.2. Cho bảng quyết định mờ ,DT U C D và B C , khi đó ta

có , ,FJ FJd B B D d C C D .

Chứng minh: Theo [40], [72] ta có B C / /U C U B (phân hoạch

/U C mịn hơn phân hoạch /U B ) khi và chỉ khi [ ] [ ]C Bu u .

Theo tính chất của quan hệ tương đương mờ [40], [72] và công thức

(2.21) ta có [ ] [ ]C Bu u ( ) ( )[ ] [ ]i iR C R Bu u , 1 , 1

n nC B

ij iji j i j

r r

, 1 , 1

n nC B

ij iji j i j

r r

. Do , [0,1]C Bij ijr r nên

D Dij ijC B

ij ij

r rr r

(1 ) (1 )D D

ij ijC B

ij ij

r rr r

.

Thay vào công thức tính khoảng cách mờ (2.21) có

( , ) ( , )FJ F Jd B B D d C C D .

Khoảng cách Jaccard giữa hai phân hoạch mờ theo công thức (2.21)

được gọi là khoảng cách Jaccard mờ dựa trên ma trận tương đương mờ.

52

2.3.2. Phương pháp rút gọn thuộc tính sử dụng khoảng cách

Jaccard mờ

Trong phần này, luận án trình bày phương pháp rút gọn thuộc tính của

bảng quyết định miền giá trị thực sử dụng độ đo khoảng cách Jaccard mờ

dựa trên ma trận quan hệ tương đương mờ ở công thức (2.21). Cho bảng

quyết định miền giá trị thực ,DT U C D với 1 2, ,..., nU x x x . Trên tập

thuộc tính điều kiện luận án sử dụng một quan hệ tương đương mờ xác định

trên miền giá trị thuộc tính như ở công thức (1.11).

Trên tập thuộc tính quyết định luận án sử dụng quan hệ tương đương

IND D với ma trận tương đương ij n nM IND D d

, 1ijd nếu

j i Dx x và 0ijd nếu j i D

x x . Nói cách khác, lớp tương đương i Dx có

thể xem là lớp đương đương mờ, ký hiệu là i Dx , với hàm thuộc 1

i Djx x

nếu j i Dx x và 0

i Djx x nếu j i D

x x . Khi đó, ký hiệu phân hoạch mờ

11,...,

n

i nD D DiD x x x

.

Tương tự phương pháp rút gọn thuộc tính sử dụng khoảng cách

Jaccard trong lý thuyết tập thô truyền thống, phương pháp đề xuất bao gồm

các bước: Định nghĩa tập rút gọn dựa trên khoảng cách Jaccard mờ, định

nghĩa độ quan trọng của thuộc tính và xây dựng thuật toán heuristic tìm một

tập rút gọn không dư thừa dựa trên tiêu chuẩn độ quan trọng của thuộc tính.

Định nghĩa 2.5. Cho bảng quyết định có miền giá trị thực ,DT U C D và

tập thuộc tính P C . Nếu

1) , ,FJ FJd P P D d C C D

2) , ( , ) ( , )FJ FJp P d P p P p D d C C D

(2.24)

(2.25)

thì P là một tập rút gọn của C dựa trên khoảng cách Jaccard mờ.

53

Định nghĩa 2.6. Cho bảng quyết định ,DT U C D , P C và b C P .

Độ quan trọng của thuộc tính b đối với P được định nghĩa bởi

, ,P FJ FJSIG b d P P D d P b P b D (2.26)

Độ quan trọng của thuộc tính đặc trưng cho sự phụ thuộc của thuộc

tính điều kiện vào thuộc tính quyết định và được sử dụng làm tiêu chuẩn lựa

chọn thuộc tính cho thuật toán heuristic tìm tập rút gọn sau đây.

Thuật toán FJ_DBAR (Fuzzy Jaccard Distance based Attribute

Reduction): Thuật toán heuristic tìm một tập rút gọn sử dụng khoảng cách

Jaccard mờ.

Đầu vào: Bảng quyết định miền giá trị thực ,DT U C D , quan hệ

tương đương mờ R .


// Khởi tạo tập rút gọn bằng rỗng

1. P; ( ) 0PM R ; , 1FJd D ;

2. Tính ( )CM R , M (IND(D)) ;

3. Tính ,FJd C C D ;

// Thêm dần vào P các thuộc tính có độ quan trọng lớn nhất

4. While , ,FJ FJd P P D d C C D Do

5. Begin

6. For each a C P Do

7. Begin

8. Tính ,FJd P a P a D ;

9. Tính , ,P FJ FJSIG a d P P D d P a P a D ;

// Tính độ quan trọng của từng thuộc tính điều kiện còn

lại với tập thuộc tính quyết định

10. End;

54

11. Chọn ma C P sao cho P m Pa C PSIG a Max SIG a

;

// Chọn thuộc tính có độ quan trọng lớn nhất theo khoảng cách

Jaccard mờ kết nạp vào tập rút gọn

12. mP P a ;

13. Tính ,FJd P P D ;

14. End;

//Loại bỏ các thuộc tính dư thừa trong P nếu có

15. For each a P

16. Begin

17. Tính ,FJd P a P a D ;

18. If , ,FJ FJd P a P a D d C C D then P P a ;

// Loại bỏ những thuộc tính không cần thiết đến điều kiện xây

dựng tập rút gọn

19. End;

20. Return P ;

Ví dụ 2.3. Cho bảng quyết định miền giá trị thực ,DT U C D (Bảng 2.1)

với 1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c .


U 1c 2c 3c 4c 5c 6c D

1u 0.8 0.2 0.6 0.4 1 0 0

2u 0.8 0.2 0 0.6 0.2 0.8 1

3u 0.6 0.4 0.8 0.2 0.6 0.4 0

4u 0 0.4 0.6 0.4 0 1 1

5u 0 0.6 0.6 0.4 0 1 1

6u 0 0.6 0 1 0 1 0

55

Áp dụng các bước của thuật toán FJ_DBAR, sử dụng quan hệ tương

đương mờ theo công thức (1.11).

P, ( ) 0PM R , , 1FJd D , tính các ma trận tương đương

mờ 1 2 3 4 5 6( ), ( ), ( ), ( ), ( ), ( ), ( ), ( )c c c c c c CM R M R M R M R M R M R M R M IND D .

1

1 1 0 0 0 01 1 0 0 0 00 0 1 0 0 00 0 0 1 1 10 0 0 1 1 10 0 0 1 1

( )

1

cM R

, 2

1 1 0 0 0 01 1 0 0 0 00 0 1 1 0 00 0 1 1 0 00 0 0 0 1 1

(

0 0 0 1 1

)

0

cRM

3

1 0 0 1 1 00 1 0 0 0 10 0 1 0 0 01 0 0 1 1 01 0 0 1 1 00 1 0 0 0

( )

1

cM R

, 4

1 0 0 1 1 00 1 0 0 0 00 0 1 0 0 01 0 0 1 1 01 0 0 1 1 0

(

0 0 0 0 1

)

0

cRM

5

1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1

( )cRM

, 6

1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1

( )cRM

1 0 0 0 0 00 1 0 0 0 00 0 1 0 0 00 0 0 1 0 00 0 0 0 1 00 0 0 0 0 1

( ) ,CM R

1 0 1 0 0 10 1 0 1 1 01 0 1 0 0 10 1 0 1 1 00 1 0 1 1 01 0 1 0 0 1

( )M IND D

.

Tính:

, 0,FJd C C D 1 1{ },{ } { } 0.38889;FJd c c D

56

2 2{ },{ } 0.5;{ }FJd c c D 3 3{ },{ } { } 0.389;FJd c c D

4 4{ },{ } { } 0.222;FJd c c D 5 5{ },{ } { } 0.23958;FJd c c D

6 6{ },{ } { } 0.23958.FJd c c D

1 0.611 1} ;{ 1PSIG c 2} 0 5{ .PSIG c ; 3{ } 0.611PSIG c ;

4{ } 0.778PSIG c ; 5{ } 0.76042PSIG c ; 6{ } 0.76042PSIG c .

Thuộc tính 4c được chọn và 4P c .

Tính tương tự, ta có: 4 1 4 1{ , } 0,{ , } { }FJd c c c c D , kiểm tra

4 1 4 1{ , },{ , } , 0FJ FJd c c c c D d C C D , thuật toán dừng và kết luận

4 1,P c c . Sau khi kiểm tra tính dư thừa, kết luận 4 1,P c c là tập rút gọn

của DT .

Thuật toán FJ_DBAR tìm được một tập rút gọn và kiểm tra tính dư

thừa của tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một

thuộc tính là 2( )O U với U số lượng đối tượng, C là số lượng thuộc tính điều

kiện; độ phức tạp tính toán của ( )CM R là 2( )O C U . Thuật toán có hai vòng

lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ phức tạp

tính toán của FJ_DBAR là 3 2( )O C U .


Luận án lựa chọn thuật toán heuristic tìm một tập rút gọn dựa trên

lượng thông tin tăng thêm GAIN_RATIO_AS_FRS [24] (gọi là GRAF) khi

thêm một thuộc tính vào tập rút gọn để so sánh với thuật toán FJ_DBAR về

thời gian thực hiện, tập rút gọn và độ chính xác phân lớp dữ liệu. Thuật toán

GRAF tính toán độ quan trọng của thuộc tính dựa trên entropy mờ. Để tiến

hành thực nghiệm, luận án thực hiện các công việc sau:

1) Cài đặt thuật toán GRAF [24] và thuật toán FJ_DBAR bởi ngôn ngữ

C#. Cả hai thuật toán đều sử dụng quan hệ tương đương mờ định nghĩa ở

57

công thức (1.11) ở các thuộc tính điều kiện, trên tập thuộc tính quyết định sử

dụng quan hệ tương đương mờ như ở công thức (1.12).

2) Trên máy tính PC với cấu hình: Bộ xử lý Pentium Core i3, 2.4 GHz

CPU, 2 GB RAM, sử dụng hệ điều hành Windows 10, chạy thử nghiệm các

thuật toán trên sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] như ở Bảng 2.2.

Với mỗi bộ dữ liệu, ký hiệu U là số lượng các đối tượng, R là số lượng

thuộc tính của tập rút gọn, C là số lượng các thuộc tính điều kiện, t là thời

gian thực hiện của thuật toán (tính bằng giây), các thuộc tính điều kiện ký

hiệu là 1, 2, ..., C .


TT Bộ dữ liệu Số thuộc tính

điều kiện

Số đối

tượng Số lớp


2 Iris 4 150 3

3 Glass 10 214 7

4 Sonar 60 208 2



Thời gian thực hiện và tập rút gọn thu được của hai thuật toán được

miêu tả trong Bảng 2.6 và Bảng 2.7.

Bảng 2.6. Kết quả thực nghiệm của FJ_DBAR và GRAF

TT Tập dữ liệu |U| |C| FJ_DBAR GRAF

|R| t |R| t

1 Fisher_Order 47 35 18 0.095 21 0.107

2 Iris 150 4 1 0.002 2 0.003

3 Glass 214 10 6 0.46 8 0.48

4 Sonar 208 60 26 2.053 23 1.980

58

5 Sensor_Readings_24 5456 24 14 2.095 12 1.986

6 EEG_Eye_State 14980 14 7 2.580 7 2.790

Kết quả thực nghiệm ở Bảng 2.6 cho thấy số lượng thuộc tính của tập

rút gọn thu được của FJ_DBAR và GRAF phụ thuộc vào từng bộ dữ liệu cụ

thể. Thuật toán FJ_DBAR tìm được tập rút gọn có số lượng thuộc tính nhỏ

hơn GRAF tại 3/6 bộ dữ liệu thử nghiệm (Fisher_Order, Iris, Glass), bằng

nhau ở tại 1/6 bộ dữ liệu thử nghiệm (EEG_Eye_State), lớn hơn GRAF tại

2/6 bộ dữ liệu (Sonar, Sensor_Readings_24). Thời gian thực hiện của

FJ_DBAR nhanh hơn GRAF tại 4/6 bộ dữ liệu (Fisher_Order, Iris, Glass,

EEG_Eye_State). Trên một số bộ dữ liệu thử nghiệm, thuật toán nào tìm

được tập rút gọn có số lượng thuộc tính ít hơn thì có thời gian thực hiện

nhanh hơn. Tại bộ dữ liệu (EEG_Eye_State) tìm được tập rút gọn giống nhau

theo hai thuật toán thì FJ_DBAR có thời gian thực hiện nhanh hơn, điều này

phù hợp với lý thuyết bởi có cùng độ phức tạp tính là 3 2( )O C U nhưng công

thức tính độ quan trọng của thuộc tính của GRAF [24] tiếp cận theo hướng

entropy mờ có sử dụng biểu thức Logarit sẽ mất thời gian tính toán hơn so

với FJ_DBAR. Biểu đồ so sánh thời gian thực hiện của FJ_DBAR và GRAF

được thể hiện như Hình 2.3

Hình 2.3. Thời gian thực hiện của FJ_DBAR và GRAF

0

0.5

1

1.5

2

2.5

3

FJ_DBAR

GRAF

59

Các tập rút gọn cụ thể của FJ_DBAR và GRAF trên sáu bộ số liệu thực

nghiệm thể hiện ở Bảng 2.7.

Bảng 2.7. Tập rút gọn thu được bởi FJ_DBAR và GRAF

TT Bộ dữ liệu FJ_DBAR GRAF

1 Fisher_Order {11,13,14,15,16,17,18,19,29,3

0,31,32,33,34,28,24,12,2}

{22,11,13,14,15,16,17,18,19

,29,30,31,32,33,34,9,20,5,2

5,10,3}

2 Iris {3} {3,4}

3 Glass {2,1,3,4,5,10} {2,1,3,4,6,10,8,7}

4 Sonar {21,36,27,12,31,54,24,22,33,2

9,57,48,39,34,6,46,20,16,7,11,

26,50,8,10,56,58}

{21,36,30,12,27,54,41,22,32

,57,39,16,46,34,6,11,10,31,

8,26,56,48,58}

5 Sensor_Readings_24 {4,3,7,2,15,5,10,23,8,6,14,11,

1,9}

{3,7,12,15,5,21,24,8,14,17,1

,16}

6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5}

Tiếp theo, luận án thực hiện việc so sánh độ chính xác phân lớp dữ

liệu của tập rút gọn thu được bởi FJ_DBAR và GRAF. Độ chính xác phân

lớp dữ liệu của các tập rút gọn được đánh giá bằng thuật toán C4.5 trong

công cụ J48 của WEKA [100]. Để thực hiện việc đánh giá độ chính xác phân

lớp dữ liệu, luận án chia tập dữ liệu thử nghiệm thành mười phần bằng nhau;

chín phần mười tập dữ liệu được dùng làm dữ liệu huấn luyện, một phần

mười dùng làm dữ liệu kiểm tra. Kết quả thực nghiệm được thể hiện ở Bảng

2.8.

Bảng 2.8. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF

TT Tập dữ liệu |U| |C|

FJ_DBAR GRAF

|R|

Độ chính

xác phân

lớp (%)

|R|

Độ chính

xác phân

lớp (%)

1 Fisher_Order 47 35 18 78.72 21 76.59

60

2 Iris 150 4 1 94.00 2 94.00

3 Glass 214 10 6 80.15 8 81.70

4 Sonar 208 60 26 71.63 23 70.67

5 Sensor_Readings_24 5456 24 14 94.84 12 91.25

6 EEG_Eye_State 14980 14 7 81.25 7 81.25

Kết quả thực nghiệm trên sáu bộ dữ liệu ở Bảng 2.8 chỉ ra rằng độ

chính xác phân lớp dữ liệu theo thuật toán C4.5 của FJ_DBAR cao hơn

GRAF tại 3/6 bộ dữ liệu (Fisher_Order, Sonar, Sensor_Readings_24), bằng

nhau tại 2/6 bộ dữ liệu (Iris, EEG_Eye_State), thấp hơn tại 1/6 bộ dữ liệu

(Glass). Do vậy, luận án kết luận FJ_DBAR có độ chính xác phân lớp cao

hơn GRAF trên một số bộ dữ liệu thử nghiệm, với những bộ dữ liệu có tập

rút gọn giống nhau thì độ chính xác phân lớp theo thuật toán C4.5 của hai

thuật toán là như nhau. Độ chính xác phân lớp này phụ thuộc vào tập rút gọn

thu được theo các phương pháp với những bộ dữ liệu cụ thể, không phụ

thuộc vào số lượng thuộc tính của tập rút gọn. Có những bộ dữ liệu có số

lượng thuộc tính của tập rút gọn giống nhau nhưng các thuộc tính cụ thể khác

nhau thì độ chính xác phân lớp theo thuật toán C4.5 có thể cũng khác nhau.

Ví dụ bộ Iris với tập rút gọn thu được theo thuật toán FJ_DBAR là thuộc tính

{3} thì độ chính xác phân lớp là 94%, với tập rút gọn thu được theo thuật

toán F_RSAR2 là thuộc tính {4} thì độ chính xác 94.67%. Ngoài ra, độ chính

xác phân lớp của các tập rút gọn theo thuật toán C4.5 còn phụ thuộc vào tỷ lệ

phân chia tập dữ liệu giữa phần huấn luyện và phần kiểm tra. Thông thường,

các phương pháp hay lựa chọn chia tập dữ liệu thành mười phần hoặc ba

phần bằng nhau; một phần sử dụng làm dữ liệu huấn luyện, các phần còn lại

sử dụng làm dữ liệu kiểm tra. Biểu đồ so sánh độ chính xác phân lớp của

FJ_DBAR và GRAF theo C4.5 được thể hiện như Hình 2.4.

61

Hình 2.4. Độ chính xác phân lớp C4.5 của FJ_DBAR và GRAF

Bằng thực nghiệm, luận án kết luận thuật toán toán FJ_DBAR có khả

năng cho kết quả tốt hơn GRAF về thời gian thực hiện và độ chính xác phân

lớp dữ liệu trên một số bộ dữ liệu thử nghiệm.


Một trong những mục tiêu của rút gọn thuộc tính trong bảng quyết

định là nâng cao độ chính xác phân lớp của dữ liệu. Trên lớp bài toán rút gọn

thuộc tính trong bảng quyết định miền giá trị thực, các nghiên cứu liên quan

cho thấy các phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ có độ

chính xác phân lớp cao hơn phương pháp rút gọn thuộc tính theo tiếp cận tập

thô truyền thống [24], [39], [44], [47], [72], [80]. Chương 2 của luận án cải

tiến phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực sử

dụng miền dương mờ trong công trình của Hu, Q., [38] để tìm một tập rút

gọn không dư thừa thuộc tính, bảo toàn miền dương mờ dựa trên quan hệ

tương đương mờ. Bên cạnh đó, phương pháp đề xuất cũng cải tiến công thức

tính độ quan trọng của thuộc tính sử dụng làm tiêu chuẩn lựa chọn thuộc tính

cho tập rút gọn để giảm bớt thời gian tính toán độ quan trọng của thuộc tính.

78.72

94

80.15

71.63

94.84

81.25

0.0010.0020.0030.0040.0050.0060.0070.0080.0090.00

100.00

FJ_DBAR

GRAF

62

Đóng góp chính của Chương 2 là đề xuất phương pháp rút gọn thuộc tính

trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách Jaccard

mờ. Khoảng cách Jaccard mờ được xây dựng dựa trên khoảng cách Jaccard

giữa hai tập hợp và chứng minh đầy đủ các tính chất của khoảng cách. Kết

quả thử nghiệm trên một số bộ dữ liệu mẫu từ kho dữ liệu UCI [99] cho thấy,

độ chính xác phân lớp của phương pháp sử dụng khoảng cách Jaccard mờ tốt

hơn độ chính xác phân lớp của phương pháp sử dụng entropy mờ trên một số

bộ dữ liệu thực nghiệm, thời gian thực hiện của phương pháp khoảng cách

nhanh hơn entropy trên đa số bộ dữ liệu thử nghiệm.

63

CHƯƠNG 3. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN

HOẠCH MỜ

Tiếp nối sự thành công của kỹ thuật sử dụng khoảng cách Jaccard mờ

trong phần trước, Chương 3 của luận án đề xuất một độ đo khoảng cách

giữa hai phân hoạch mờ, gọi là khoảng cách phân hoạch mờ. Dựa trên

khoảng cách phân hoạch mờ đề xuất, chương này xây dựng phương pháp rút

gọn thuộc tính của bảng quyết định miền giá trị thực. Thử nghiệm trên một

số bộ dữ liệu cho thấy, phương pháp đề xuất hiệu quả hơn phương pháp sử

dụng entropy thông tin mờ và phương pháp sử dụng miền dương mờ theo

tiêu chí đánh giá độ chính xác phân lớp dữ liệu và thời gian thực hiện của

thuật toán.


Chương 2 của luận án cho thấy sự hiệu quả của phương pháp rút gọn

thuộc tính trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng

cách Jaccard mờ. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI

[99] thấy rằng kỹ thuật sử dụng khoảng cách Jaccard mờ tỏ ra hiệu quả so

với phương pháp sử dụng entropy mờ dựa trên các tiêu chí đánh giá về thời

gian thực hiện và độ chính xác phân lớp dữ liệu. Với mục tiêu nghiên cứu

các phương pháp hiệu quả để rút gọn thuộc tính của bảng quyết định miền

giá trị thực, bổ sung làm phong phú thêm bộ sưu tập các phương pháp, nhằm

đánh giá một cách khái quát hơn về nhóm phương pháp sử dụng khoảng cách

mờ theo tiếp cận tập thô mờ. Chương 3 của luận án đề xuất độ đo khoảng

cách giữa hai phân hoạch mờ và ứng dụng rút gọn thuộc tính của bảng quyết

định miền giá trị thực. Thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu

UCI [99] chỉ ra rằng, phương pháp sử dụng khoảng cách phân hoạch mờ tỏ ra

hiệu quả hơn phương pháp sử dụng pháp sử dụng entropy thông tin mờ [24],

[38]-[40], [88], [89] và miền dương mờ [9], [38]-[40], [72] trên một số bộ dữ

64

liệu thử nghiệm theo tiêu chí đánh giá thời gian thực hiện thuật toán và độ

chính xác phân lớp dữ liệu. Qua đó, khẳng định được sự thành công của

phương pháp sử dụng khoảng cách mờ trong rút gọn thuộc tính của bảng

quyết định miền giá trị thực, là sự tiếp nối của phương pháp sử dụng khoảng

cách trong tập thô truyền thống.

Các kết quả chính trong chương này được công bố trong công trình

[CCN4].

3.2. Khoảng cách phân hoạch mờ và các tính chất

Trong hệ thông tin, mỗi tập thuộc tính sinh ra một tri thức về tập các

đối tượng, trong đó mỗi phần tử của tri thức là một lớp tương đương, hay

một khối. Khoảng cách cho phép đánh giá độ gần nhau (hay độ tương

đương) giữa các tri thức, nghĩa là khoảng cách giữa hai tri thức càng nhỏ

thì hai tri thức đó càng gần nhau, hay càng tương đương nhau và ngược lại.

Như vậy, khi một khoảng cách nào đó được định nghĩa trên tập các tri thức

thì cũng có nghĩa là một khoảng cách đã được xác lập trên tập các thuộc

tính. Sử dụng khoảng cách để đánh giá sự khác nhau giữa các thuộc tính,

phát hiện các thuộc tính quan trọng [38], [64], [69]-[71]. Nhờ đó, xây dựng

thuật toán hiệu quả để giải quyết bài toán rút gọn thuộc tính trong lý thuyết

tập thô mờ.

Kế thừa sự thành công của kỹ thuật rút gọn thuộc tính sử dụng khoảng

cách phân hoạch theo tiếp cận tập thô truyền thống [4], luận án xây dựng

thuật toán heuristic để rút gọn thuộc tính của bảng quyết định miền giá trị

thực sử dụng khoảng cách phân hoạch mờ. Khoảng cách phân hoạch mờ giữa

hai tập thuộc tính được xây dựng dựa trên khoảng cách mờ giữa hai tập mờ.

Kết quả thực nghiệm trên một số bộ số liệu lấy từ kho dữ liệu UCI [99] cho

thấy, phương pháp đề xuất cải thiện độ chính xác phân lớp dữ liệu tốt hơn so

với các công bố trước đây [72].

65

Đầu tiên trong mục này luận án xây dựng một khoảng cách giữa hai

tập mờ, gọi là khoảng cách mờ.

Mệnh đề 3.1. Cho hai tập mờ ,A B trên cùng tập đối tượng U. Khi đó

, 2NFd A B A B A B (3.1)

là một độ đo khoảng cách giữa A và B .

Chứng minh: Để chứng minh ( , )NFd A B là một độ đo khoảng cách mờ

trên tập đối tượng U , nghĩa là mọi tập mờ , ,A B C trên U thỏa mãn các điều

kiện sau:

1) ( , ) 0NFd A B , điều kiện ( , ) 0NFd A B khi và chỉ khi A B

2) ( , ) ( , )NF NFd A B d B A

3) ( , ) ( , ) ( , )NF NF NFd A B d A C d B C

Rõ ràng A A B và B A B nên , 0NFd A B . Hơn nữa,

, ,NF NFd A B d B A . Tiếp theo, ta cần chứng minh bất đẳng thức tam giác.

Không mất tính chất tổng quát ta chứng minh , , ,NF NF NFd A B d A C d B C . Theo Bổ đề 2.2 của Chương 2, ta có:

(1) A A B C C A C C B

(2) A A C B B A B B C

Cộng (1) với (2), vế với vế ta được:

2 2 2A B A B A C A C B C B C , hay

, , ,NF NF NFd A B d A C d B C .

66

Từ đó, ,NFd A B là một khoảng cách giữa hai tập mờ A và B , gọi là

khoảng cách mờ. Dựa trên khoảng cách mờ này, mục tiếp theo luận án xây dựng

khoảng cách giữa hai phân hoạch mờ.

Ví dụ 3.1 (Tiếp Ví dụ 2.2 của Chương 2). Cho hai tập mờ ,A B như ở Ví dụ

2.2. Khoảng cách giữa hai tập mờ ,A B được xác định:

, 2 0.8 1.2 2 0.8 0.4NFd A B A B A B x

Định lý 3.1. Xét bảng quyết định ,DT U C D với 1 2, ,..., nU x x x và

PR , QR là hai phân hoạch mờ sinh bởi hai quan hệ tương đương mờ

PR , QR trên ,P Q C . Khi đó:

1

21, P Q P Qn i i i iR R R R

P QNFi

x x x xD R R

n n

(3.2)

là một khoảng cách mờ, gọi là khoảng cách phân hoạch mờ giữa PR và

QR .

Chứng minh: Rõ ràng , 0P QNFD R R và

, ,P Q Q PNF NFD R R D R R . Ta cần chứng minh bất đẳng thức

tam giác. Không mất tính chất tổng quát, với mọi , ,P Q SR R R

ta phải chứng minh

, , ,P Q P S Q SNF NF NFD R R D R R D R R . Từ Mệnh đề

3.1, với mọi ix U ta có:

, , ,P Q P S Q SNF i i NF i i NF i iR R R R R R

d x x d x x d x x . Từ đó:

, ,P Q P SNF NFD R R D R R

67

1 1

2 21 1P Q P Q P S P S

n ni i i i i i i iR R R R R R R R

i i

x x x x x x x x

n n n n

1 1 1

, ,,1 1 1

,

P Q Q SP S

n n ni i i ii iR R R RR R

i i i

Q S

NF NFNF

NF

d x x d x xd x x

n n n n n n

D R R

Dễ thấy rằng, ,P QNFD R R đạt giá trị nhỏ nhất là 0 khi và chỉ

khi P QR R và ,P QNFD R R đạt giá trị lớn nhất là 1 khi và chỉ

khi PR và QR (hoặc PR và QR ).

Do đó, 0 , 1P QNFD R R .

Ví dụ 3.2. Cho 1 2,U x x , 1 2,P P

P R RR x x , 1 2,

Q QQ R RR x x ,

1 2,S S

S R RR x x

với 1 1 20.1/ 0.2 /

PRx x x , 2 1 20.2 / 0.3/

PRx x x ,

1 1 20.2 / 0.3 /QRx x x , 2 1 20.3 / 0.4 /

QRx x x , 1 1 20.3/ 0.4 /SR

x x x ,

2 1 20.4 / 0.6 /SR

x x x . Khi đó, ta có:

1 0.1 0.2 0.3PRx , 2 0.2 0.3 0.5

PRx , 1 0.2 0.3 0.5QR

x ,

2 0.3 0.4 0.7QR

x , 1 0.3 0.4 0.7SRx , 2 0.4 0.6 1

SRx ,

1 1 0.3P QR R

x x , 2 2 0.5P QR R

x x , 1 1 0.5Q SR R

x x ,

2 2 0.7Q SR R

x x , 1 1 0.3P SR Rx x , 2 2 0.5

P SR Rx x .

Ví dụ 3.3. Cho 1 2,U x x , 1 2,P P

P R RR x x , 1 2,

Q QQ R R

R x x ,

1 2,S S

S R RR x x

như ở Ví dụ 3.2. Để so sánh độ mịn/thô giữa

,P QR R , ta tính các khoảng cách phân hoạch mờ

,PNFD R , ,QNFD R . Theo công thức (3.2), ta có:

68

0.3 0.5, 0.24

PNFD R

0.5 0.7, 0.34

QD R

Do đó, , ,P QNF NFD R D R và ta kết luận PR

mịn hơn QR hay QR thô hơn PR .

Tiếp theo, luận án trình bày mối quan hệ giữa khoảng cách phân

hoạch mờ ,PNFD R với các độ đo entropy thông tin mờ trong công

trình [40], [71].

Cho 1 ,...,P P

P nR RR x x là một phân hoạch mờ trên U . Khi đó,

entropy mờ H P và E P được xây dựng dựa trên entropy Shannon và

entropy Liang tương ứng như sau:

2

1

[ ]1 log Pn

i R

i

xH P

n n

(3.3)

1

[ ]1 1 Pn

i R

i

xE P

n n

(3.4)

Mệnh đề 3.2. Cho là không gian phân hoạch mờ và ,P QR R . Khi

đó ta có:

1) Nếu , ,NF NFD P D Q thì H P H Q .

2) Nếu , ,NF NFD P D Q thì E P E Q .

Chứng minh: , ,D P D Q thì theo tính chất của

quan hệ tương đương mờ và công thức (3.2) ta có:

[x ] [x ] [x ] [x ] [x ] [x ]P Q P Q P Qi i i i i iR R R R R R với mọi ix U .

69

Từ công thức (3.3) tính H P ta có H P H Q .

Từ công thức (3.4) tính E P ta có E P E Q .

Ví dụ 3.4. Cho 1 2,U x x , 1 2,P P

P R RR x x , 1 2,

Q QQ R RR x x ,

1 2,S S

S R RR x x

như ở Ví dụ 3.2, mối liên hệ giữa khoảng cách

,NFD P và entropy H P , E P được xác định ở Bảng 3.1

Bảng 3.1. Mối liên hệ giữa khoảng cách phân hoạch mờ và entropy

thông tin

Quan hệ tương

đương mờ

Khoảng cách Entropy

,NFD P H P E P

PR 0.2 2.368483 0.8

QR 0.3 1.757287 0.7

SR 0.425 1.257287 0.575

Bảng 3.1 cho thấy, nếu P càng thô (khoảng cách ,NFD P

càng lớn) thì entropy H P , E P càng nhỏ và ngược lại. Tính chất này

phù hợp với tính chất của entropy thông tin trong [40]. Từ đó, khoảng cách

phân hoạch mờ có mối liên hệ chặt chẽ với các entropy thông tin mờ và là độ

đo sử dụng để đánh giá độ mịn/thô hay sự khác nhau, tính phân biệt được

giữa các phân hoạch mờ.

Mệnh đề 3.3. Cho PR là một phân hoạch mờ trên , khi đó ta có:

, , 1P PNF NFD R D R

70

Chứng minh: Giả sử 1 2, ,...,P P P

P nR R RR x x x . Khi đó

21

1,P

n

PNF i Ri

D R xn

, 21

1,P

n

PNF i Ri

D R n xn

. Từ

đó, ta có: , , 1P PNF NFD R D R .

Ví dụ 3.5. Cho 1 2,U x x , 1 2,P P

P R RR x x , 1 2,

Q QQ R RR x x ,

1 2,S S

S R RR x x như ở Ví dụ 3.2. Theo Định lý 3.1 ta có:

, 0.1P QNFD R R , , 0.125Q SNFD R R ,

, 0.225P SNFD R R .

Do đó:

, , ,P Q Q S P SNF NF NFD R R D R R D R R ;

, , ,P Q P S Q SNF NF NFD R R D R R D R R ;

, , ,Q S P S P QNF NF NFD R R D R R D R R ;

3.3. Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân

hoạch mờ

Trong phần này, luận án trình bày phương pháp rút gọn thuộc tính

trực tiếp trên bảng quyết định miền giá trị thực sử dụng khoảng cách phân

hoạch mờ như đã trình bày ở phần 3.2.

Cho bảng quyết định miền giá trị thực ,DT U C D với

1 2, ,..., nU x x x . Trên tập thuộc tính điều kiện luận án sử dụng một quan hệ

tương đương mờ xác định trên miền giá trị thuộc tính như ở công thức (1.11).

Trên tập thuộc tính quyết định luận án sử dụng quan hệ tương đương

IND D với ma trận tương đương ij n nM IND D d

, 1ijd nếu

71

j i Dx x và 0ijd nếu j i D

x x . Nói cách khác, lớp tương đương i Dx có

thể xem là lớp đương đương mờ, ký hiệu là i Dx , với hàm thuộc 1

i Djx x

nếu j i Dx x và 0

i Djx x nếu j i D

x x . Khi đó, ký hiệu phân hoạch mờ

11, ...,

n

i nD D DiD x x x

.

Dựa trên các quan hệ được xác định, luận án xây dựng khoảng cách

phân hoạch mờ giữa tập thuộc tính điều kiện và tập thuộc tính quyết định.

Như đã trình bày ở phần 3.2, mỗi tập thuộc tính P C xác định một phân

hoạch mờ PR . Do đó, để đơn giản luận án sử dụng khái niệm khoảng

cách phân hoạch mờ giữa hai tập thuộc tính thay cho khái niệm khoảng cách

phân hoạch mờ giữa hai phân hoạch mờ bởi Định nghĩa 3.1 sau đây.

Định nghĩa 3.1. Cho bảng quyết định miền giá trị thực ,DT U C D với

PR , QR là hai phân hoạch mờ sinh ra bởi hai quan hệ tương đương mờ

PR , QR trên ,P Q C . Khi đó, khoảng cách phân hoạch mờ giữa hai tập thuộc

tính P và Q , ký hiệu là ,NFd P Q , được định nghĩa là khoảng cách phân

hoạch mờ giữa hai phân hoạch mờ PR và QR , nghĩa là

, ,P QNF NFd P Q D R R .

Mệnh đề 3.4. Cho bảng quyết định miền giá trị thực ,DT U C D với

1 2, ,..., nU x x x và R là quan hệ tương đương mờ xác định trên miền giá trị

tập thuộc tính điều kiện, khi đó khoảng cách phân hoạch mờ giữa hai tập

thuộc tính C và C D được xác định như sau:

1

1C,C D C Cn i i iR R D

NFi

x x xd

n n

(3.5)

Chứng minh: Từ Định nghĩa 3.1 và Định lý 3.1, ta có:

72

1

21C,C D , C C D C C Dn i i i iR R R R

C C DNF NFi

x x x xd D R R

n n

1 1

21 1C C D C D C C Dn n

i i i i i i i iR R R R R R R R

i i

x x x x x x x xn n n n

1

1 C Cn

i i iR R D

i

x x xn n

.

Dễ thấy rằng 10 , 1NFd C C Dn

; , 0NFd C C D khi

CR D và 1, 1NFd C C Dn

khi CR và i iDx x với

1 i n .

Mệnh đề 3.5. Cho bảng quyết định miền giá trị thực ,DT U C D với

1 2, ,..., nU x x x , B C và R là quan hệ tương đương mờ xác định trên

miền giá trị tập thuộc tính điều kiện. Khi đó , ,NF NFd B B D d C C D .

Chứng minh: Từ B C , theo [72] ta có C BR R , nghĩa là

C Bi iR Rx x với 1 i n , suy ra C Bi iR R

x x với 1 i n . Xét đối

tượng ix U ta có:

1 1

min ,C C i i iR R DC C

n n

i i i j j jx x xR R Dj j

x x x x x x

1 1

min ,B B i i iR R DB B

n n

i i i j j jx x xR R Dj j

x x x x x x

(1) Với j i Dx x ta có 1

i Djx x , do đó

0C C B Bi i i i i iR R D R R D

x x x x x x .

(2) Với j i Dx x ta có 0

i Djx x , do đó

C C C Bi i i i iR R D R Rx x x x x B Bi i iR R Dx x x .

73

Từ (1), (2) ta có:

B B C Ci i i i i iR R D R R Dx x x x x x

1 1

1 1 C CB Bn n

i i ii i i R R DR R D

i i

x x xx x xn n n n

, ,NF NFd B B D d C C D .

Dễ thấy rằng dấu đẳng thức , ,NF NFd B B D d C C D xảy ra khi

và chỉ khi B Ci iR Rx x với mọi ix U .

Tiếp theo, luận án trình bày phương pháp rút gọn thuộc tính sử dụng

khoảng cách phân hoạch mờ trong Mệnh đề 3.4, bao gồm các bước: Định

nghĩa tập rút gọn, định nghĩa độ quan trọng của thuộc tính dựa trên khoảng

cách phân hoạch mờ và xây dựng thuật toán heuristic tìm một tập rút gọn dựa

trên độ quan trọng của thuộc tính.


B C và R là quan hệ tương đương mờ xác định trên miền giá trị tập thuộc

tính điều kiện. Nếu:

1) , ,NF NFd B B D d C C D (3.6)

(3.7) 2) , ( , )) ( , )NF NFb B d B b B b D d C C D

thì B là một tập rút gọn của C dựa trên khoảng cách phân hoạch mờ.


B C và b C B . Độ quan trọng của thuộc tính b đối với B được định

nghĩa bởi

, ,B NF NFSIG b d B B D d B b B b D (3.8)

Từ Mệnh đề 3.5 ta có 0BSIG b . Độ quan trọng BSIG b đặc trưng

cho chất lượng phân lớp của thuộc tính b vào thuộc tính quyết định D và

74

được sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật toán heuristic tìm

tập rút gọn sau đây.

Thuật toán NF_DBAR (New Fuzzy Distance based Attribute

Reduction): Thuật toán heuristic tìm một tập rút gọn sử dụng khoảng cách

phân hoạch mờ.

Đầu vào: Bảng quyết định miền giá trị thực ,DT U C D , quan hệ

tương đương mờ R

Đầu ra: Một tập rút gọn B

1. B; ( ) 1B n nM R

;

2. Tính ma trận tương đương mờ ( )CM R , tính ma trận tương đương mờ

( )M IND D , tính khoảng cách phân hoạch mờ ,NFd C C D ;

// Thêm dần vào B các thuộc tính phù hợp để tìm tập rút gọn

3. While , ,NF NFd B B D d C C D Do

4. Begin

5. For each a C B Do

, ,B NF NFSIG a d B B D d B a B a D ;

// Tính độ quan trọng cho mỗi thuộc tính điều kiện còn

lại với tập thuộc tính quyết định

6. Chọn ma C B sao cho B m Ba C BSIG a Max SIG a

;

// Chọn thuộc tính có độ quan trọng lớn nhất theo khoảng cách

phân hoạch mờ kết nạp vào tập rút gọn

7. mB B a ;

8. End;

//Kiểm tra thuộc tính dư thừa trong B nếu có

9. For each a B

10. Begin

75

11. Tính , NFd B a B a D ;

12. If , , NF NFd B a B a D d C C D then B B a ;

// Loại bỏ những thuộc tính không cần thiết khi xây dựng tập

rút gọn

13. End;

14. Return B ;

Ví dụ 3.6. Cho bảng quyết định miền giá trị thực ,DT U C D (Bảng 2.1)

với 1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c , quan hệ tương đương mờ

R được định nghĩa ở công thức (1.11).


U 1c 2c 3c 4c 5c 6c D

1u 0.8 0.2 0.6 0.4 1 0 0

2u 0.8 0.2 0 0.6 0.2 0.8 1

3u 0.6 0.4 0.8 0.2 0.6 0.4 0

4u 0 0.4 0.6 0.4 0 1 1

5u 0 0.6 0.6 0.4 0 1 1

6u 0 0.6 0 1 0 1 0

Áp dụng các bước của thuật toán NF_DBAR để tìm một tập rút gọn,

ta có:

B; ( ) 1B n nM R

; , 0.5NFd D . Tính các ma trận tương

đương mờ của tập thuộc tính điều kiện

1 2 3 4 5 6( ) , ( ) , ( ) , ( ) , ( ) , ( ) , ( )c c c c c c CM R M R M R M R M R M R M R , tính ma trận tương

đương mờ của tập thuộc tính quyết định ( )M IND D .

76

1

1 1 0 0 0 01 1 0 0 0 00 0 1 0 0 00 0 0 1 1 10 0 0 1 1 10 0 0 1 1

( )

1

cM R

, 2

1 1 0 0 0 01 1 0 0 0 00 0 1 1 0 00 0 1 1 0 00 0 0 0 1 1

(

0 0 0 1 1

)

0

cRM

3

1 0 0 1 1 00 1 0 0 0 10 0 1 0 0 01 0 0 1 1 01 0 0 1 1 00 1 0 0 0

( )

1

cM R

, 4

1 0 0 1 1 00 1 0 0 0 00 0 1 0 0 01 0 0 1 1 01 0 0 1 1 0

(

0 0 0 0 1

)

0

cRM

5

1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1

( )cRM

, 6

1 0 0 0 0 00 1 0 0.2 0.2 0.20 0 1 0 0 00 0.2 0 1 1 10 0.2 0 1 1 10 0.2 0 1 1 1

( )cRM

1 0 0 0 0 00 1 0 0 0 00 0 1 0 0 00 0 0 1 0 00 0 0 0 1 00 0 0 0 0 1

( ) ,

CM R

1 0 1 0 0 10 1 0 1 1 01 0 1 0 0 10 1 0 1 1 00 1 0 1 1 01 0 1 0 0 1

( )

M IND D

Tính , 0NFd C C D ; 1 1 0.1666, 67 NFd c c D ;

2 2 0.1666, 67 NFd c c D ; 3 3 0.1666, 67 NFd c c D ;

4 4 0.1111, 11 NFd c c D ; 5 5 0.1222, 22 NFd c c D ;

6 6 0.122222,NFd c c D ; 1 0.333333333BSIG c ;

77

2 0.33333333BSIG c ; 3 0.33333333BSIG c ; 4 0.388888889BSIG c ;

5 0.377777778BSIG c ; 6 0.377777778BSIG c . Thuộc tính 4c được chọn.

Tiếp tục, 4 1 4 1{ , },{ , 0} NFd c c c c D , kiểm tra

4 1 4 1{ , },{ , } , 0NF NFd c c c c D d C C D , thuật toán dừng và 4 1,B c c .

Sau khi kiểm tra tính dư thừa, kết luận 4 1,B c c là tập rút gọn của DT .

Thuật toán NF_DBAR tìm được một tập rút gọn và kiểm tra tính dư

thừa của tập rút gọn. Độ phức tạp tính toán ma trận tương đương mờ của một

thuộc tính là 2( )O U với U là số lượng đối tượng, C là số lượng thuộc tính

điều kiện; độ phức tạp tính toán của ( )CM R là 2( )O C U . Thuật toán có hai

vòng lặp lồng nhau theo số lượng của thuộc tính điều kiện. Do vậy, độ phức

tạp tính toán của NF_DBAR là 3 2( )O C U .

3.4. Thử nghiệm và đánh giá kết quả

Luận án chọn sáu bộ dữ liệu mẫu lấy từ kho dữ liệu UCI [99] có miền

giá trị thực cho ở Bảng 2.2 để tiến hành thử nghiệm. Môi trường thử nghiệm

là máy tính PC với cấu hình Pentium core i3 2.4 GHz CPU, 2 GB bộ nhớ

RAM, sử dụng hệ điều hành Windows 10.


TT Bộ dữ liệu Số thuộc tính

điều kiện

Số đối

tượng Số lớp


2 Iris 4 150 3

3 Glass 10 214 7

4 Sonar 60 208 2



78

Luận án chọn thuật toán FA_FPR (tìm tập rút gọn dựa trên miền

dương mờ) và thuật toán FA_FSCE (tìm tập rút gọn dựa trên entropy mờ)

trong công trình [72] để so sánh với thuật toán đề xuất NF_DBAR về độ

chính xác phân lớp sau khi rút gọn thuộc tính và thời gian thực hiện của thuật

toán. Thuật toán FA_FPR là cải tiến của thuật toán FAR-VPFRS trong [38]

về thời gian thực hiện, còn thuật toán FA_FSCE là cải tiến của thuật toán

FSCE trong [39] về thời gian thực hiện. Tuy nhiên, trong công trình [72] tác

giả chưa đánh giá độ chính xác phân lớp đối với các thuật toán cải tiến

FA_FPR và FA_FSCE. Để tiến hành thử nghiệm, luận án thực hiện các công

việc sau:

1) Cài đặt các thuật toán FA_FPR, FA_FSCE và NF_DBAR bằng ngôn

ngữ C#, các thuật toán đều sử dụng quan hệ tương đương mờ theo (1.11).

2) Thực hiện ba thuật toán trên sáu bộ dữ liệu mẫu với môi trường thử

nghiệm được chọn.

3) Trên mỗi tập dữ liệu thử nghiệm, sử dụng thuật toán C4.5 trong công

cụ J48 của WEKA [100] để đánh giá độ chính xác phân lớp của ba thuật toán

bằng cách chọn hai phần ba số đối tượng làm tập huấn luyện, một phần ba số

đối tượng còn lại làm tập kiểm tra.

Bảng 3.2 là kết quả thử nghiệm về thời gian thực hiện rút gọn thuộc

tính của ba thuật toán trên sáu bộ số liệu được chọn với U là số đối tượng,

C là số thuộc tính điều kiện, R là số thuộc tính của tập rút gọn với mỗi

thuật toán, t là thời gian thực hiện (tính bằng giây).

Bảng 3.2. Kết quả thực nghiệm của FA_FSCE, FA_FPR, NF_DBAR

TT Bộ số liệu C FA_ FSCE FA_FPR NF_DBAR

R t R t R t

1 Fisher_Order 35 22 0.198 21 0.193 18 0.079

2 Iris 4 2 0.002 2 0.003 1 0.002

79

3 Glass 10 6 0.029 7 0.036 7 0.024

4 Sonar 60 8 2.012 12 2.889 13 2.433

5 Sensor_Readings_24 24 12 1.963 15 2.465 14 2.005

6 EEG_Eye_State 14 7 3.659 7 4.069 7 3.046

Kết quả thực nghiệm ở Bảng 3.2 cho thấy, thuật toán NF_DBAR tìm

được tập rút gọn có số lượng thuộc tính nhỏ nhất với thời gian thực hiện

nhanh nhất trong ba thuật toán tại 2/6 bộ dữ liệu (Fisher_Order, Iris), bằng

nhau tại 1/6 bộ dữ liệu (EEG_Eye_State) về số lượng thuộc tính của tập rút

gọn thu được nhưng nhanh hơn về thời gian thực hiện. Với những bộ dữ liệu

mà các phương pháp thu được tập rút gọn có số lượng thuộc tính bằng nhau

thì NF_DBAR có thời gian thực hiện nhanh nhất. Đặc biệt với bộ dữ liệu

(Sensor_Readings_24), tập rút gọn thu được bởi thuật toán NF_DBAR có số

lượng thuộc tính là 13 còn nhanh hơn cả tập rút gọn thu được bởi thuật toán

FA_FPR có số lượng thuộc tính là 12, qua đó cho thấy thuật toán FA_FPR có

thời gian thực hiện khá chậm hơn so với NF_DBAR. Với các tập rút gọn thu

được giống nhau theo các phương pháp ở các bộ dữ liệu (Iris, Glass,

EEG_Eye_State) thì thời gian thực hiện của thuật toán NF_DBAR là nhanh

nhất, tiếp theo đến FA_ FSCE và cuối cùng là FA_FPR.

Hình 3.1 là biểu đồ so sánh thời gian thực hiện của ba thuật toán trên

sáu bộ dữ liệu cụ thể.

Hình 3.1. Thời gian thực hiện của FA_FSCE, FA_FPR, NF_DBAR

012345

FA_ FSCE

FA_FPR

NF_DBAR

80

Bảng 3.3 là các tập rút gọn cụ thể thu được của ba thuật toán

FA_FSCE, FA_FPR và NF_DBAR trên sáu bộ dữ liệu thực nghiệm.

Bảng 3.3. Tập rút gọn của FA_FSCE, FA_FPR, NF_DBAR

TT Bộ số liệu FA_ FSCE FA_FPR NF_DBAR

1 Fisher_Order

{21,7,11,13,14,15,1

6,17,18,19,29,30,31

,32,33,9,20,5,25,10,

3,6}

{22,11,13,14,15,16,

17,18,19,29,30,31,3

2,33,34,9,20,5,25,1

0,3}

{11,13,14,15,16,17,1

8,19,29,30,31,32,33,3

4,28,24,12,2}

2 Iris {4,3} {4,3} {4}

3 Glass {2,1,3,4,7,10} {2,1,3,4,5,8,6} {2,1,3,4,5,8,6}

4 Sonar {21,36,30,12,27,54,

41,22}

{21,36,30,11,28,54,

41,22,32,57,39,16}

{21,36,30,12,27,54,4

1,22,32,57,39,16,46}

5 Sensor_Readings_24 {4,3,19,18,15,5,10,

23,8,11,1,9}

{17,4,3,7,2,15,5,10,

21,8,6,14,11,1,9}

{4,3,7,2,15,5,10,23,8,

6,14,11,1,9}

6 EEG_Eye_State {8,11,2,3,12,10,5} {8,11,2,3,12,10,5} {8,11,2,3,12,10,5}

Bảng 3.4 biểu diễn số lượng thuộc tính của tập rút gọn và độ chính

xác phân lớp của ba thuật toán FA_FSCE, FA_FPR và NF_DBAR trên sáu

bộ dữ liệu thực nghiệm.

Bảng 3.4. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR,

NF_DBAR

TT Bộ số liệu U C

FA_ FSCE FA_FPR NF_DBAR

R

Độ chính

xác phân

lớp C4.5

(%)

R

Độ chính

xác phân

lớp C4.5

(%)

R

Độ chính

xác phân

lớp C4.5

(%)

1 Fisher_Order 47 35 22 79.87 21 76.59 18 78.72

2 Iris 150 4 2 94.00 2 94.00 1 94.67

3 Glass 214 10 6 80.15 7 81.56 7 81.56

81

4 Sonar 208 60 8 75.40 12 70.60 13 76.25

5 Sensor_Readings_24 5456 24 12 91.25 15 95.12 14 94.84

6 EEG_Eye_State 14980 14 7 81.25 7 81.25 7 81.25

Hình 3.2 là biểu đồ so sánh độ chính xác phân lớp đánh giá thông qua

thuật toán C4.5 trong công cụ J48 của WEKA [100] của ba thuật toán trên

sáu bộ dữ liệu cụ thể.

Hình 3.2. Độ chính xác phân lớp C4.5 của FA_FSCE, FA_FPR và

NF_DBAR

Kết quả thử nghiệm ở Bảng 3.4 và Hình 3.2 cho thấy, trên sáu bộ dữ

liệu thử nghiệm, độ chính xác phân lớp của ba thuật toán bằng nhau là 1/6 bộ

(EEG_Eye_State). Với từng thuật toán cụ thể, NF_DBAR có độ chính xác

phân lớp cao hơn FA_FPR tại 3/6 bộ dữ liệu (Fisher_Order, Iris, Sonar),

bằng tại 2/6 bộ dữ liệu (Glass, EEG_Eye_State), kém hơn FA_FPR tại 1/6 bộ

(Sensor_Readings_24); độ chính xác phân lớp của thuật toán NF_DBAR cao

hơn thuật toán FA_ FSCE tại 4/6 bộ dữ liệu (Iris, Glass, Sonar,

Sensor_Readings_24), bằng nhau tại 1/6 bộ (EEG_Eye_State), thấp hơn FA_

FSCE tại 1/6 bộ dữ liệu (Fisher_Order). Trên các bộ dữ liệu thử nghiệm,

0102030405060708090

100

78.72

94.67

81.5676.25

94.84

81.25

FA_ FSCE

FA_FPR

NF_DBAR

82

thuật toán NF_DBAR tỏ ra có ưu thế về độ chính xác phân lớp hơn cả, tiếp

theo là thuật toán FA_FPR (sử dụng miền dương mờ) và kém nhất là

FA_FSCE (sử dụng entropy mờ). Độ chính xác phân lớp của mỗi phương

pháp chỉ chiếm ưu thế trên từng bộ dữ liệu cụ thể, nếu các các phương pháp

có cùng một tập rút gọn trên một bộ dữ liệu thì độ chính xác phân lớp theo

thuật toán C4.5 của các phương pháp này là như nhau. Các thuật toán tỏ ra

hiệu quả hơn nhau về độ chính xác phân lớp dữ liệu phụ thuộc nhiều về sự

phân bổ dữ liệu của từng bộ dữ liệu thử nghiệm.

Kết quả thực nghiệm trên một số bộ dữ liệu cho thấy theo tiêu chí độ

chính xác phân lớp thì thuật toán NF_DBAR cho kết quả tốt nhất trên đa số

bộ dữ liệu thử nghiệm, tiếp theo là thuật toán sử dụng FA_FPR, cuối cùng là

FA_FSCE; theo tiêu chí thời gian thực hiện thì thuật toán NF_DBAR là

nhanh nhất, tiếp theo đến FA_FSCE, cuối cùng là FA_FPR.


Chương 3 của luận án đề xuất một độ đo khoảng cách giữa hai phân

hoạch mờ, chứng minh đầy đủ các tính chất của khoảng cách, ứng dụng xây

dựng phương pháp rút gọn thuộc tính của bảng quyết định có miền giá trị

thực. Thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu UCI [99] cho

thấy phương pháp đề xuất hiệu quả hơn các phương pháp sử dụng entropy

thông tin mờ và miền dương mờ trên một số bộ dữ liệu thử nghiệm theo các

tiêu chí đánh giá: Thời gian thực hiện và độ chính xác phân lớp dữ liệu. Độ

chính xác phân lớp dữ liệu của từng phương pháp phụ thuộc vào tập rút gọn

cụ thể thu được theo phương pháp đó. Trên một số bộ dữ liệu thử nghiệm thì

phương pháp sử dụng khoảng cách mờ cho tỷ lệ về độ chính xác phân lớp dữ

liệu nhỉnh hơn cả, tiếp theo là phương pháp sử dụng miền dương mờ và cuối

cùng là phương pháp sử dụng entropy mờ. Thời gian thực hiện để tìm tập rút

gọn về cơ bản tùy thuộc vào số lượng thuộc tính của từng tập rút gọn thu

được theo mỗi phương pháp, tập rút gọn thu được với mỗi bộ dữ liệu theo

83

các phương pháp mà khác nhau thì thời gian thực hiện cũng khác nhau. Nếu

các phương pháp cho cùng một tập rút gọn với một bộ dữ liệu cụ thể nào đó

thì phương pháp sử dụng khoảng cách mờ có thời gian thực hiện ngắn nhất,

tiếp theo là phương pháp sử dụng entropy và cuối cùng là phương pháp sử

dụng miền dương mờ.

84

CHƯƠNG 4. RÚT GỌN THUỘC TÍNH VÀ SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH MỜ

Nội dung chương này trình bày phương pháp rút gọn thuộc tính và

sinh luật quyết định trên bảng quyết định mờ theo tiếp cận tập thô mờ. Rút

gọn thuộc tính thuộc giai đoạn tiền xử lý dữ liệu. Một trong những kết quả

của rút gọn thuộc tính được sử dụng làm đầu vào của bài toán sinh luật

quyết định thuộc giai đoạn khai phá dữ liệu. Đóng góp của chương này là

xây dựng phương pháp rút gọn thuộc tính trực tiếp và sinh luật quyết định

của bảng quyết định mờ sử dụng khoảng cách Jaccard mờ tính trực tiếp giữa

hai tập mờ. Thực nghiệm trên một số bộ dữ liệu cho thấy phương pháp đề

xuất tương đương với các phương pháp khác về độ chính xác phân lớp dữ

liệu.


Rút gọn thuộc tính và sinh luật quyết định của bảng quyết định mờ là

hai bài toán quan trọng trong quá trình khám phá tri thức từ dữ liệu theo tiếp

cận tập thô mờ. Bài toán rút gọn thuộc tính trực tiếp trên bảng quyết định mờ

được giới thiệu lần đầu trong công trình [46], [47], [51], [81] của nhóm tác

giả Jensen, R., và Shen, Q., với thuật toán FUZZY-QUICKREDUCT rút gọn

thuộc tính trực tiếp của bảng quyết định mờ. Vấn đề lớn nhất của phương

pháp này là có độ phức tạp tính toán lớn ở phần tính các phân hoạch mờ,

trong trường hợp xấu nhất là hàm mũ của số thuộc tính điều kiện nên gặp

khó khăn khi ứng dụng thực tế. Sinh luật quyết định thường được thực hiện

trên các tập rút gọn với mục tiêu rút ra tập luật đơn giản và nâng cao chất

lượng phân lớp dữ liệu học theo các luật này. Các công bố về rút gọn thuộc

tính và sinh luật quyết định trên bảng quyết định mờ tập trung nhiều vào

nhóm của Jensen, R., và Shen, Q., với các giải thuật RIA [46] (Rule

Induction Algorithm) và QUICKRULES [51] dựa trên miền dương mờ.

Những công bố khác về sinh luật quyết định được đề cập đến như nhóm của

85

Wang, X., và Hong, J., [83] đề xuất phương pháp biến đổi các giá trị mờ

thành các giá trị rõ (giải mờ) để tính toán các tập rút gọn và tập lõi tương

tương ứng, sau đó tìm tập luật quyết định. Nhược điểm của phương pháp này

là mất mát thông tin, một số thông tin ẩn trong dữ liệu mờ như quan hệ thứ tự

bộ phận, độ phụ thuộc giữa các thuộc tính sẽ bị mất. Hong, J., và các cộng sự

[83] đề xuất giải thuật sinh ra một tập luật mờ từ tập dữ liệu huấn luyện lớn

còn nhiễu theo mô hình tập thô truyền thống. Tuy nhiên, phương pháp của

Hong, J., [83] chỉ thu được một tập luật lớn nhất từ dữ liệu huấn luyện.

Tsang, E. C., và các cộng sự [81] đã trình bày phương pháp sinh luật theo

tiếp cận tập thô mờ với bản chất là trích lọc các luật mờ đã tồn tại sẵn trong

bảng quyết định mờ. Wang, X., và các cộng sự [84] đề xuất một định nghĩa

mới về xấp xỉ dưới mờ và xấp xỉ trên mờ bằng cách xét độ tương đương mờ

giữa hai đối tượng. Dựa trên quan hệ tương đương mờ mới định nghĩa này để

tìm một tập luật tối thiểu, hạn chế của phương pháp này là độ phức tạp tính

toán lớn, tăng theo bình phương của số lượng phần tử của tập dữ liệu. Hơn

nữa, phương pháp của Wang chỉ áp dụng đối với các bảng quyết định mà tập

thuộc tính điều kiện là mờ và thuộc tính quyết định là rõ. Trong công trình

[20], Cheng. Y., đưa ra các khái niệm xấp xỉ tiến và xấp xỉ lùi theo tập mờ

thô, là một trường hợp đặc biệt của tập thô mờ, sau đó sử dụng để tìm một

tập luật quyết định. Tập luật quyết định này chỉ hiệu quả đối với bảng quyết

định mà tập thuộc tính điều kiện là mờ và thuộc tính quyết định là rõ. Phát

triển tiếp công trình [20], tác giả này đưa ra khái niệm xấp xỉ tiến, xấp xỉ lùi

theo tiếp cận tập thô mờ và đề xuất hai thuật toán sinh luật quyết định trực

tiếp từ bảng quyết định mờ dựa trên miền dương mờ, không thông qua bước

rút gọn thuộc tính [21]. Phương pháp này xử lý bảng quyết định mờ trong

trường hợp tổng quát, cho kết quả tốt. Tuy nhiên, phương pháp của Cheng.

Y., phải đề xuất một số khái niệm mới và xét các quan hệ thứ tự bộ phận

giữa các hạt thông tin. Tập luật sinh ra theo phương pháp này thường phức

tạp vì không có pha rút gọn thuộc tính của tập dữ liệu để loại bỏ những dữ

86

liệu dư thừa. Mục đích sinh luật quyết định của bảng quyết định mờ nhằm hỗ

trợ đánh giá chất lượng phân lớp dữ liệu, thể hiện qua hai hướng tiếp cận như

sau [12], [19], [21], [44], [46], [51], [56], [74], [92]:

Hình 4.1. Phân lớp dữ liệu theo các luật quyết định mờ

Hướng tiếp cận thứ nhất cho phép sinh luật quyết định không cần

thông qua bước rút gọn thuộc tính của bảng quyết định mờ. Luật quyết định

sinh ra bởi hướng tiếp cận này thường phức tạp hơn hướng tiếp cận thứ hai

do còn tồn tại những thuộc tính dư thừa dẫn đến người sử dụng khó chọn các

tham số ngưỡng [ , ] [0,1] để giới hạn tập luật [21].

Hướng tiếp cận thứ hai sinh ra các tập luật của bảng quyết định mờ đã

rút gọn thuộc tính, được áp dụng phổ biến hơn hướng tiếp cận thứ nhất. Công

bố sớm nhất theo hướng tiếp cận này là công trình nhóm của Shen, Q., và

Jensen, R., [44], [51], [74] với giải thuật RIA sinh luật quyết định sau khi đã

rút gọn thuộc tính của bảng quyết định. Do đã rút gọn thuộc tính của bảng

quyết định nên luật quyết định sinh ra đơn giản hơn, người dùng dễ chọn các

tham số ngưỡng [ , ] [0,1] cho phù hợp với bộ dữ liệu nên luật quyết định

thu được thường đơn giản hơn các công bố theo hướng thứ nhất. Nhược điểm

Bảng quyết định mờ

Sinh luật mờ

Tập luật mờ

Rút gọn thuộc tính

Tập rút gọn

Phân lớp dữ liệu

87

của hướng tiếp cận này là mất thêm thời gian để rút gọn thuộc tính của bảng

quyết định mờ.

Với bài toán rút gọn thuộc tính và sinh luật quyết định trên bảng quyết

định mờ theo tiếp cận tập thô mờ, chương này trình bày các kết quả nghiên

cứu sau:

1) Trình bày phương pháp rút gọn thuộc tính của bảng quyết định mờ

dựa trên miền dương mờ theo tiếp cận tập thô mờ. Phương pháp đề xuất cải

tiến điều kiện dừng và công thức tính độ quan trọng của thuộc tính của thuật

toán FUZZY-QUICKREDUCT trong công trình [46], [47], [51], [81] của

Jensen, R., và Shen, Q., để tìm một tập rút gọn không dư thừa và bảo toàn


2) Đề xuất độ đo khoảng cách Jaccard mờ tính trực tiếp giữa hai tập

mờ. Sử dụng khoảng cách Jaccard mờ xây dựng phương pháp sinh luật quyết

định của bảng quyết định mờ. Đóng góp chính của Chương 4 là xây dựng

phương pháp sinh luật quyết định của bảng quyết định mờ sử dụng khoảng

cách Jaccard mờ.

Kết quả rút gọn thuộc tính của bảng quyết định mờ được công bố

trong công trình [CCN2], sinh luật quyết định công bố trong công trình

[CCN5].

4.2. Phương pháp rút gọn thuộc tính của bảng quyết định mờ

Trong phần này, luận án trình bày phương pháp heuristic rút gọn

thuộc tính trực tiếp của bảng quyết định mờ dựa trên miền dương mờ, sử

dụng thuật toán F_RSAR1 được công bố trong công trình [CCN2]. Thuật

toán F_RSAR1 là cải tiến của thuật toán FUZZY-QUICKREDUCT [47],

[74] để tìm được một tập rút gọn không dư thừa thuộc tính và bảo toàn miền

dương mờ.

88

Phương pháp đề xuất bao gồm các bước: Định nghĩa tập rút gọn, định

nghĩa độ quan trọng của thuộc tính và xây dựng thuật toán heuristic tìm một

tập rút gọn dựa trên độ quan trọng của thuộc tính thông qua lực lượng của


Định nghĩa 4.1. Cho bảng quyết định ( , )DT U C D và tập thuộc tính P C .

Nếu

1)

POS ( ) POS ( )

( ) ( )P CD D

x x

2)

{p}POS ( ) POS ( )

, ( ) ( )P C

D Dp P x x

(4.1)

(4.2)

thì P là một tập rút gọn của C dựa trên miền dương mờ.

Định nghĩa 4.2. Cho bảng quyết định DT (U,C D ) , P C và b C P .

Độ quan trọng của thuộc tính b đối với tập thuộc tính P được định nghĩa

Thuật toán tìm một tập rút gọn của bảng quyết định mờ sử dụng miền

dương mờ ở công thức (1.30) được mô tả như sau:

Thuật toán F_RSAR1 (Fuzzy Rough Set based Attribute Reduction):

Thuật toán tìm một tập rút gọn không dư thừa của bảng quyết định mờ dựa

trên miền dương mờ.

Đầu vào: Bảng quyết định mờ D T (U ,C D )


1. P ; POS ( )| ( ) | 0D x

;

2. Tính POS ( ) ( )

C D x ;

// Kiểm tra điều kiện dừng để xây dựng tập rút gọn

3. While

POS ( ) POS ( )( ) ( )

P CD Dx x Do

{b}POS ( ) POS ( )( ) ( )P P

DP DSIG b x x

(4.3)

89

4. Begin

5. For c C P Do {c}POS ( ) POS ( )( ) ( )P PP D DSIG c x x

;

// Xác độ quan trọng của mỗi thuộc tính điều kiện còn lại với

tập thuộc tính quyết định

6. Chọn mc C P sao cho ( ) { ( )}mP Pc C P

SIG c Max SIG c

;

// Chọn thuộc tính có độ quan trọng lớn nhất để kết nạp vào tập

rút gọn

7. { }mP P c ;

8. End;

//Loại bỏ các thuộc tính dư thừa trong P nếu có

9. For each a P

10. Begin

11. Tính

{ } ( ) ( )P aPOS D x

;

12. If { }POS ( ) POS ( )( ) ( )P a CD Dx x

then P P a ;

// Loại bỏ những thuộc tính không cần thiết để tìm tập rút gọn

không dư thừa

13. End;

14. Return P ;

Ví dụ 4.1. Cho bảng quyết định mờ ( , )DT U C D (Bảng 4.1) với các

thuộc tính 1 2 3{C , C , C }C , 1 2 3{d , d , d }D được biểu diễn lại từ Bảng 1.2

Bảng 4.1. Bảng quyết định mờ chơi thể thao biểu diễn lại Bảng 1.2

TT

1C 2C

3C D

1c

2c 3c

4c 5c

6c 7c

8c 1d

2d 3d

1u 0.3 0.7 0 0.2 0.7 0.1 0.3 0.7 0.1 0.9 0

90

2u 1 0 0 1 0 0 0.7 0.3 0.8 0.2 0

3u 0 0.3 0.7 0 0.7 0.3 0.6 0.4 0 0.2 0.8

4u 0.8 0.2 0 0 0.7 0.3 0.2 0.8 0.6 0.3 0.1

5u 0.5 0.5 0 1 0 0 0 1 0.6 0.8 0

6u 0 0.2 0.8 0 1 0 0 1 0 0.7 0.3

7u 1 0 0 0.7 0.3 0 0.2 0.8 0.7 0.4 0

8u 0.1 0.8 0.1 0 0.9 0.1 0.7 0.3 0 0 1

9u 0.3 0.7 0 0.9 0.1 0 1 0 0 0 1

Các thuộc tính được biểu diễn lại như sau:

Thuộc tính = {Thời tiết, Nhiệt độ, Độ ẩm, Quyết định} =

1 2 3{ , , , }C C C D

1C ={Có nắng, Có mây, Có mưa}=

1 2 3{c ,c ,c }

2C ={Nóng, Trung bình, Lạnh}= 4 5 6{c ,c ,c }

3C ={Ẩm ướt, Bình thường}= 7 8{c ,c }

D ={Bóng chuyền, Bơi, Lướt ván}= 1 2 3{ , , }d d d

Áp dụng thuật toán F_RSAR1 tìm một tập rút gọn của bảng quyết

định với các phân hoạch mờ, ta có:

1 2 3 1 2 3 4 5 6 7 8/ { , C , C } = { , , }, { , , }, { , }U C C c c c c c c c c ,

1 2 3/ { , , }U D d d d .

- Xét phân hoạch mờ 1/ { }U C với các lớp tương đương mờ 1 2 3{ , , }c c c ,

theo công thức (1.27) và (1.29), tính được:

1 1 1{c }{d }( ) 0.3u ,

2 1 1{c }{d }( ) 0.2u , 3 1 1{c }{d }( ) 0u . Vậy,

{ }{d }1 1POS 1( ) 0.3

Cu .

91

Tương tự: { }{d }1 2

POS 1( ) 0.2C

u , { }{d }1 3

POS 1( ) 0.3C

u .

Vậy, 1

1POS ( ) 0.3C D u , tiếp tục:

12POS ( ) 0.6

C D u , 1

3POS ( ) 0.3C D u ,

14POS ( ) 0.6

C D u , 1

5POS ( ) 0.5C D u ,

16POS ( ) 0.3

C D u , 1

7POS ( ) 0.6C D u ,

18POS ( ) 0.3

C D u , 1

9POS ( ) 0.3C D u . Theo công thức (1.30) ta có:

1POS ( ) ( ) 3.8

C D x , tương tự:

2POS ( ) ( ) 2.1

C D x ,

3POS ( ) ( ) 2.7

C D x .

Từ đó: 1 3.8SIG C , 2 2.1SIG C , 3 2.7SIG C . Thuộc tính

1{ }C được chọn và

1{ }P C . Tương tự:

{ , }1 2

POS ( ) ( ) 4.0C C D x ,

{ , }1 3POS ( ) ( ) 5.7

C C D x ,

1 2 0.2C

SIG C ,

1 3 1.9C

SIG C . Thuộc tính 3{ }C được

chọn và 1 3{ , }P C C .

Tính

{ , , }1 3 2POS ( ) POS ( )( ) ( ) 5.7

CC C C D Dx x . Sau khi kiểm tra tính dư

thừa, kết luận 1 3{ , }P C C .

Thuật toán F_RSAR1 tìm một tập rút gọn sử dụng các phân hoạch mờ

xác định trước trên mỗi thuộc tính của bảng quyết định mờ. Dựa trên các

phân hoạch mờ, xác định độ quan trọng của mỗi thuộc tính thông qua miền

dương mờ, làm tiêu chuẩn lựa chọn thuộc tính xây dựng tập rút gọn. Thuật

toán F_RSAR1 là cải tiến của FUZZY-QUICKREDUCT [47], [74] ở điều

kiện dừng và công thức tính độ quan trọng của thuộc tính nhằm bảo toàn

miền dương mờ, có bước kiểm tra loại bỏ thuộc tính dư thừa của tập rút gọn

nhằm nâng cao độ chính xác phân lớp dữ liệu.

4.3. Phương pháp sinh luật quyết định của bảng quyết định mờ

Trong phần này, luận án trình bày phương pháp sinh luật quyết định

từ bảng quyết định mờ đã rút gọn thuộc tính sử dụng khoảng cách Jaccard

mờ tính trực tiếp giữa hai tập mờ. Phương pháp đề xuất bao gồm các bước:

92

Phân nhóm các đối tượng của bảng quyết định mờ theo giá trị cao nhất của

từng biến ngôn ngữ của thuộc tính quyết định, tính khoảng cách Jaccard mờ

trực tiếp giữa các biến ngôn ngữ của thuộc tính quyết định với các biến ngôn

ngữ của các thuộc tính điều kiện theo từng phân nhóm theo công thức (4.4),

đưa ra các tham số ngưỡng [ , ] [0,1] phù hợp để xác định độ tương tự

giữa các biến ngôn ngữ của các thuộc tính và từ đó sinh ra các luật quyết

định. Kết quả của phần này được công bố trong công trình [CCN5].

Cho U là tập hữu hạn các đối tượng và các tập mờ ,A B U . Từ công

thức (2.9) của Chương 2, khoảng cách Jaccard mờ tính trực tiếp của hai tập

mờ được xác định như sau:

min( ( ), ( ))( , ) 1 1

max( ( ), ( ))

A Bu U

FJA B

u U

u uA BD A B

u uA B

(4.4)

Ví dụ 4.2. Cho hai tập mờ ,A B U như sau:

1 2 3 40.1 / 0.2 / 0.2 / 0.3 /A x x x x ;

1 2 3 40.2 / 0.3 / 0.3 / 0.4 /B x x x x ;

min(0.1,0.2) min(0.2,0.3) min(0.2,0.3) min(0.3,0.4)( , ) 1max(0.1,0.2) max(0.2,0.3) max(0.2,0.3) max(0.3,0

0.333.

3334)FJD A B

4.3.1. Luật quyết định mờ

Cho bảng quyết định mờ ,DT U C D với 1{ ,..., }nU u u là tập các

đối tượng, 1{ ,..., }mC C C là tập các thuộc tính điều kiện, D là thuộc tính

quyết định với các biến ngôn ngữ là 1{ ,..., }sd d . Mỗi thuộc tính kC C ,

k=1..m, bao gồm một số biến ngôn ngữ là các tập mờ; các biến ngôn ngữ của

93

thuộc tính kC , ký hiệu là 1

( ) {T ,...,T }k

k kk i iT C , nhận các giá trị là các đối tượng

1{ ,..., }nu u tại thuộc tính 1

( ) {T ,...,T }k

k kk i iT C .

Một nhóm các đối tượng u U được biểu diễn bởi một tập các thuộc

tính 1{ ,..., }mC C C . Mỗi phần tử u U được phân lớp vào một lớp

jd D

theo một luật quyết định mờ có dạng như sau [92]:

IF (iC is 1

1iT AND …AND (kC is

k

kiT )) THEN (D is jd ) (4.5)

Ví dụ 4.3. Trong Bảng 4.1, thuộc tính “Thời tiết” có các biến ngôn ngữ là

T(Thời tiết) = {Có nắng, Có mây, Có mưa}. Biến ngôn ngữ “Có nắng” là một

tập mờ với miền giá trị ={0.3/u1, 1/ u2, 0/ u3, 0.8/ u4, 0.5/ u5, 0/ u6, 1 /u7, 0.1/

u8, 0.3/ u9 }.

Một luật quyết định mờ của Bảng 4.1 biểu diễn quyết định chơi thể

thao dựa vào thời tiết như sau:

Rule 1: IF 1C is 1c THEN D is 1d

Luật này được biểu diễn theo Bảng 1.2 là:

IF Thời tiết is “Có nắng” THEN Quyết định is “Bóng chuyền”

4.3.2. Sinh luật quyết định từ bảng quyết định mờ

4.3.2.1. Mô tả phương pháp

Ý tưởng chính của phương pháp sinh luật quyết định của bảng quyết

định mờ dựa trên khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ

của thuộc tính quyết định và các biến ngôn ngữ của thuộc tính điều kiện được

thực hiện theo các bước sau:

Bước 1: Phân nhóm các đối tượng u U của bảng quyết định mờ theo

giá trị lớn nhất của các biến ngôn ngữ d D . Các đối tượng có giá trị

( )d u cao nhất theo các biến ngôn ngữ d D được xếp vào một phân

94

nhóm và được gán cho một nhãn cụ thể. Mỗi phân nhóm sinh ra một

luật quyết định tương ứng.

Bước 2: Trong mỗi phân nhóm, tính toán khoảng cách Jaccard mờ

trực tiếp giữa các biến ngôn ngữ của thuộc tính quyết định với các

biến ngôn ngữ của thuộc tính điều kiện theo công thức (4.4).

Bước 3: Lựa chọn tham số ngưỡng [0, 1] phù hợp để so sánh với

khoảng cách Jaccard mờ trực tiếp giữa biến ngôn ngữ của thuộc tính

quyết định và các biến ngôn ngữ của thuộc tính điều kiện. Khoảng

cách nào nhỏ hơn α (mức ý nghĩa do người dùng xác định) thì coi như

hai biến đó tương tự nhau với sai số là α. Từ đó sinh ra các luật quyết

định mờ như ở công thức (4.5) của những phân nhóm có khoảng cách

Jaccard mờ trực tiếp nhỏ hơn tham số ngưỡng .

Bước 4: Đối với các phân nhóm không tồn tại khoảng cách Jaccard

mờ giữa các biến ngôn ngữ của thuộc tính điều kiện và thuộc tính

quyết định nhỏ hơn , lựa chọn tham số [0, 1] để xây dựng luật

phân lớp cho quyết định kd D với

1{ ,..., }sD d d ,

1 , , ; (i, j)i j k s k . Các luật của phân nhóm này được xác định theo

công thức (4.6)

Rule k: IF MF (Rule i) < And …MF (Rule j) < Then D is kd (4.6)

với MF (Rule i) = MF (Condition Part of Rule i) là giá trị hàm thuộc

phần điều kiện của luật i. Giá trị MF(Rule k) của các luật tính cho phân

nhóm này được xác định theo công thức (4.7).

IF MF (Rule i) < And.. MF (Rule j) < Then MF(Rule k)

= 1, otherwise MF(Rule k) = 0. (4.7)

Chú ý:

+ Mỗi thuộc tính chỉ chọn một biến ngôn ngữ có giá trị thấp nhất thỏa

mãn điều kiện nhỏ hơn . Nếu có nhiều hơn các biến ngôn ngữ của một thuộc

95

tính thỏa mãn điều kiện nhỏ hơn mà có giá trị bằng nhau thì biến ngôn ngữ

có khoảng cách nguyên gốc thỏa mãn (khoảng cách trực tiếp giữa biến ngôn

ngữ của thuộc tính điều kiện với một quyết định cụ thể, không tính phủ định)

được lựa chọn.

+ Các luật sinh ra trực tiếp theo công thức (4.5) phải có ít nhất một

khoảng cách Jaccard mờ của biến ngôn ngữ là khoảng cách nguyên gốc thỏa

mãn điều kiện nhỏ hơn .

Để đánh giá khả năng phân lớp dữ liệu của bảng quyết định theo các

tập luật quyết định, tính các giá trị MF(Rule i) cho mỗi đối tượng. Với mỗi

đối tượng, giá trị của MF(Rule i) cao nhất được lựa chọn gán nhãn (quyết

định) cho đối tượng. Khả năng gán nhãn cho các đối tượng theo các biến

ngôn ngữ của thuộc tính quyết định được xác định theo công thức (4.8)

( )iD d = MF(Rule i) (4.8)

Độ chính xác phân lớp của dữ liệu học theo tập luật quyết định được

xác định theo công thức (4.9)

Độ chính xác phân lớp=Số lượng đối tượng phân lớp chính

xác/tổng số đối tượng phân lớp (4.9)

Đối với phân lớp mờ, một đối tượng có khả năng được phân lớp vào

nhiều lớp khác nhau. Khả năng gán nhãn cho đối tượng vào phân lớp nào

được xác định theo công thức (4.8). Đối với những trường hợp một đối tượng

có giá trị gán nhãn bằng nhau ở các lớp khác nhau theo tập luật quyết định,

hay nói một cách khác là đối tượng đó không phân biệt được ở một số lớp, đó

là sự nhập nhằng trong việc phân lớp dữ liệu. Một cách tổng quát, độ nhập

nhằng của các đối tượng không gán được nhãn rõ ràng tính theo công thức

(4.10)

Độ nhập nhằng=Số lượng đối tượng không được gán nhãn rõ

ràng vào phân lớp/tổng số đối tượng phân lớp (4.10)

96

4.3.2.2. Thuật toán tìm luật quyết định dựa trên khoảng cách Jaccard mờ

Thuật toán tìm một tập luật quyết định từ bảng quyết định mờ đã rút

gọn thuộc tính sử dụng khoảng cách Jaccard mờ trực tiếp giữa các tập mờ

được phát biểu như sau

Thuật toán FJ_RBAR (Fuzzy Jaccard Rule based Attribute

Reduction): Thuật toán tìm một tập luật quyết định mờ của bảng quyết định

mờ đã rút gọn thuộc tính.

Đầu vào: Tập rút gọn 1{ ,..., }pP C C của bảng quyết định mờ đã rút

gọn thuộc tính và các tham số ngưỡng ,

Đầu ra: Tập luật quyết định Rules.

1. ;Rule k=0; 1{ ,..., }sD d d ;

1( ) {T ,...,T }k k

k kk iT C ;

2. For each u U Do phân nhóm jd D ;

// Phân nhóm các đối tượng theo giá trị lớn nhất của biến ngôn ngữ

của thuộc tính quyết định

3. For each jd D Do

4. Begin

5. For each ic C Do

6. Begin

7. Tính ( , )FJ j iD d c ;

8. If ( , ) min{ ( )}FJ j i i iD d c AND c T C Then W( ) {c }i ic ;

// Lấy biến ngôn ngữ có khoảng cách nhỏ nhất thỏa mãn

điều kiện để sinh luật

9. End;

// Sinh ra các luật quyết định mờ

10. For each ( )i ic W c Do i jRule j c d ;

11. End;

97

12. For each Wk C Do Tính Rule k ;

// Sử dụng tham số để tìm những luật còn lại

13. Return Rules;

Độ phức tạp tính toán khoảng cách Jaccard mờ trực tiếp của hai biến

ngôn ngữ trong trường hợp xấu nhất là ( )O U . Thuật toán có hai vòng lặp

lồng nhau theo số lượng biến ngôn ngữ của tập thuộc tính điều kiện và tập

thuộc tính quyết định. Do vậy, độ phức tạp tính toán của thuật toán

FJ_RBAR là ( )O C D U , với |C| là số biến ngôn ngữ của tất cả các thuộc

tính điều kiện của bảng quyết định, |D| là số biến ngôn ngữ của thuộc tính

quyết định, |U| là số đối tượng của bảng dữ liệu.

Ví dụ 4.4. Cho bảng quyết định mờ như ở Bảng 4.2, tìm một tập luật quyết

định phân lớp được thực hiện như sau:

Bảng 4.2. Bảng quyết định mờ chơi thể thao đã rút gọn thuộc tính

TT

1C 3C D

1c

2c 3c

7c 8c

1d 2d

3d

Phân

nhóm 1

2u 1 0 0 0.7 0.3 0.8 0.2 0

7u 1 0 0 0.2 0.8 0.7 0.4 0

4u 0.8 0.2 0 0.2 0.8 0.6 0.3 0.1

Phân

nhóm 2

1u 0.3 0.7 0 0.3 0.7 0.1 0.9 0

5u 0.5 0.5 0 0 1 0.6 0.8 0

6u 0 0.2 0.8 0 1 0 0.7 0.3

Phân

nhóm 3

8u 0.1 0.8 0.1 0.7 0.3 0 0 1

9u 0.3 0.7 0 1 0 0 0 1

3u 0 0.3 0.7 0.6 0.4 0 0.2 0.8

98

- Trong mỗi phân nhóm, tính khoảng cách Jaccard mờ trực tiếp giữa

biến ngôn ngữ của thuộc tính quyết định với các biến ngôn ngữ của thuộc

tính điều kiện theo công thức (4.4) như ở Bảng 4.3.

Bảng 4.3. Khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ

của Bảng 4.2

Quyết định

1C

3C

1c

2c 3c

7c 8c

1d 0.25 0.904762 1 0.47619 0.333333

2d 0.666667 0.416667 0.72 0.875 0.241379

3d 0.857143 0.357143 0.714286 0.178571 0.75

- Lựa chọn 0.245 (mức ý nghĩa do người dùng ấn định) để xác định

sự khác biệt giữa các biến ngôn ngữ theo khoảng cách Jaccard mờ trực tiếp,

khoảng cách nào có giá trị nhỏ hơn được xem như là “đủ gần” hay tương

tự với biến ngôn ngữ của thuộc tính quyết định. Sinh luật quyết định với

0.245 như sau:

+ Với quyết định “ 2d ”, khoảng cách Jaccard mờ trực tiếp giữa biến

ngôn ngữ của thuộc tính quyết định 2d D và biến ngôn ngữ của thuộc tính

điều kiện 8 3c C là 0.241379, thỏa mãn điều kiện nhỏ hơn tham số ngưỡng

0.245 . Do vậy, luật quyết định Rule 2 (luật quyết định thứ i (Rule i) được

đặt tương ứng với quyết định id D ) được rút ra

Rule 2: IF 3C is 8c THEN D is 2d .

Luật này được biểu diễn tương ứng ở bảng quyết định mờ chơi thể

thao (Bảng 1.2) là:

IF Độ ẩm is “Bình thường” THEN Quyết định is “Bơi”

99

+ Với quyết định “3d ”, khoảng cách Jaccard mờ trực tiếp giữa biến

ngôn ngữ của thuộc tính quyết định 3d D với các biến ngôn ngữ của thuộc

tính điều kiện 7 3c C là 0.178571 và với phủ định khoảng cách

1 1c C là

0.142857, đều thỏa mãn điều kiện nhỏ hơn tham số ngưỡng 0.245 . Luật

quyết định Rule 3 được rút ra

Rule 3: IF 1C is NOT 1c AND 3C is 7c THEN D is 3d .

Luật này được biểu diễn tương ứng ở bảng quyết định mờ chơi thể


IF Thời tiết is NOT “Có nắng” AND Độ ẩm is “Ẩm ướt” THEN

Quyết định is “Lướt ván”

+ Với quyết định “1d ”, không có khoảng cách Jaccard mờ trực tiếp

nguyên gốc nào giữa biến ngôn ngữ của thuộc tính điều kiện và thuộc tính

quyết định của Bảng 4.3 nhỏ hơn để phân lớp. Do vậy, chúng ta xây dựng

luật cho quyết định “ 1d ” theo công thức (4.6) với tham số ngưỡng β=0.9 (do

người dùng chọn) được xác định như sau:

Rule 1: IF MF (Rule 2) < AND MF (Rule 3) < THEN D is “ 1d ”

- Tập luật quyết định sinh ra từ các tham số ngưỡng (α=0.245; β=0.9)

như sau:

Rule 1: IF MF (Rule 2) < AND MF (Rule 3) < THEN D is “ 1d ”


Rule 3: IF 1C is NOT 1c AND 3C is 7c THEN D is 3d

- Sử dụng các luật MF(Rule i) với 1 3i để gán nhãn cho các đối

tượng cụ thể. Khả năng lựa chọn các nhãn 1( )D d , 2( )D d , 3( )D d cho mỗi đối

tượng được tính

100

1( )D d = MF(Rule 1)



Ví dụ: Xét đối tượng 2u , ta có:

MF(Rule 2) = 0.3;

MF(Rule 3) = Min(0, 0.7) = 0;

Vì MF (Rule 2) = 0.3 và MF (Rule 3) = 0 , nên MF(Rule 1) =

1 theo công thức (4.7). Đối tượng 2u được gán nhãn vào các lớp id D theo

tập luật quyết định như sau:

1( )D d = MF(Rule 1) = 1

2( )D d = MF(Rule 2) = 0.3

3( )D d = MF(Rule 3) = 0

Như vậy, với các tham số ngưỡng (α=0.245; β=0.9) được chọn để tìm

tập luật quyết định, đối tượng 2u được gán nhãn vào nhóm quyết định 1( )D d

trong Bảng 4.1, tương ứng với quyết định chơi “bóng chuyền” trong Bảng

1.2

Tính tương tự cho các đối tượng khác, kết quả gán nhãn của Bảng 4.2

theo các luật quyết định với các tham số ngưỡng (α=0.245; β=0.9) như Bảng

4.4.

Bảng 4.4. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.9)

TT

Nhãn được biết trong

dữ liệu huấn luyện

Nhãn học được từ các

luật quyết định

1( )D d

2( )D d 3( )D d

1( )D d 2( )D d

3( )D d

2u 0.8 0.2 0 1 0.3 0

101

7u 0.7 0.4 0 1 0.8 0

4u 0.6 0.3 0.1 1 0.8 0.2

1u 0.1 0.9 0 0.3 0.7 0.3

5u 0.6 0.8 0 0 1 0

6u 0 0.7 0.3 0 1 0

8u 0 0 1 0.3 0.3 0.7

9u 0 0 1 0 0 0.7

3u 0 0.2 0.8 0.4 0.4 0.6

Bảng 4.4 cho thấy tất cả chín đối tượng của bảng quyết định được gán

nhãn đúng theo các luật quyết định rút ra từ dữ liệu. Độ chính xác phân lớp

trong trường hợp này là: 9 100%9 .

Với các tham số ngưỡng (α=0.245; β=0.8) được chọn để tìm tập luật

quyết định cho Bảng 4.2, kết quả gán nhãn của tập dữ liệu huấn luyện theo

các luật quyết định như Bảng 4.5.

Bảng 4.5. Kết quả gán nhãn của Bảng 4.2 với (α=0.245; β=0.8)

TT





1( )D d

2( )D d 3( )D d

1( )D d 2( )D d

3( )D d

2u 0.8 0.2 0 1 0.3 0

7u 0.7 0.4 0 0 0.8 0

4u 0.6 0.3 0.1 0 0.8 0.2

1u 0.1 0.9 0 0.3 0.7 0.3

5u 0.6 0.8 0 0 1 0

6u 0 0.7 0.3 0 1 0

102

8u 0 0 1 0.3 0.3 0.7

9u 0 0 1 0 0 0.7

3u 0 0.2 0.8 0.4 0.4 0.6

Bảng 4.5 cho thấy có bảy đối tượng của bảng quyết định được gán

nhãn đúng theo các luật quyết định, hai đối tượng ( 7u , 4u ) của lớp “1d ” bị gán

nhãn sai vào quyết định “ 2d ”. Độ chính xác của phân lớp trong trường hợp

này là 77 %79

.78 .

4.3.2.3. Một số vấn đề về chọn tham số ngưỡng

Chúng ta nhận thấy rằng, độ chính xác phân lớp dữ liệu theo tập luật

quyết định phụ thuộc rất nhiều vào việc chọn các giá trị α, β phù hợp. Một số

kinh nghiệm chọn tham số ngưỡng [, ] được rút ra như sau:

- Chọn α đủ nhỏ để khoảng cách Jaccard mờ giữa biến ngôn ngữ của

thuộc tính quyết định được coi là tương tự hay “đủ gần” với một số biến

ngôn ngữ của thuộc tính điều kiện có ảnh hưởng đến quyết định, giá trị α thể

hiện mức ý nghĩa của tập luật do người dùng xác định. Dựa trên thực nghiệm

cho thấy, nếu giá trị α đủ nhỏ để luật sinh ra có ý nghĩa và có (m-1) luật sinh

ra trực tiếp từ bảng quyết định có m biến ngôn ngữ theo công thức (4.5), một

luật còn lại sinh ra theo công thức (4.6) thì tập luật này thường hỗ trợ phân

lớp dữ liệu tốt.

- Với ngưỡng β, chọn giá trị nhỏ nhất trong giới hạn chọn để phần điều

kiện của các luật sinh ra trực tiếp theo công thức (4.5) áp dụng cho các đối

tượng chưa được phân lớp nhỏ hơn β. Lúc đó các đối tượng còn lại được

phân lớp đúng theo các tập luật được sinh ra có sử dụng thêm tham số

ngưỡng β. Mục tiêu của việc chọn tham số ngưỡng β phù hợp để nhãn được

gán theo luật quyết định càng giống với nhãn đã biết từ tập dữ liệu huấn

luyện càng tốt.

103

Tham số ngưỡng [, ] chọn như trên được cho là phù hợp khi đảm

bảo được được mức ý nghĩa ở mức chấp nhận được và độ chính xác phân lớp

dữ liệu học được từ tập luật là tốt nhất.

Ví dụ 4.5 (Tiếp theo Ví dụ 4.4). Với khoảng cách Jaccard mờ giữa các biến

ngôn ngữ của thuộc tính điều kiện đã cho như Bảng 4.3, lựa chọn 0.26 .

Tính tương tự như Ví dụ 4.4 để tìm được một tập luật quyết định cho Bảng

4.2

Tập luật quyết định sinh ra từ các tham số ngưỡng α=0.26



Rule 3: IF 1C is NOT 1c AND 3C is 7c THEN D is 3d

Tập luật này được biểu diễn tương ứng ở bảng quyết định mờ chơi thể


Rule 1: IF Thời tiết is “Có nắng” THEN Quyết định is “Bóng

chuyền”

Rule 2: IF Độ ẩm is “Bình thường” THEN Quyết định is “Bơi”

Rule 3: IF Thời tiết is NOT “Có nắng” AND Độ ẩm is “Ẩm ướt”

THEN Quyết định is “Lướt ván”

Vậy, tập luật quyết định sinh ra của Bảng 4.2 với α=0.26 (không cần

sử dụng tham số ). Kết quả gán nhãn của Bảng 4.2 theo các luật quyết định

vừa tìm được với các tham số ngưỡng (α=0.26) cho ở Bảng 4.6

Bảng 4.6. Kết quả gán nhãn của Bảng 4.2 với (α=0.26)

TT





1( )D d

2( )D d 3( )D d

1( )D d 2( )D d

3( )D d

104

2u 0.8 0.2 0 1 0.3 0

7u 0.7 0.4 0 1 0.8 0

4u 0.6 0.3 0.1 0.8 0.8 0.2

1u 0.1 0.9 0 0.3 0.7 0.3

5u 0.6 0.8 0 0.5 1 0

6u 0 0.7 0.3 0 1 0

8u 0 0 1 0.1 0.7 0.7

9u 0 0 1 0.3 1 0.7

3u 0 0.2 0.8 0 0.6 0.6

Bảng 4.6 cho thấy có 5/9 đối tượng của bảng quyết định được gán nhãn

đúng ( 2u , 7u , 1u , 5u , 6u ) theo tập luật quyết định, đối tượng 9u bị gán nhãn sai,

3/9 đối tượng ( 4u , 8u , 3u ) không phân biệt được nhãn thuộc vào lớp nào rõ

ràng nhất (nhập nhằng trong khả năng phân lớp).

Độ chính xác phân lớp của các đối tượng theo tập luật quyết định trong

trường hợp này là 5 55 %9

.56 .

Độ nhập nhằng của các đối tượng trong trường hợp này là 3 33 %9

.33 .

Qua Ví dụ 4.4 và Ví dụ 4.5 cho thấy việc chọn tham số ngưỡng [, ]

rất quan trọng, ảnh hưởng đến mức ý nghĩa của luật (chấp nhận độ sai lệch

khoảng cách giữa các biến ngôn ngữ) và độ chính xác phân lớp của dữ liệu

học được từ tập luật. Với =0.245 của Ví dụ 4.4 rõ ràng có mức ý nghĩa tốt

hơn (sai lệch về khoảng cách ít hơn) là =0.26 của Ví dụ 4.5. Tập luật quyết

định sinh ra với tham số (=0.245, =0.9) cho độ chính xác phân lớp dữ liệu

của Bảng 4.2 là 100%. Ngược lại với =0.26 của Ví dụ 4.5, mức ý nghĩa của

tập luật kém hơn (sai lệch khoảng cách lớn hơn) và độ chính xác phân lớp dữ

105

liệu của Bảng 4.2 học theo tập luật này là 55.56%. Rõ ràng, tập luật sinh ra

bởi Ví dụ 4.4 tốt hơn tập luật ở Ví dụ 4.5.


Mục đích thử nghiệm nhằm đánh giá độ chính xác phân lớp dữ liệu

theo tập luật quyết định sinh ra từ các thuật toán MRBFA, MRBBA [21] và

FJ_RBAR, là những công bố gần đây cho kết quả tốt. Độ chính xác phân lớp

được tính bằng tỷ lệ những đối tượng được gán nhãn đúng trên tổng số đối

tượng được gán nhãn. Để tiến hành thử nghiệm, luận án thực hiện các công

việc sau.

1) Xây dựng tập luật từ dữ liệu huấn luyện

- Chọn sáu bộ dữ liệu mẫu lấy từ kho dữ liệu UCI [99] cho ở Bảng 2.2

để tiến hành thử nghiệm.


TT Bộ dữ liệu

Số thuộc

tính điều

kiện

Số đối

tượng Số lớp


2 Iris 4 150 3

3 Glass 10 214 7

4 Sonar 60 208 2



- Cài đặt ba thuật toán MRBFA, MRBBA và FJ_RBAR bởi ngôn ngữ

C#. Thuật toán FJ_RBAR được thực hiện trên các bảng quyết định mờ đã

được rút gọn thuộc tính bởi thuật toán F_RSAR1. Các thuật toán MRBFA,

106

MRBBA [21] sinh luật quyết định trực tiếp từ bảng quyết định mờ dựa trên

miền dương mờ, không thông qua bước rút gọn thuộc tính.

- Mờ hóa sáu bộ dữ liệu lấy từ kho dữ liệu UCI [99] theo thuật toán

[21], [84], [92] với số mờ có hàm thuộc hình tam giác. Các giá trị thực của

thuộc tính A tại mỗi đối tượng u U được biểu diễn bởi { ( ), }X x u u U ;

được gom vào k biến ngôn ngữ Ti, i=1,...,k. Mỗi biến ngôn ngữ có hàm thuộc

hình tam giác như sau:

+ 1

1 2 2 1 1 2

2

1,( ) ( ) / ( ),

0,

x mT x m x m m m x m

m x

+ 1 1 1

1

1,( ) ( ) / ( ),

0,

k

k k k k k k

k

x mT x x m m m m x m

x m

+

1

1 1 1

1 1 1

1

0,( ) / ( ),

( ) 2,3,..., 1( ) / ( ),0,

i

i i i i ii

i i i i i

i

x mm x m m m x m

T x i kx m m m m x m

x m

(4.11)

Điểm trung tâm mi , i=1,...,k được tính theo giải thuật Feature-maps

của Kohonen theo các công trình [52]-[54]. Trong phạm vi nghiên cứu của

luận án này không nghiên cứu về các phương pháp mờ hóa bảng quyết định

miền gián trị thực. Các tập dữ liệu mờ được sử dụng làm đầu vào cho các

thuật toán MRBFA, MRBBA và F_RSAR1. Thuật toán FJ_RBAR sử dụng

đầu vào là bảng dữ liệu mờ đã rút gọn thuộc tính thu được từ F_RSAR1.

- Trên máy tính PC với cấu hình: Bộ xử lý Pentium Core i3, 2.4 GHz

CPU, 2 GB RAM, sử dụng hệ điều hành Windows 10, chạy thử nghiệm các

thuật toán MRBFA, MRBBA và FJ_RBAR trên sáu bộ dữ trên để tìm các tập

luật quyết định cho mỗi bộ dữ liệu.

2) Kiểm tra độ chính xác phân lớp trên tập kiểm tra

107

Để đánh giá độ chính xác phân lớp dữ liệu, luận án phân chia mỗi tập

dữ liệu thành mười phần bằng nhau; chín phần được sử dụng làm tập dữ liệu

huấn luyện nhằm tìm tập luật quyết định, một phần còn lại được sử dụng làm

tập dữ liệu kiểm tra để đánh giá độ chính xác phân lớp dữ liệu theo các luật

quyết định vừa tìm được. Đối với phần dữ liệu sử dụng làm tập kiểm tra, ghi

nhớ và loại bỏ nhãn ban đầu của các đối tượng; sau đó tiến hành gán nhãn

cho các đối tượng theo tập luật quyết định. So sánh nhãn gán theo tập luật

quyết định với nhãn ban đầu, nếu trùng nhau là phân lớp đúng, ngược lại là

phân lớp sai. Lặp lại mười lần với việc hoán chuyển phần dữ liệu huấn luyện

và phần dữ liệu kiểm tra để đánh giá độ chính xác phân lớp trung bình và độ

lệch chuẩn trên tập kiểm tra; độ lệch chuẩn đặc trưng cho sự biến thiên của

dữ liệu.

Đối với thuật toán FJ_RBAR lựa chọn tham số ngưỡng

[0.1, 0.5], [0.6,1.0] (do người dùng ấn định) để giới hạn luật, bước

nhảy cho mỗi sự thay đổi tham số ngưỡng là 0.01, đây là bước nhảy phù hợp

để tìm được những tập luật có ý nghĩa với thời gian thực hiện chấp nhận

được mà các phương pháp khác cũng thường lựa chọn. Lý do chọn

[0.1, 0.5] bởi vì đây là mức ý nghĩa chấp nhận được của tập luật sinh ra,

sự sai lệch về khoảng cách giữa các biến ngôn ngữ không quá lớn để tập luật

còn có ý nghĩa. Tham số này càng lớn thì độ sai lệch về khoảng cách giữa

các thuộc tính phụ thuộc nhau để rút ra các luật càng nhiều, dẫn đến mức ý

nghĩa của tập luật càng giảm. Theo công thức (4.4), khoảng cách Jaccard mờ

trực tiếp giữa hai biến ngôn ngữ trong bảng quyết định mờ thuộc đoạn [0,1],

nếu khoảng cách giữa hai biến ngôn ngữ nào nhỏ hơn thì coi như hai biến

đó tương tự nhau. Cách chọn nhằm mục đích xác định các đối tượng vào

các phân lớp theo biến ngôn ngữ của thuộc tính quyết định. Nhãn phân lớp

của mỗi đối tượng là giá trị của biến ngôn ngữ của thuộc tính quyết định.

Khả năng phân lớp của mỗi đối tượng vào mỗi lớp chính là giá trị hàm thuộc

của biến ngôn ngữ của thuộc tính quyết định. Các thuật toán MRBFA,

108

MRBBA chọn tham số ngưỡng và từ 0.5 đến 0.8 theo công trình [21] để

giới hạn luật, bước nhảy cho mỗi sự thay đổi tham số ngưỡng là 0.01. Với

FJ_RBAR trong thử nghiệm, tham số ngưỡng [0.1, 0.5] đối với mỗi bộ số

liệu được chọn sao cho có (m-1) luật được sinh ra trực tiếp từ bảng quyết

định có m biến ngôn ngữ theo công thức (4.5), một luật còn lại sinh ra theo

công thức (4.6). Trong giới hạn này, nếu có nhiều tham số thoả mãn để

sinh luật, chọn giá trị nhỏ nhất để sinh ra tập luật. Tham số ngưỡng

[0.6,1.0] được chọn sao cho càng nhiều đối tượng được gán nhãn đúng

theo tập luật càng tốt, nếu có nhiều tham số thoả mãn, chọn giá trị nhỏ nhất

để rút ra tập luật.

3) Kết quả thực nghiệm biểu diễn bởi các Bảng 4.7, Hình 4.2 và Hình 4.3

Bảng 4.7. Kết quả thực nghiệm của MRBFA, MRBBA và FJ_RBAR

T

T Tập dữ liệu

MRBFA MRBBA FJ_RBAR

Độ chính xác

phân lớp

Độ chính xác

phân lớp

Độ chính xác

phân lớp

Tham số

ngưỡng

1 Fisher_Order 0.7842 ± 0.0482 0.7725 ± 0.0411 0.7512 ± 0.0512 (α=0.28; β=0.91)

2 Iris 0.8607 ± 0.0275 0.8108 ± 0.0268 0.9071 ± 0.0326 (α=0.23; β=0.82)

3 Glass 0.5432 ± 0.0696 0.5353 ± 0.0787 0.4658 ± 0.0884 (α=0.15; β=0.85)

4 Sonar 0.9174 ± 0.0231 0.9168 ± 0.0249 0.9182 ± 0.0255 (α=0.3; β=0.75)

5 Sensor_Reading

s_24 0.8232 ± 0.0895 0.8203 ± 0.0723 0.9152 ± 0.0912 (α=0.18; β=0.9)

6 EEG_Eye_State 0.8532 ± 0.0521 0.8412 ± 0.0542 0.7932 ± 0.0512 (α=0.25; β=0.75)

109

Hình 4.2. Độ chính xác phân lớp của MRBFA, MRBBA và FJ_RBAR

Hình 4.3. Độ phân tán dữ liệu của MRBFA, MRBBA và FJ_RBAR

Bảng 4.7, Hình 4.2 và Hình 4.3 cho thấy trên sáu bộ dữ liệu thử

nghiệm, thuật toán FJ_RBAR cho độ chính xác phân lớp tốt nhất tại 3/6 bộ

(Iris, Sonar, Sensor_Readings_24). Trong đó, Sensor_Readings_24 có số

lượng đối tượng khá lớn (5456 đối tượng) và bộ Iris có số đối tượng khá nhỏ

(150 đối tượng); Sonar là bộ dữ liệu có số lượng thuộc tính lớn nhất (60

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

MRBFA

MRBBA

FJ_RBAR

00.010.020.030.040.050.060.070.080.090.1

MRBFA

MRBBA

FJ_RBAR

110

thuộc tính) trong các bộ dữ liệu thử nghiệm. Do vậy, luận án kết luận tính

hiệu quả của phương pháp đề xuất không phụ thuộc vào kích cỡ dữ liệu. Ở

những bộ dữ liệu còn lại, thuật toán FJ_RBAR cho độ chính xác phân lớp

kém hơn MRBFA và MRBBA. Sự chênh lệch về độ chính xác phân lớp dữ

liệu ở những bộ dữ liệu thử nghiệm là không nhiều. Mặt khác, độ lệch chuẩn

của FJ_RBAR là lớn nhất trong đa số các bộ dữ liệu thử nghiệm (5/6 bộ, trừ

EEG_Eye_State). Qua đó cho thấy độ chính xác phân lớp của dữ liệu của

FJ_RBAR học theo tập luật bị ảnh hưởng nhiều hơn bởi sự thay đổi giá trị dữ

liệu vì độ lệch chuẩn đặc trưng cho sự biến thiên dữ liệu. Điều này phù hợp

với thực tế là vì FJ_RBAR sinh ra các luật từ những phân nhóm dữ liệu dựa

trên khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ của bảng

quyết định mờ (tính trên một số đối tượng trong phân nhóm của bảng dữ

liệu). Ngược lại, MRBFA và MRBBA xác định độ quan trọng của thuộc tính

để rút ra các luật quyết định dựa trên miền dương mờ, mỗi luật sinh ra phải

xét toàn bộ các đối tượng của tập dữ liệu. Từ đó, luận án kết luận rằng

FJ_RBAR tỏ ra hiệu quả ở những bộ dữ liệu ổn định so với MRBFA và

MRBBA. Nói một cách khác, MRBFA và MRBBA có ưu thế hơn trên những

bộ dữ liệu có biến động, độ chính xác phân lớp giữa các lần hoán đổi tập dữ

liệu huấn luyện và tập dữ liệu kiểm tra ít bị ảnh hưởng khi giá trị của dữ liệu

thay đổi. Độ chính xác phân lớp của các phương pháp chỉ hơn kém nhau trên

từng bộ dữ liệu thử nghiệm, hiệu quả của từng phương pháp phụ thuộc hoàn

toàn vào sự phân bố dữ liệu, về tổng thể các phương pháp này là tương

đương nhau theo tiêu chí đánh giá về sự hỗ trợ phân lớp dữ liệu.


Chương 4 của luận án giới thiệu một phương pháp rút gọn thuộc tính

trực tiếp của bảng quyết định mờ sử dụng phân hoạch mờ xác định trước trên

mỗi thuộc tính, bảo toàn miền dương mờ. Đóng góp chính của chương này là

đề xuất độ đo khoảng cách Jaccard mờ trực tiếp giữa hai tập mờ, ứng dụng

xây dựng phương pháp sinh luật quyết định của bảng quyết định mờ. Khoảng

111

cách Jaccard mờ giữa hai tập mờ được tính trực tiếp trên miền giá trị của hai

tập mờ nên không bị mất mát thông tin. Trên cơ sở đó, lựa chọn những tham

số ngưỡng [ , ] [0,1] phù hợp để sinh ra các luật quyết định, kết quả thu

được tập luật hỗ trợ phân lớp dữ liệu. Phương pháp sinh luật quyết định được

thực hiện trên bảng quyết định mờ sau khi đã rút gọn thuộc tính nên tập luật

thu được sẽ đơn giản hơn các luật sinh bởi các phương pháp khác sử dụng

bảng quyết định mờ chưa rút gọn thuộc tính. Độ chính xác của dữ liệu phân

lớp cũng tương đương một số phương pháp khác [21], [44], [51] sử dụng

cùng một số bộ dữ liệu mô phỏng thực nghiệm. Độ phức tạp tính toán của

thuật toán FJ_RBAR là ( )O C D U nên có khả năng áp dụng thực tế. Do

vậy, kết quả nghiên cứu của chương này bổ sung làm phong phú thêm bộ sưu

tập các kỹ thuật rút gọn thuộc tính và sinh luật quyết định của bảng quyết

định mờ.

112

KẾT LUẬN

1) Những kết qủa chính của luận án:

(1) Với bài toán tìm một tập rút gọn của bảng quyết định miền giá trị thực

theo tiếp cận tập thô mờ, luận án nghiên cứu các nhóm phương pháp rút gọn

thuộc tính sử dụng quan hệ tương đương mờ dựa trên miền dương mờ,

entropy thông tin mờ và ma trận phân biệt mờ. Trên bảng quyết định miền

giá trị thực, luận án đạt được những kết quả sau:

- Cải tiến phương pháp sử dụng miền dương mờ nhằm khắc phục những

hạn chế của các công bố trước đây là tập rút gọn chưa đảm bảo không

dư thừa thuộc tính và bảo toàn miền dương mờ. Đây là phương pháp

rút gọn thuộc tính cơ bản nhất theo tiếp cận tập thô mờ. Đóng góp này

được trình bày ở công trình [CCN1], [CCN2].

- Xây dựng khoảng cách Jaccard mờ và đề xuất phương pháp rút gọn

thuộc tính của bảng quyết định miền giá trị thực sử dụng độ đo

khoảng cách Jaccard mờ. Dựa vào kết quả thực nghiệm trên một số bộ

dữ liệu lấy từ kho dữ liệu UCI [99], kết luận phương pháp sử dụng

khoảng cách Jaccard mờ cải thiện hơn phương pháp sử dụng entropy

thông tin mờ theo hai tiêu chí đánh giá: Độ chính xác phân lớp và thời

gian thực hiện của thuật toán trên một số bộ số liệu. Đóng góp này

được trình bày ở công trình [CCN3].

- Đề xuất khoảng cách giữa hai phân hoạch mờ và ứng dụng xây dựng

phương pháp rút gọn thuộc tính của bảng quyết định miền giá trị thực.

Dựa vào kết quả thực nghiệm trên một số bộ dữ liệu lấy từ kho dữ liệu

UCI [99], kết luận phương pháp sử dụng khoảng cách phân hoạch mờ

cải thiện hơn các phương pháp sử dụng entropy thông tin mờ và miền

dương mờ theo hai tiêu chí đánh giá: Độ chính xác phân lớp và thời

gian thực hiện của thuật toán trên đa số bộ số liệu thử nghiệm. Đóng

góp này được trình bày ở công trình [CCN4].

113

(2) Với bài toán rút gọn thuộc tính và sinh luật quyết định của bảng quyết

định mờ, luận án nghiên cứu phương pháp rút gọn thuộc tính và sinh luật

quyết định dựa trên các phân hoạch mờ xác định trước trên mỗi thuộc tính.

Đối với bảng quyết định mờ, luận án đạt được kết quả sau:

- Cải tiến phương pháp rút gọn thuộc tính dựa trên miền dương mờ để

tìm được một tập rút gọn không dư thừa và bảo toàn miền dương mờ.

Phương pháp đề xuất cải tiến điều kiện dừng và công thức tính độ

quan trọng của thuộc tính của thuật toán FUZZY-QUICKREDUCT,

kiểm tra tính dưa thừa của tập rút gọn. Đóng góp này được trình bày ở

công trình [CCN2].

- Đề xuất phương pháp sinh luật quyết định của bảng quyết định mờ sử

dụng khoảng cách Jaccard mờ trực tiếp giữa các biến ngôn ngữ. Bằng

lý thuyết và thực nghiệm, luận án cho thấy phương pháp đề xuất có độ

chính xác phân lớp dữ liệu tương đương các phương pháp khác. Đóng

góp này được trình bày ở công trình [CCN5].

2) Hướng phát triển của luận án:

(1) Đối với bảng quyết định có miền giá trị thực, tiếp tục nghiên cứu mối

liên hệ giữa các tập rút gọn. Từ đó, hoàn thiện việc phân loại và so

sánh các phương rút gọn thuộc tính của bảng quyết định có miền giá

trị thực theo tiếp cận tập thô mờ.

(2) Đối với bảng quyết định mờ, nghiên cứu các phương pháp hiệu quả để

rút gọn thuộc tính và sinh luật quyết định theo tiêu chí đánh giá độ

chính xác phân lớp dữ liệu và thời gian thực hiện. Xây dựng các độ đo

đánh giá hiệu năng của tập luật quyết định trên bảng quyết định mờ.

114

Danh mục các công trình của tác giả

TẠP CHÍ KHOA HỌC

[CCN1]. Cao Chính Nghĩa, Vũ Đức Thi, Nguyễn Long Giang (2016),

“Rút gọn trực tiếp thuộc tính trên bảng quyết định theo tiếp cận tập

thô mờ”, Tạp chí Khoa học công nghệ quân sự, số 43, Tr. 110-118.

[CCN2]. Cao Chính Nghĩa, Vũ Đức Thi, Tân Hạnh, Nguyễn Long Giang

(2016), “Rút gọn thuộc tính của bảng quyết định sử dụng miền

dương mờ”, Tạp chí Khoa học Công nghệ thông tin và Truyền

thông, Học viện Công nghệ Bưu chính viễn thông, số 2, Tr. 3-10.

[CCN3]. Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh

(2016), “Fuzzy distance based attribute reduction in decision

tables”, Chuyên san Các công trình nghiên cứu, phát triển và ứng

dụng CNTT&TT số 16 (36), Bộ Thông tin và truyền thông, Tr. 104-

112.

[CCN4]. Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu

Duc Thi (2016), “About a fuzzy distance between two fuzzy

partitions and attribute reduction problem”, Cybernetics and

Information Technologies, Scopus index, Vol 16, No 4, pp. 13-28.

HỘI NGHỊ KHOA HỌC

[CCN5]. Nguyễn Quang Huy, Nguyễn Long Giang, Cao Chính Nghĩa,

Tân Hạnh, Phạm Văn Dũng (2016), Một phương pháp sinh luật

quyết định của bảng quyết định mờ sử dụng khoảng cách mờ, Hội

thảo quốc gia lần thứ IXX, Một số vấn đề chọn lọc của công nghệ

thông tin và truyền thông, tr. 276-281.

115

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt

[1] Hoàng Thị Lan Giao (2009), Một thuật toán tìm tập rút gọn trong bảng

quyết định không đầy đủ, Tạp chí Tin học và Điều khiển học 25(1), tr.

69-78.

[2] Ngọc Minh Châu, Nguyễn Xuân Thảo (2013), Một thuật toán tìm tập

rút gọn sử dụng ma trận phân biệt được, tạp chí khoa học và phát triển,

11(5), tr. 729-734.

[3] Nguyễn Đức Thuần (2010), Phủ tập thô và độ đo đánh giá hiệu năng tập

luật quyết định, Luận án Tiến sĩ Toán học, Viện Công nghệ thông tin.

[4] Nguyễn Long Giang (2012), Nghiên cứu một số phương pháp khai phá

dữ liệu theo tiếp cận lý thuyết tập thô, Luận án Tiến sĩ Toán học, Viện

Công nghệ thông tin.

[5] Nguyễn Long Giang, Vũ Đức Thi (2011), Một phương pháp rút gọn

thuộc tính dựa trên entropy cải tiến, Tạp chí Tin học và Điều khiển học,

27(2), tr. 166-175.

[6] Nguyễn Long Giang, Vũ Đức Thi (2011), Thuật toán tìm tất cả các tập

rút gọn trong bảng quyết định, Tạp chí Tin học và Điều khiển học,

27(3), tr. 199-205.

[7] Phùng Thị Hiền (2014), Nghiên cứu rút gọn thuộc tính trong hệ thông

tin quyết định giá trị tập, Luận án Tiến sĩ Công nghệ thông tin, Học

viện Kỹ thuật quân sự.

[8] Vũ Đức Thi (2012), Một số vấn đề tính toán liên quan đến cơ sở dữ liệu

và khai phá dữ liệu, Tạp chí Khoa học và Công nghệ 50(6), tr. 679-703.

Tài liệu tiếng Anh

116

[9] Al Daoud, E. (2015), An efficient algorithm for finding a fuzzy rough

set reduct using an improved harmony search, International Journal of

Modern Education and Computer Science, 7(2), 16.

[10] Aydogan, E. K., Gencer, C., & Agirgun, B. (2010), An Attribute

Reduction Algorithm Based on Fuzzy Rough Set, In 24th mini EURO

Conference MEC EurOPT.

[11] Azhagusundari, B., & Thanamani, D. A. S. (2013), Feature selection

based on fuzzy entropy, IJETTCS, 2(2), pp. 4-30.

[12] Bai, H., Ge, Y., Wang, J., Li, D., Liao, Y., & Zheng, X. (2014), A

method for extracting rules from spatial data based on rough fuzzy sets,

Knowledge-Based Systems, 57, pp. 28-40.

[13] Beaubouef, T., & Petry, F. E. (2000), Fuzzy rough set techniques for

uncertainty processing in a relational database, International Journal of

Intelligent Systems, 15(5), pp. 389-424.

[14] Bhatt, R. B., and Gopal, M. (2005), On fuzzy-rough sets approach to

feature selection, Pattern recognition letters, 26(7), pp. 965-975.

[15] Chen, D. G., Tsang, E. C., and Zhao, S. Y. (2007, October), An

approach of attributes reduction based on fuzzy T L rough sets, In 2007

IEEE International Conference on Systems, Man and Cybernetics (pp.

486-491), IEEE.

[16] Chen, D., Yang, W., & Li, F. (2008), Measures of general fuzzy rough

sets on a probabilistic space, Information Sciences, 178(16), pp. 3177-

3187.

[17] Chen, D., Hu, Q., & Yang, Y. (2011), Parameterized attribute reduction

with Gaussian kernel based fuzzy rough sets, Information

Sciences, 181(23), pp. 5169-5179.

[18] Chen, D., Zhang, L., Zhao, S., Hu, Q., and Zhu, P. (2012), A novel

algorithm for finding reducts with fuzzy rough sets, IEEE Transactions

on Fuzzy Systems, 20(2), pp. 385-389.

117

[19] Chen, S. M., Lee, S. H., and Lee, C. H. (2001), A new method for

generating fuzzy rules from numerical data for handling classification

problems, Applied Artificial Intelligence, 15(7), pp. 645-664.

[20] Cheng, Y. (2012), A new approach for rule extraction in fuzzy

information systems, Journal of Computational Information Systems,

21(8), pp. 8795-8805.

[21] Cheng, Y. (2015), Forward approximation and backward approximation

in fuzzy rough sets, Neurocomputing, 148, pp. 340-353.

[22] Chierichetti, F., Kumar, R., Pandey, S., & Vassilvitskii, S. (2010,

January), Finding the jaccard median, In Proceedings of the twenty-first

annual ACM-SIAM symposium on Discrete Algorithms (pp. 293-311),

Society for Industrial and Applied Mathematics.

[23] Cornelis, C., Jensen, R., Hurtado, G., & Śle, D. (2010), Attribute

selection with fuzzy decision reducts, Information Sciences, 180(2), pp.

209-224.

[24] Dai, J., and Xu, Q. (2013), Attribute selection based on information

gain ratio in fuzzy rough set theory with application to tumor

classification, Applied Soft Computing, 13(1), pp. 211-221.

[25] Dai, J., & Tian, H. (2013), Fuzzy rough set model for set-valued data,

Fuzzy Sets and Systems, 229, pp. 54-68.

[26] Degang, C., and Suyun, Z. (2010), Local reduction of decision system

with fuzzy rough sets, Fuzzy Sets and Systems, 161(13), pp. 1871-1883.

[27] Deng, T., Chen, Y., Xu, W., and Dai, Q. (2007), A novel approach to

fuzzy rough sets based on a fuzzy covering, Information

Sciences, 177(11), pp. 2308-2326.

[28] Demetrovics, J., Thi, V. D., Giang, N. L. (2013), An Efficient

Algorithm for Determining the Set of All Reductive Attributes in

Incomplete Decision Table, Cybernetics and Information

Technologies, 13(4), pp. 118-126.

118

[29] Demetrovics, J., , Thi, V. D., Giang, N. L. (2014), On Finding All

Reducts of Consistent Decision Tables, Cybernetics and Information

Technologies, 14(4).

[30] Demetrovics, J., Huong, N. T. L., Thi, V. D., Giang, N. L. (2016),

Metric Based Attribute Reduction Method in Dynamic Decision

Tables, Cybernetics and Information Technologies, 16(2), pp. 3-15.

[31] Dong, C., Wu, D., & He, J. (2008, December), Knowledge reduction of

evaluation dataset based on genetic algorithm and fuzzy rough set,

In Computer Science and Software Engineering, 2008 International

Conference on (Vol. 3, pp. 889-892), IEEE.

[32] Dubois, D., and Prade, H. (1990), Rough fuzzy sets and fuzzy rough

sets, International Journal of General System, 17(2-3), pp. 191-209.

[33] Dubois, D., and Prade, H. (1992), Putting rough sets and fuzzy sets

together, Intelligent Decision Support, Kluwer Academic Publishers,

Dordrecht.

[34] Fujita, O. (2013), Metrics based on average distance between

sets, Japan Journal of Industrial and Applied Mathematics, 30(1), pp.

1-19.

[35] Gardner, A., Kanno, J., Duncan, C. A., & Selmic, R. (2014), Measuring

distance between unordered sets of different sizes, In Proceedings of

the IEEE Conference on Computer Vision and Pattern Recognition, pp.

137-143.

[36] He, Q., Wu, C., Chen, D., and Zhao, S. (2011), Fuzzy rough set based

attribute reduction for information systems with fuzzy

decisions, Knowledge-Based Systems, 24(5), pp. 689-696.

[37] Hong, T. P., Wang, T. T., & Chien, B. C. (2001), Learning approximate

fuzzy rules from training examples. In Fuzzy Systems, 2001, The 10th

IEEE International Conference on (Vol. 1, pp. 256-259), IEEE.

119

[38] Hu, Q., Xie, Z., and Yu, D. (2007), Hybrid attribute reduction based on

a novel fuzzy-rough model and information granulation, Pattern

recognition, 40(12), pp. 3509-3521.

[39] Hu, Q., Yu, D., and Xie, Z. (2006), Information-preserving hybrid data

reduction based on fuzzy-rough techniques, Pattern recognition

letters, 27(5), pp. 414-423.

[40] Hu, Q., Yu, D., Xie, Z., and Liu, J. (2006), Fuzzy probabilistic

approximation spaces and their information measures, IEEE

transactions on fuzzy systems, 14(2), pp. 191-201.

[41] Hu, Q., An, S., & Yu, D. (2010), Soft fuzzy rough sets for robust

feature evaluation and selection, Information Sciences, 180(22), pp.

4384-4400.

[42] Hu, Q., Zhang, L., Chen, D., Pedrycz, W., & Yu, D. (2010), Gaussian

kernel based fuzzy rough sets: Model, uncertainty measures and

applications, International Journal of Approximate Reasoning, 51(4),

pp. 453-471.

[43] Inuiguchi, M., Greco, S., & Slowinski, R. (2004), Fuzzy rough sets,

gradual decision rules and approximate reasoning, Mathematical

Programming Concerning Decision Makings and Uncertainties.

[44] Jensen, R., and Q. Shen, Q.(2008), Computational Intelligence and

Feature Selection, Rough and Fuzzy Approaches, Aberystwyth

University, IEEE Computational Intelligence Society, Sponsor.

[45] Jensen, R., and Shen, Q. (2002), Fuzzy-rough sets for descriptive

dimensionality reduction. In Fuzzy Systems, 2002, FUZZ-IEEE'02,

Proceedings of the 2002 IEEE International Conference on (Vol. 1, pp.

29-34), IEEE.

[46] Jensen, R., & Shen, Q. (2002, September), Aiding fuzzy rule induction

with fuzzy-rough attribute reduction, In Proceedings of the 2002 UK

Workshop on Computational Intelligence (pp. 81-88).

120

[47] Jensen, R., and Shen, Q. (2004), Fuzzy–rough attribute reduction with

application to web categorization, Fuzzy sets and systems, 141(3), pp.

469-485.

[48] Jensen, R., and Shen, Q. (2004), Semantics-preserving dimensionality

reduction: rough and fuzzy-rough-based approaches, IEEE

Transactions on knowledge and data engineering, 16(12), pp. 1457-

1471.

[49] Jensen, R., and Shen, Q. (2007), Fuzzy-rough sets assisted attribute

selection, IEEE Transactions on fuzzy systems, 15(1), pp. 73-89.

[50] Jensen, R., and Shen, Q. (2009), New approaches to fuzzy-rough

feature selection, IEEE Transactions on Fuzzy Systems, 17(4), pp. 824-

838.

[51] Jensen, R., Cornelis, C., and Shen, Q. (2009, August), Hybrid fuzzy-

rough rule induction and feature selection. In Fuzzy Systems, 2009,

FUZZ-IEEE 2009, IEEE International Conference on (pp. 1151-1156),

IEEE.

[52] Kohonen, T. (1988), An introduction to neural computing, Neural

networks, 1(1), 3-16.

[53] Kohonen, T. (1998), The self-organizing map, Neurocomputing, 21(1),

pp. 1-6.

[54] Kohonen, T. (2012), Self-organization and associative memory (Vol.8).

Springer Science & Business Media.

[55] Kumar, M., & Yadav, N. (2014), Fuzzy Rough Sets and Its Application

in Data Mining Field, Advances in Computer Science and Information

Technology (ACSIT), 237.

[56] LEVASHENKO, V., and MARTINCOVÁ, P. (2005), Fuzzy decision

tree for parallel processing support, Journal of Information, Control and

Management Systems, Vol. 3.

121

[57] Liu, G. (2008), Axiomatic systems for rough sets and fuzzy rough sets,

International Journal of Approximate Reasoning, 48(3), pp. 857-867.

[58] Liu, X., Qian, Y., & Liang, J. (2014), A rule-extraction framework

under multigranulation rough sets, International Journal of Machine

Learning and Cybernetics, 5(2), pp. 319-326.

[59] Maji, P., & Garai, P. (2013), On fuzzy-rough attribute selection: criteria

of max-dependency, max-relevance, min-redundancy, and max-

significance, Applied Soft Computing, 13(9), pp. 3968-3980.

[60] Mageswari, G. U., & Devi, M. I. (2016), Attribute subset selection

based on fuzzy rough set and ranking approach, Int J Adv Engg Tech,

Vol. VII, Issue II, April-June, pp. 735-742.

[61] Meghabghab, G. (2006, June), Fuzzy Rough Sets as a Pair of Fuzzy

Numbers: A New Approach and New Findings, In Fuzzy Information

Processing Society, 2006. NAFIPS 2006, Annual meeting of the North

American (pp. 46-51), IEEE.

[62] Meng, J., Xu, Y., & Zhang, J. (2012, August), Comparison of two

algorithms of attribute reduction based on fuzzy rough set,

In Computational and Information Sciences (ICCIS), 2012 Fourth

International Conference on (pp. 542-545), IEEE.

[63] Ming, Z., Zhengbo, Y., Liukun, Z., Huijie, W., and Xiaogang, X.

(2012), The Extraction Method of the Energy Consumption

Characteristics Based on Fuzzy Rough Set, AASRI Procedia, 1, pp.

142-149.

[64] Nguyen, L. G. (2012, September), Metric based attribute reduction in

decision tables, In Computer Science and Information Systems

(FedCSIS), 2012 Federated Conference on (pp. 311-316), IEEE.

[65] Ouyang, Y., Wang, Z., & Zhang, H. P. (2010), On fuzzy rough sets

based on tolerance relations, Information Sciences, 180(4), pp. 532-542.

122

[66] Pawlak Z. (1991), Rough sets: Theoretical Aspects of Reasoning About

Data, Kluwer Academic Publishers.

[67] Pawlak, R., Grzymala-Busse, J.W., Slowinski, R., Ziako, W. (1995),

Rough sets, Communications, ACM 38(11), pp. 89-95.

[68] Pawlak, Z. (1982), Rough sets, International Journal of Computer &

Information Sciences, 11(5), pp. 341-356.

[69] Qian, Y., Li, Y., Liang, J., Lin, G., and Dang, C. (2015), Fuzzy granular

structure distance, IEEE Transactions on Fuzzy Systems, 23(6), pp.

2245-2259.

[70] Qian, Y., Liang, J., and Dang, C. (2009), Knowledge structure,

knowledge granulation and knowledge distance in a knowledge

base, International Journal of Approximate Reasoning, 50(1), pp. 174-

188.

[71] Qian, Y., Liang, J., Wei-zhi, Z. W., and Dang, C. (2011), Information

granularity in fuzzy binary GrC model, IEEE Transactions on Fuzzy

Systems, 19(2), pp. 253-264.

[72] Qian, Y., Wang, Q., Cheng, H., Liang, J., and Dang, C. (2015), Fuzzy-

rough feature selection accelerator, Fuzzy Sets and Systems, 258, pp.

61-78.

[73] Radzikowska, A. M., and Kerre, E. E. (2002), A comparative study of

fuzzy rough sets. Fuzzy sets and systems, 126(2), pp. 137-155.

[74] Shen, Q., and Jensen, R. (2004), Selecting informative features with

fuzzy-rough sets and its application for complex systems

monitoring. Pattern recognition, 37(7), pp. 1351-1363.

[75] Sun, R., & Han, R. (2009, June), Data mining based on fuzzy rough set

theory and its application in the glass identification, In Information and

Automation, 2009. ICIA'09. International Conference on (pp. 154-157),

IEEE.

123

[76] Sun, B., and Ma, W. (2011), Fuzzy rough set model on two different

universes and its application, Applied Mathematical Modelling 35, pp.

1798–1809.

[77] Tavan, P., Grubmüller, H., & Kühnel, H. (1990), Self-organization of

associative memory and pattern classification: recurrent signal

processing on topological feature maps, Biological Cybernetics, 64(2),

pp. 95-105.

[78] Tsang, G. C., Degang, C., Tsang, E. C., Lee, J. W., and Yeung, D. S.

(2005, October), On attributes reduction with fuzzy rough sets, In 2005

IEEE International Conference on Systems, Man and Cybernetics (Vol.

3, pp. 2775-2780), IEEE.

[79] Tsang, E. C., and Chen, D. G. (2006, August), The Fuzzy Rough Set

Approaches of Fuzzy Reasoning, In 2006 International Conference on

Machine Learning and Cybernetics (pp. 1642-1646), IEEE.

[80] Tsang, E. C., Chen, D., Yeung, D. S., Wang, X. Z., and Lee, J. W.

(2008). Attributes reduction using fuzzy rough sets, IEEE Transactions

on Fuzzy systems, 16(5), pp. 1130-1141.

[81] Tsang, E. C., Zhao, S. Y., and Lee, J. W. (2007, August), Rule

induction based on fuzzy rough sets, In 2007 International Conference

on Machine Learning and Cybernetics (Vol. 5, pp. 3028-3033), IEEE.

[82] Wang, X. Z., Ha, Y., & Chen, D. G. (2005, August), On the reduction

of fuzzy rough sets, In Machine Learning and Cybernetics, 2005,

Proceedings of 2005 International Conference on (Vol. 5, pp. 3174-

3178), IEEE.

[83] Wang, X., & Hong, J. (1999), Learning optimization in simplifying

fuzzy rules, Fuzzy sets and systems, 106(3), pp. 349-356.

[84] Wang, X., Tsang, E. C., Zhao, S., Chen, D., & Yeung, D. S. (2007),

Learning fuzzy rules from fuzzy samples based on rough set

technique, Information sciences, 177(20), pp. 4493-4514.

124

[85] Wei-feng, D., Hai-ming, L., Yan, G., & Dan, M. (2005, July), Another

kind of fuzzy rough sets, In Granular Computing, 2005 IEEE

International Conference on (Vol. 1, pp. 145-148), IEEE.

[86] Wu, Q. E., Wang, T., Huang, Y. X., & Li, J. S. (2006, August), New

research on fuzzy rough sets, In Machine Learning and Cybernetics,

2006 International Conference on (pp. 4178-4183). IEEE.

[87] Wu, W. Z., Mi, J. S., and Zhang, W. X. (2003), Generalized fuzzy

rough sets.Information sciences, 151, pp. 263-282.

[88] Xu, F. F., Miao, D. Q., and Wei, L. (2009), Fuzzy-rough attribute

reduction via mutual information with an application to cancer

classification, Computers and Mathematics with Applications, 57(6),

pp. 1010-1017.

[89] Xu, F., Miao, D., and Wei, L. (2007, August), An Approach for Fuzzy-

Rough Sets Attributes Reduction via Mutual Information, In FSKD

(3) (pp. 107-112).

[90] Yao, Y. Y. (1998), A comparative study of fuzzy sets and rough sets,

Information sciences, 109(1), pp. 227-242.

[91] Yeung, D. S., Chen, D., Tsang, E. C., Lee, J. W., and Xizhao, W.

(2005), On the generalization of fuzzy rough sets, IEEE Transactions

on fuzzy systems, 13(3), pp. 343-361.

[92] Yuan, Y., and Shaw, M. J. (1995), Induction of fuzzy decision

trees, Fuzzy Sets and systems, 69(2), pp. 125-139.

[93] Zadeh, L. A. (1965), Fuzzy sets, Information and control, 8(3), pp. 338-

353.

[94] Zeng, A., Li, T., Liu, D., Zhang, J., & Chen, H. (2015), A fuzzy rough

set approach for incremental feature selection on hybrid information

systems, Fuzzy Sets and Systems, 258, pp. 39-60.

[95] Zhang, S., & Sun, J. (2009, August), Continuous value attribute

decision table analysis method based on fuzzy set and rough set theory,

125

In Fuzzy Systems and Knowledge Discovery, 2009, FSKD'09, Sixth

International Conference on (Vol. 2, pp. 75-79), IEEE.

[96] Zhang, M., Chen, D. G., & Yang, Y. Y. (2013, July), A new algorithm

of attribute reduction based on fuzzy clustering, In Machine Learning

and Cybernetics (ICMLC), 2013 International Conference on (Vol. 1,

pp. 155-158), IEEE.

[97] Zhang, X., Mei, C., Chen, D., and Li, J. (2016), Feature selection in

mixed data: A method using a novel fuzzy rough set-based information

entropy, Pattern Recognition, 56, pp. 1-15.

[98] Zhao, S., & Tsang, E. C. (2008), On fuzzy approximation operators in

attribute reduction with fuzzy rough sets, Information

Sciences, 178(16), pp. 3163-3176.

[99] http://archive.ics.uci.edu/ml/datasets.html

[100] https://sourceforge.net/projects/weka

http://archive.ics.uci.edu/ml/datasets.html

Documents

CÁC RÚT G THU À SINH LUẬT QUYẾT ĐỊNHportal.ptit.edu.vn/saudaihoc/wp-content/uploads/2017/11/LUANANTS... · tận tình hướng dẫn tác giả hoàn thành ... Tác giả