gust.edu.vngust.edu.vn/media/27/uftai-ve-tai-day27282.pdf · 2020. 1. 31. · BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-----------------------------

Nguyễn Tuấn Anh

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ

LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN

NGỮ VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – Năm 2020

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-----------------------------

Nguyễn Tuấn Anh

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ

LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN

NGỮ VÀ ỨNG DỤNG

Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC

Mã sỗ: 62.46.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

1. PGS.TSKH. Nguyễn Cát Hồ

2. TS. Trần Thái Sơn

Hà Nội – Năm 2020

1

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được

viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa

vào luận án. Các kết quả trong luận án là trung thực và chưa từng được công bố trong

bất kỳ công trình nào khác.

Tác giả

Nguyễn Tuấn Anh

2

LỜI CẢM ƠN

Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TSKH. Nguyễn

Cát Hồ và TS. Trần Thái Sơn. Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết

ơn sâu sắc nhất tới hai thầy.

Tác giả gửi lời cảm ơn chân thành tới Ban lãnh đạo Học viện Khoa học và

Công nghệ, Viện Công nghệ thông tin, khoa Công nghệ thông tin và truyền thông đã

tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án.

Xin cảm ơn Ban giám hiệu trường Đại học Công nghệ thông tin và Truyền

thông - ĐHTN, Ban chủ nhiệm khoa Công nghệ thông tin đã quan tâm giúp đỡ, tạo

điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu.

Cảm ơn các đồng nghiệp thuộc Khoa Công nghệ thông tin - Trường Đại học

Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các anh chị trong nhóm

nghiên cứu đại số gia tử đã động viên, khích lệ trao đổi những kiến thức và kinh

nghiệm trong quá trình hoàn thành luận án.

Cuối cùng, tác giả xin chân thành cảm ơn bố mẹ, chị em, đặc biệt là vợ và các

con, những người luôn dành cho tác giả những tình cảm và chia sẻ những lúc khó

khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu.

Luận án cũng là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành viên

trong gia đình.

3

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.......................................... 5

DANH MỤC HÌNH BẢNG BIỂU ........................................................................... 6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................. 7

MỞ ĐẦU .................................................................................................................... 9

CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ ...................................................... 17

1.1. Tập mờ và các phép toán trên tập mờ ........................................................ 17

1.1.1. Tập mờ (fuzzy set) ................................................................................... 17

1.1.2. Biến ngôn ngữ .......................................................................................... 18

1.1.3. Phân hoạch mờ ......................................................................................... 19

1.2. Đại số gia tử ................................................................................................... 21

1.2.1. Khái niệm Đại số gia tử ........................................................................... 21

1.2.2. Một số tính chất của ĐSGT tuyến tính .................................................... 22

1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ ............................................. 23

1.2.4. Khoảng mờ .............................................................................................. 24

1.2.5. Độ đo tính mờ của các giá trị ngôn ngữ .................................................. 25

1.3. Giải thuật di truyền ...................................................................................... 27

1.4. Bài toán khai phá luật kết hợp .................................................................... 29

1.4.1. Một số khái niệm cơ bản.......................................................................... 29

1.4.2. Bài toán khai phá luật kết hợp mờ ........................................................... 31

1.5. Một số hướng nghiên cứu về luật kết hợp .................................................. 34

1.6. Kết luận chương 1 ........................................................................................ 37

CHƯƠNG 2. KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP CẬN

SỬ DỤNG ĐẠI SỐ GIA TỬ .................................................................................. 38

2.1. Đặt vấn đề ...................................................................................................... 38

2.2. Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT ............................. 39

2.2.1. Mờ hóa cơ sở dữ liệu giao dịch ............................................................... 39

2.2.2. Quan hệ khoảng cách giao dịch ............................................................... 41

2.2.3. Xây dựng bảng định lượng ...................................................................... 42

2.3. Nén cơ sở dữ liệu giao dịch .......................................................................... 43

2.4. Thuật toán trích xuất luật kết hợp mờ ....................................................... 46

4

2.5. Kết quả thử nghiệm ...................................................................................... 48

2.5.1. Thử nghiệm với CSDL FAM95............................................................... 48

2.5.2. Thử nghiệm với CSDL STULONG ........................................................ 51

2.6. Kết luận chương 2 ........................................................................................ 54

CHƯƠNG 3. PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN BIỂU

DIỄN THỂ HẠT CỦA ĐSGT ................................................................................ 56

3.1. Phân hoạch cho miền giá trị của thuộc tính ............................................... 56

3.1.1. Đặt vấn đề ................................................................................................ 56

3.1.2. Rời rạc hóa thuộc tính định lượng ........................................................... 57

3.1.3. Phân chia miền giá trị của thuộc tính theo cách tiếp cận lý thuyết tập mờ

........................................................................................................................... 60

3.2. Phương pháp phân hoạch mờ bằng biểu diễn thể hạt với ĐSGT ............ 63

3.2.1. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt .......... 64

3.2.2. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt ............ 66

3.3. Phương pháp tối ưu tham số mờ ĐSGT cho bài toán khai phá luật kết

hợp ......................................................................................................................... 70

3.3.1. Mô hình giải thuật di truyền CHC ........................................................... 71

3.3.2. Mã hóa tập các MF .................................................................................. 72

3.3.3. Đánh giá nhiễm sắc thể ............................................................................ 73

3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp ................... 75

3.5. Kết quả thử nghiệm ...................................................................................... 77

3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm ................................................. 77

3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn

thể hạt ................................................................................................................. 78

3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa

thể hạt ................................................................................................................. 93

3.6. Kết luận chương 3 ........................................................................................ 97

KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................ 99

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN

ÁN ........................................................................................................................... 101

TÀI LIỆU THAM KHẢO .................................................................................... 102

5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

Các ký hiệu

𝒜𝒳 Đại số gia tử tuyến tính

𝒜𝒳∗ Đại số gia tử tuyến tính đầy đủ

𝜇(ℎ) Độ đo tính mờ của gia tử h

𝑓𝑚(𝑥) Độ đo tính mờ của gia tử x

𝑣(𝑥) Hàm định lượng của giá trị ngôn ngữ của biến x

𝜇𝐴(𝑥) Hàm xác định độ thuộc của giá trị x vào tập mờ A

𝑙(𝑥) Độ dài của từ ngôn ngữ x

ℑ𝑓𝑚 Khoảng tính mờ của giá trị ngôn ngữ

𝑋𝑘 Tập các hạng từ có độ dài đúng bằng k

𝑋(𝑘) Tập các hạng từ có độ dài ≤ 𝑘

Các từ viết tắt

AR Luật kết hợp (association rule)

DB, CSDL Cơ sở dữ liệu

ĐLNN Định lượng ngữ nghĩa

ĐSGT Đại số gia tử

FRBS Fuzzy Rule-based Systen

GA Giải thuật di truyền (Genetic Algorithms)

KB Knowledge Base

MF Hàm thuộc (Membership function)

RB Fuzzy-based

SQM Semantically Quantifying Mapping

Min Supp Độ hỗ trợ tối thiểu

6

DANH MỤC HÌNH BẢNG BIỂU

Bảng 2.1: Cơ sở dữ liệu ví dụ ................................................................................... 41

Bảng 2.2: Mờ hóa dữ liệu trong Bảng 2.1 ................................................................ 41

Bảng 2.3: Bảng định lượng của cơ sở dữ liệu Bảng 2.2 ........................................... 43

Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80% ................................. 48

Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80% .................. 49


Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80% ................................. 51

Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80% .... 52


Bảng 2.10: Luật kết hợp thu được với độ hỗ trợ 90% và độ tin cậy 80% ................ 53

Bảng 3.1: CSDL thống kế dân số của 10 gia đình .................................................... 58

Bảng 3.2: Rời rạc hóa thuộc tính định lượng ............................................................ 58

Bảng 3.3: Ví dụ rời rạc hóa thuộc tính "Tuổi" .......................................................... 59

Bảng 3.4: CSDL thử nghiệm .................................................................................... 77

Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương

pháp sử dụng biểu diễn đơn thể hạt........................................................................... 78

Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt ............................................... 79

Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật ........................................ 82

Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet ..................................................... 86

Bảng 3.9: Bảng Độ thú vị trung bình ........................................................................ 90

Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với

phương pháp sử dụng biểu diễn đa thể hạt ................................................................ 94

Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp ......................................... 94

Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp ..................................... 95

7

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già ....... 19

Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt ......................................... 20

Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt ........................................... 20

Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH ................................. 25

Hình 1.5: Độ đo tính mờ của biến TRUTH .............................................................. 26

Hình 1.6: Lưu đồ giải thuật di truyền ....................................................................... 28

Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT ............................................... 40

Hình 2.2: Tổng quan về thuật toán nén CSDL giao dịch .......................................... 43

Hình 2.3: Thời gian thực hiện với CSDL nén và CSDL không nén ......................... 50

Hình 2.4: Thời gian thực hiện với CSDL nén ........................................................... 50

Hình 2.5: Thời gian thực hiện với CSDL nén và CSDL không nén ......................... 54

Hình 3.1: Xây dựng phần hoạch miền xác định của thuộc tính theo cách tiếp cận

ĐSGT ........................................................................................................................ 65

Hình 3.2: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đơn thể hạt .... 65

Hình 3.3: Cấu trúc hạt thể nhiều mức ....................................................................... 67

Hình 3.4: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đa thể hạt ...... 69

Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính và khai

phái luật kết hợp ........................................................................................................ 70

Hình 3.6: Mô hình giải thuật di truyền CHC ............................................................ 72

Hình 3.7: Tập các MF cho mục Ij ...................................................................... 74

Hình 3.8: Hai tập hàm thuộc phân bố không tốt ................................................ 75

Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp ........... 80

Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp .................................... 81

Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp ....................... 81

Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp ..................................... 82

Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp .................................... 83

8

Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của

Herrera sử dụng lý thuyết tập mờ .............................................................................. 85

Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng

biểu diễn đơn thể hạt và ĐSGT ................................................................................. 86

Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution .... 88

Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong ...... 88

Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball .. 89

Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake ........ 89

Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock .......... 90

Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution .. 91

Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong .... 92

Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball 92

Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake ...... 92

Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock ........ 93

Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp ................................. 95

Hình 3.27: So sánh số lượng tập phổ biến và Min Supp .......................................... 95


biểu diễn đa thể hạt và ĐSGT ................................................................................... 97

9

MỞ ĐẦU

Cùng với sự phát triển mạnh mẽ của Công nghệ thông tin, đặc biệt là các hệ

thống thông tin quản lý giai đoạn vừa qua, xuất hiện rất nhiều các kho thông tin hay

CSDL lớn hoặc rất lớn. Để khai thác thông tin ẩn trong các kho dữ liệu kích cỡ lớn

như vậy nhằm phục vụ cho các nhu cầu quản lý cũng như cho các hoạt động khoa

học khác nhau (như trí tuệ nhân tạo,..), hướng nghiên cứu khai phá dữ liệu, phát hiện

tri thức đã ra đời thu hút sự quan tâm của các nhà tin học cũng như các chuyên gia

trong nhiều lĩnh vực khác nhau như y tế, giáo dục,… và phát triển mạnh mẽ trong

thời gian gần đây. Vài thí dụ có thể thấy:

- Phát hiện những mối quan hệ dữ liệu, các luật kết hợp trong các kho dữ liệu

lớn như các CSDL, các kho dữ liệu giao dịch bán hàng trong siêu thị, các kho dữ liệu

phản ảnh một phạm vi nào đó của hoạt động kinh tế - xã hội.

- Giải quyết vấn đề trích rút thông tin trong tập dữ liệu lớn dạng các câu tóm tắt

ngôn ngữ (Linguistic summaries).

Bài toán khai thác luật kết hợp (Association rule mining) là hướng nghiên cứu

quan trọng và sớm được nghiên cứu phát triển trong hướng nghiên cứu khai phá dữ

liệu. Giai đoạn đầu, các nghiên cứu trước đây được giới hạn trong phạm vi “bài toán

luật kết hợp cổ điển”, tức là chỉ làm việc với các kho dữ liệu có giá trị nhị phân (0 và

1), sau đó mở rộng ra dữ liệu nằm trong trường số thực. Trong những năm gần đây

nhiều giải thuật dùng cho những công việc đặc thù đã được phát triển theo nhiều

hướng khác nhau nhưng chủ yếu xoay quanh hai hướng chính:

(i) Cải tiến tốc độ trung bình các thuật toán khai phá luật kết hợp, vì thông

thường đây là bài toán có độ phức tạp hàm mũ do phải quét CSDL nhiều lần.

(ii) Nghiên cứu sâu hơn về ý nghĩa của các luật kết hợp vì ta thấy không phải

luật kết hợp nào khai phá được cũng có ý nghĩa đối vời người sử dụng.

Có rất nhiều thuật toán đã được đề xuất để tìm kiếm luật kết hợp từ CSDL có

thuộc tính định lượng. Dạng khai phá luật kết hợp đầu tiên được đề xuất là luật kết

hợp nhị phân dựa trên dữ liệu basket đã được Agrawal và cộng sự đề xuất [21]. Ở đây

CSDL là một bảng các giao dịch tại một siêu thị trong ngày chẳng hạn với các cột là

các mục (hàng hóa) và các dòng là danh sách người mua. Nếu người A mua hàng ở

10

các mục x, y, z,… thì tại đó, CSDL nhận giá trị 1, còn lại là nhận giá trị 0. Như vậy,

bài toán khai phá dữ liệu ban đầu làm việc với các giá trị nhị phân.

Một luật kết hợp có dạng R: "𝑁ế𝑢 𝑋 𝑡ℎì 𝑌", trong đó X, Y là tập các mục,

𝑋, 𝑌 ⊆I và X ∩Y = ∅, X được gọi là tiên đề, Y được gọi là hệ quả của luật. Hai độ do

quan trọng và thường được sử dụng trong bài toán khai phá luật kết hợp là: Độ hỗ trợ

(support) và Độ tin cậy (confidence).

Với CSDL nhị phân chỉ quan tâm là một mặt hàng có xuất hiện trong giao dịch

hay không mà không quan tâm đến số lượng mặt hàng trong mỗi giao dịch. Trong

thực tế CSDL thương bao gồm có cả các thuộc tính định lượng, các thuật toán khai

phá luật kết hợp với dữ liệu nhi phân không thể áp dụng với CSDL dạng này. Để có

thể xử lý dữ liệu kiểu này, phương pháp thường được sử dụng là chia miền giá trị của

các thuộc tính định lượng đó thành các khoảng, sau đó chuyển CSDL thành CSDL

mới để có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân [8]. Luật kết hợp

này có dạng: Nếu Tuổi ∈ [1, 25] thì Thu nhập ∈ [2 triệu, 3 triệu]. Với phương pháp

rời rạc dữ liệu này đã giải quyết được bài toán chuyển từ CSDL giao dịch với dữ liệu

số về dữ liệu giao dịch nhị phân, tuy nhiên với kết quả này cũng chưa thỏa mãn các

nhà nghiên cứu. Một cách tự nhiên, điều này dẫn đến việc đề xuất và nghiên cứu các

luật kết hợp mờ, ở đó người ta phân chia miền xác định của thuộc tính bằng các tập

mờ.

Trong [29-31, 57], thuật toán khai phá luật kết hợp mờ đã được đề xuất. Luật

kết hợp mờ có dạng: “Nếu X là A Thì Y là B”. “X là A” gọi là tiền (tiên) đề, “Y là B”

gọi là kết luận của luật. 𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑝}, Y= {𝑦1, 𝑦2, … , 𝑦𝑞} là tập mục là tập con

của tập thuộc tính I của CSDL. 𝐴 = {𝑓𝑥1 , 𝑓𝑥2 , … , 𝑓𝑥𝑝}, B= {𝑓𝑦1 , 𝑓𝑦2 , … , 𝑓𝑦𝑞} là các tập

mờ tương ứng của các thuộc tính X, Y.

Để khai phá luật kết hợp mờ với CSDL có các thuộc tính định lượng, đầu tiên

phải phân hoạch miền giá trị của các thuộc tính thành các miền mờ (mỗi miền mờ

gắn với một nhãn ngôn ngữ). Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi

là một tập mờ và ứng với một hàm thuộc (Membership Function -MF) nhằm xác định

độ “thuộc” của giá trị biến vào tập mờ đã cho. Hàm thuộc xác định độ thuộc của một

đối tượng vào mỗi tập mờ đã được định nghĩa trước cho các thuộc tính định lượng.

Khi đó, mỗi giá trị của một thuộc tính trong CSDL sẽ ứng với một tập các giá trị của

11

các hàm thuộc ứng với các tập mờ của thuộc tính đó và ta sẽ xử lý tập giá trị độ thuộc

này thay cho xử lý bản thân giá trị đó của CSDL.

Thuật toán khai phá luật kết hợp mờ đề xuất trong [30], thuật toán khai phá

luật kết hợp mờ theo trình tự sau: người sử dụng hoặc chuyên gia phải cung cấp thuật

toán cùng với các tập mờ cho các thuộc tính định lượng và các hàm thuộc. Các hàm

thuộc và tập mờ được cung cấp dựa vào kinh nghiệm của các chuyên gia, có thể không

phù hợp với luật kết hợp mờ của CSDL. Để có được các luật kết hợp chất lượng, một

trong các hướng nghiên cứu đực các tác giả đề xuất là dựa vào CSDL giao dịch đầu

vào trích chọn ra các hàm thuộc.

Trong các nghiên cứu về khai phá tri thức, bài toán phân chia miền xác định

các thuộc tính định lượng của dữ liệu ngày càng nhận được sự quan tâm rộng rãi.

Phân chia miền xác định của thuộc tính là bước khởi đầu quan trọng cho cả một quá

trình xử lý thông tin về sau cho hầu hết các bài toán khai phá tri thức như: khai phá

luật kết hợp, phân loại, nhận dạng, hồi quy [15, 16, 28, 52, 67],...

Trong các năm gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây

dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên

công đoạn tiếp theo. Nếu không có một hệ các MF được xây dựng tốt thì cũng sẽ

không thể trích xuất các luật kết hợp tốt được. Nếu ta có một sự phân chia mờ hợp lý

(theo một số tiêu chuẩn xác định), các tri thức khai phá được về sau cũng sẽ là các tri

thức phản ánh đúng đắn hơn các quy luật ẩn trong kho thông tin. Ngược lại, nếu ban

đầu không có sự phân chia mờ hợp lý, tri thức khai phá được có thể sẽ mang nặng

tính chủ quan, áp đặt, không đúng với bản chất sự việc. Đây thật ra là bài toán không

đơn giản dù cho bề ngoài của sự việc không cho thấy rõ điều đó. Bài toán phức tạp

trước hết vì liên quan đến nhận thức mang tính cảm tính của cá nhân, phụ thuộc nhiều

vào ngữ cảnh, chẳng hạn trong miền thuộc tính “khoảng cách” thì khoảng cách bao

nhiêu gọi là “xa”, là “tương đối gần”,... Thứ nữa, việc phân chia mờ cũng phụ thuộc

rất nhiều vào dữ liệu đầu vào mà ta có được. Một số nghiên cứu có giả thiết về hàm

phân bố xác suất của dữ liệu hoặc các giả thiết khác. Tuy nhiên dữ liệu thì rất đa dạng,

các giả thiết không phải lúc nào cũng thỏa mãn và khối lượng thông tin thì vô cùng

lớn, đòi hỏi phải có các phương pháp tin cậy nhưng không quá phức tạp để có thể xử

lý thông tin trong thời gian chấp nhận được.

12

Phương pháp tiếp cận theo lý thuyết tập mờ cho ta một cách xử lý dữ liệu khá

mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ điển. Tuy vậy, vẫn còn

nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, việc gắn nhãn

ngôn ngữ vào các miền mờ thường dựa vào trực quan của con người, làm sao xây

dựng được các MF nhanh chóng, phù hợp và cách xử lý các MF này thế nào để giữ

được ngữ nghĩa gắn với chúng,... Rất nhiều thuật toán khai phá luật kết hợp mờ đã

được đề xuất [27, 31, 57, 59, 61, 65] với các phương pháp này thường định nghĩa

trước các hàm thuộc, điều này khó trong thực tế và thương mang ý chủ quan của con

người

Một số công bố được các nhà nghiên cứu đề xuất phương pháp tìm kiếm hàm

thuộc và ứng dụng trong bài toán khai phá luật kết hợp từ CSDL có các thuộc tính

định lượng: Tzung-Pei Hong và cộng sự (2004) [83], (2008) [42], (2016) [46], (2018)

[60]; Herrera và cộng sự (2009) [53], (2015) [22]; Harikesh Bahadur Yadav và cộng

sự (2015) [14]; Aashna Agarwal và cộng sự (2016) [7]; Hemant Kumar Soni và cộng

sự (2016) [38]; Harihar Kalia và cộng sự (2016)[74]; Umesh Kumar Patel và cộng sự

(2016) [76]; Umit Can và cộng sự (2017) [9], Archana Gupta và cộng sự (2019) [75].

Ý tưởng chính của các phương pháp sử dụng giải thuật GA để tìm kiếm trong CSDL

các hàm thuộc từ CSDL sau đó áp dụng hàm thuộc tìm kiếm được để khai phá luật

kết hợp. Hướng nghiên cứu này đã cho phép xây dựng tập các hàm thuộc tốt hơn,

không phải dựa hoàn toàn trên cách nhìn chủ quan của các chuyên gia. Tuy vậy, do

tập các hàm thuộc tương ứng với các tập mờ con dùng để phân chia miền xác định

của thuộc tính có điểm xuất phát ban đầu chưa thực sự tốt nên kết quả thu được qua

giải thuật di truyền chưa thật sự tối ưu (chẳng hạn như độ chồng lấn còn cao, tính

đáng quan tâm, hay ngữ nghĩa của các luật thu được chưa thật sự đáp ứng yêu cầu –

mà ta sẽ thấy qua phân tích các kết quả thử nghiệm về sau).

Để khắc phục một số hạn chế của hướng tiếp cận dựa trên lý tuyết tập mờ,

N.C.Ho và Wechler đã đề xuất hướng tiếp cận tính toán đựa trên ngôn ngữ gọi là

ĐSGT [19, 49]. Với cấu trúc của ĐSGT cho phép ngữ nghĩa tính toán của từ được

định nghĩa dựa trên thứ tự ngữ nghĩa vốn có của các từ của biến, các miền của từ của

các biến thiết lập một cấu trúc dựa trên thứ tự là đủ để giải các bài toán thực tế. Việc

gán ngữ nghĩa tính toán cho các từ của một biến bằng các tập mờ được xem như làm

một ánh xạ. Với phương pháp này, chỉ cần một bộ độ đo tính mờ của các từ của một

13

biến là đủ để xác định các đặc tính định lượng khác nhau như: giá trị định lượng ngữ

nghĩa, các khoảng mờ,… Với các tiếp cận sử dụng ĐSGT cho phép dễ dàng phân

hoạch miền giá trị của các thuộc tính thành các miền mờ dựa vào khoảng tính mờ và

giá trị định lượng ngữ nghĩa của các từ. Từ đó, có dễ dàng xây dựng được các hàm

thuộc đựa trên hoạch đã có. Các hàm thuộc này được xây dựng dựa trên một cấu trúc

ĐSGT vì vậy các hàm thuộc có sự ràng buộc với nhau và gắn với một nhãn ngôn ngữ.

Các phân hoạch dựa trên các miền mờ con theo cách tiếp cận ĐSGT còn là một phân

hoạch mạnh, có nghĩa một giá trị bất kỳ của miền xác định thuộc tính đều có tổng các

độ thuộc vào các hàm thuộc phân chia miền xác định của thuộc tính đó bằng 1. Để

khắc phục nhược điểm của lý thuyết tập mờ, một số giải pháp đã ứng dụng ĐSGT

vào giải quyết bài toán khai phá luật kết hợp mờ [2, 3]. Nguyễn Công Hào và cộng

sự (2012) [2] xem miền trị Dom(A) của thuộc tính mờ là một cấu trúc ĐGST. Với

mỗi x ∈ Dom(A) sẽ tương ứng với mỗi phần tử y trong ĐSGT (sử dụng hàm ngược

trong ĐSGT). Phương pháp này đơn giản nhưng việc ứng mỗi giá trị của Dom(A) với

chỉ một phần tử của ĐSGT có thể gây mất mát thông tin. Nguyễn Nam Tiến và cộng

sự (2012) [3] giải quyết được hạn chế đó bằng cách xác định khoảng cách của x với

giá trị định lượng ngữ nghĩa của hai phần tử gần x nhất về hai phía, còn các phần tử

khác của ĐSGT bằng 0. Như vậy với mỗi giá trị x chúng ta lưu một cặp giá trị thay

vì trong [2] chỉ lưu một giá trị.

Bên cạnh hướng nghiên cứu tìm ra các luật kết hợp có ý nghĩa hơn, các nhà

nghiên cứu cũng đề xuất nhiều giải pháp nhằm tăng tốc độ khai phá luật kết hợp: luật

kết hợp song song, nén dữ liệu nên cây FP-Tree,… Jia-Yu Dai và cộng sự (2008) [18]

đề xuất giải pháp nén CSDL nhị phân, giải pháp là gộp các giao dịch nhị phân tạo

thành giao dịch mới giúp giảm kích thước CSDL giao dịch, Chien-Min Lin (2013)

[5] đề xuất giải pháp nén CSDL giao dịch lên cây FP-tree, Chun-Wei Lin và cộng sự

(2009) [34] đề xuất giải pháp nén CSDL giao dịch mờ lên cây FP-Tree.

Với các hướng nghiên cứu về khai phá luật kết hợp mờ nếu trên, đa phần các

nhà nghiên cứu sử dụng biểu diễn các tập mờ dạng đơn thể hạt. Trong một số năm

gần đây nhiều nhà nghiên cứu đã nghiên cứu và sử dụng các hàm thuộc dạng đa thể

hạt cho các bài toán trong khai phá dữ liệu [37, 66-68, 82, 84].

Đây là một lĩnh vực nghiên cứu ứng dụng rộng lớn. Nội dung nghiên cứu của

luận án có tiếp cận cả hai hướng nghiên cứu (là nghiên cứu giảm thời gian tính toán

14

và tìm hiểu xây dựng các luật có ngữ nghĩa đáng quan tâm của các luật mờ) nhưng

được giới hạn trong các hướng nhỏ:

- Tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng luật mờ,

như luật kết hợp mờ với thông tin ngôn ngữ (luật dạng ngôn ngữ) từ CSDL số nhằm

phát hiện các quan hệ dữ liệu không dễ tiên lượng, nhưng có ích trong công việc quản

lý, hay các tri thức luật mờ sử dụng trong lập luận,...

- Đề xuất giải pháp nén dữ liệu giao dịch mờ nhằm tăng tốc độ khai phá luật kết

hợp.

Trong luận án sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ để

nghiên cứu một số vấn đề về khai phá luật kết hợp vì những lý do sau:

(i) Luật kết hợp mờ được nghiên cứu còn một số nhược điểm kể cả trong việc

xây dựng thuật toán nhằm tăng tốc độ xử lý cũng như trong bài toán phân hoạch miền

xác định của thuộc tính thành các miền mờ nhằm đưa ra các luật kết hợp có ý nghĩa.

Trong khi đó, ĐSGT dựa trên một cấu trúc toán học rõ ràng hơn, do đó việc xây dựng

tập các hàm thuộc xác định các miền mờ con dùng để phân chia miền xác định trở

nên ít mang tính chủ quan hơn và ngữ nghĩa của luật sẽ trở nên dễ chấp nhận hơn.

(ii) Với biểu diễn dữ liệu khác nhau, ĐSGT cho một cách tiếp cận thống nhất

đơn giản mà có hiệu quả cao trong xử lý.

Để nghiên cứu phát triển phương pháp, thuật toán phát hiện tri thức luật như

vậy cần những nội dung nghiên cứu sau:

- Nghiên cứu các phương pháp biểu thị ngữ nghĩa các khái niệm mờ (các từ

ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) hoặc các phương pháp toán học khác

sao cho nó biểu thị ngữ nghĩa các khái niệm phù hợp nhất. Việc nghiên cứu này đòi

hỏi nghiên cứu nắm vững một cách hệ thống thêm các kiến thức về lý thuyết tập mờ

và ĐSGT, những cơ sở lý thuyết liên quan đến biểu thị ngữ nghĩa của các khái niệm

mờ trong ngôn ngữ tự nhiên.

- Một trong những ứng dụng quan trọng của tri thức luật là nó thiết lập cơ sở tri

thức cho lập luận mờ hay lập luận xấp xỉ. Vì vậy, phương pháp luận phát hiện tri thức

luật cũng gắn với phương pháp lập luận mờ: một hệ tri thức luật mờ là tốt, phù hợp

nếu cơ sở tri thức luật được phát hiện tạo được cơ sở cho lập luận hiệu quả. Vì vậy

các phương pháp lập luận mờ cũng là một nội dung nghiên cứu của đề tài. Nội dung

15

nghiên cứu này bao gồm nghiên cứu các phương pháp lập luận dựa trên lý thuyết tập

mờ kết hợp với phương pháp dựa trên ĐSGT.

- Nghiên cứu các phương pháp khai phá tri thức nói chung và các luật mờ nói

riêng.

- Nghiên cứu các cách biểu diễn dữ liệu khác nhau của thông tin để có thể khai

phá luật kết hợp một cách đa dạng, mang nhiều ý nghĩa. Cụ thể các biểu diễn dữ liệu

đa thể hạt (Multi-granularity Representation of Data) được sử dụng, phù hợp với sự

chú ý ngày càng gia tăng của hướng nghiên cứu này.

Kết quả của luận án:

- Đề xuất phương pháp khai phá luật kết hợp mờ dựa trên tiếp cận sử dụng ĐSGT

và giải pháp nén CSDL giao dịch.

- Đề xuất phương pháp tìm kiếm hàm thuộc cho mỗi thuộc tính định lượng trong

CSDL bằng phương pháp sử dụng lý thuyết ĐSGT và giải thuật GA. Các hàm thuộc

trong phương pháp này được xây dựng dựa trên biểu diễn dữ liệu đơn thể hạt và đa

thể hạt.

Bố cục luận án bao gồm: Phần mở đầu, 3 chương, phần kết luận và tài liệu

tham khảo. Kết quả chính của luận án tập trung ở chương 2, và 3. Cụ thể:

Chương 1: Trình bày những kiến thức cơ sở cần thiết làm nền tảng trong quá

trình nghiên cứu và những đề xuất mới của luận án, Các khái niệm của lý thuyết tập

mờ như: tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ.

Trình bày những nội dung cơ bản của lý thuýet ĐSGT như: khái niệm ĐSGT, ĐSGT

tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ, hàm định lượng ngữ nghĩa. Trình

bày tóm tắt về về bài toán khai phá luật kết hợp và một số khái niệm cơ bản liên quan

đến bài toán khai phá luật kết hợp.

Chương 2: Phát triển thuật toán theo hướng tiếp cận ĐSGT cho bài toán khai

phá luật kết hợp mờ. Thay vì cách tiếp cận như truyền thống là sử dụng lý thuyết tập

mờ, luận án sử ĐSGT để mờ hoá CSDL giao dịch, mỗi một thuộc tính định lượng sẽ

sử dụng một cấu trúc ĐSGT. Để giảm thời gian khai phá luật kết hợp, chương này đề

xuất giải pháp nén CSDL giao dịch mờ nhằm giảm kích thước CSDL. Định nghĩa

quan hệ và khoảng cách giữa các giao dịch được đề xuất, từ đó các giao dịch có

khoảng cách gần nhau sẽ được gộp lại với nhau. Do kích thước CSDL thu được nhỏ

hơn kích thước CSDL ban đầu, giúp cho thời gian khai phá giảm.

16

Chương 3: Việc phân chia miền giá trị của các thuộc tính định lượng có ý

nghĩa quan trọng và ảnh hưởng đến ý nghĩa của các luật kết hợp trong bài toán khai

phá luật kết hợp mờ. Trong chương này, luận án sử dụng lý thuyết ĐSGT, mỗi thuộc

tính định lượng sử dụng một ĐSGT. Dựa vào giá trị định lượng ngữ nghĩa của các

phần tử ĐSGT và khoảng tính mờ để xây dựng các hàm thuộc cho các thuộc tính định

lượng. Chúng ta sử dụng biểu diễn đơn thể hạt và đa thể hạt để xây dựng các hàm

thuộc cho các thuộc tính, các hàm thuộc có dạng hình tam giác. Nhằm mục đích thu

được các luật kết hợp có ý nghĩa, luận án sử dụng giải thuật GA để tìm ra các tham

số của ĐSGT. Với cách tiếp cận này, các luật kết hợp được khai phá sẽ phản ánh

phong phú và đa dạng hơn tri thức ẩn chứa trong kho thông tin được khai phá, từ

những tri thức có tính khái quát cao cho đến những tri thức mang tính riêng biệt, chi

tiết hơn.

17

CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ

1.1. Tập mờ và các phép toán trên tập mờ

Lý thuyết tập mờ được Zadeh thiết lập lần đầu năm 1965 trong [40]. Khái niệm

tập mờ là một mở rộng của lý thuyết tập hợp cổ điển và được dùng trong lôgic mờ.

Trong lý thuyết tập hợp cổ điển, quan hệ thành viên của các phần tử trong một tập

hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử hoặc

thuộc hoặc không thuộc về tập hợp. Mở rộng ra trong lý thuyết tập mờ, ngữ nghĩa

của mỗi từ mờ được biểu diễn bằng một hàm từ tập vũ trụ U vào đoạn [0, 1] và hàm

đó gọi là tập mờ trên U. Với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều có thể

thuộc về nó với mực độ thuộc được đo bởi một giá trị trong đoạn [0, 1].

1.1.1. Tập mờ (fuzzy set)

Định nghĩa 1.1: [40] Cho U là vũ trụ các đối tượng. Tập mờ A trên U là tập

các cặp có thứ tự (x, μA(x)), với μA(x) là hàm từ U vào [0, 1] gán cho mỗi phần tử x

thuộc U giá trị μA(x) phản ảnh mức độ thuộc của x thuộc vào tập mờ A.

Nếu 𝜇𝐴(𝑥) = 0 thì ta nói x hoàn toàn không thuộc tập A, ngoài ra nếu 𝜇𝐴(𝑥) =

1 thì ta nói x thuộc hoàn toàn vào A. Trong Định nghĩa 1.1, hàm 𝜇 còn được gọi là

hàm thuộc (membership function).

Khi xây dựng các hàm thuộc của tập mờ A nào đó, một yêu cầu đặt ra là giá

trị của nó phải biến thiên từ 0 đến 1. Trong các ứng dụng lý thuyết tập mờ ta thường

sử dụng một số dạng hàm thuộc dưới đây cho tập mờ A:

Hàm thuộc dạng tam giác: 𝜇𝐴(𝑥) = 𝑚𝑎𝑥 (𝑚𝑖𝑛 (𝑥−𝑎

𝑏−𝑎,𝑐−𝑥

𝑐−𝑏) , 0). Trong đó a, b,

c lần lượt là chân bên trái, đỉnh và chân bên phải của tam giác.

Hàm thuộc dạng hình thang: 𝜇𝐴(𝑥) = 𝑚𝑎𝑥 (𝑚𝑖𝑛 (𝑥−𝑎

𝑏−𝑎,𝑑−𝑥

𝑑−𝑐, 1) , 0). Trong đó

a, d lần lượt là đỉnh dưới bên trái, bên phải, b, c lần lượt là đỉnh trên bên trái, bên phải

của hình thang.

Hàm thuộc Gauss: 𝜇𝐴(𝑥) = 𝑒−(𝑏−𝑥)2

2𝑐2 . Trong đó c là độ rộng và b là vị trí đỉnh

của hàm.

Trong các dạng hàm thuộc của các tập mờ ở trên, hàm thuộc dạng tam giác

được sử dụng nhiều nhất do nó đơn giản và dễ hiểu với người dùng.

18

Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được

mở rộng cho các tập mờ [1, 35, 41]. Theo đó, các phép toán như t-norm, t-conorm,

negation và phép kép theo,... trong logic mờ được đề xuất, nghiên cứu chi tiết cung

cấp cho các mô hình ứng dụng giải các bài toán thực tế.

1.1.2. Biến ngôn ngữ

Biến ngôn ngữ là một biến có thể gán các từ trong ngôn ngữ cho giá trị của nó.

Các từ được đặc trưng bởi định nghĩa tập mờ trong miền xác định mà ở đó biến được

định nghĩa. Các biến ngôn ngữ cho phép biểu diễn một miền các giá trị số dưới dạng

thuật ngữ miêu tả đơn giản của hệ mờ. Ví dụ: tuổi của con người có thể xem đây là

biến ngôn ngữ có tên gọi TUỔI và nó nhận các giá trị ngôn ngữ như: “già”, “rất già”,

“trung bình”, “trẻ”, ”rất trẻ”,... Tương ứng với mỗi hàm thuộc sẽ được gán một giá

trị ngôn ngữ. Giả sử lấy giới hạn của tuổi thông thường trong khoảng [1, 120] và giả

sử rằng các giá trị ngôn ngữ được sinh ra bởi một tập các luật. Khi đó, một cách hình

thức, chúng ta có định nghĩa của biến ngôn ngữ sau đây:

Định nghĩa 1.2: [13] Biến ngôn ngữ là một bộ gồm năm thành phần (X,T(X),

U, R, M), trong đó X là tên biến, 𝑇(𝑋) là tập các giá trị ngôn ngữ của biến X, U là

không gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến

mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn

ngữ cho tập 𝑇(𝑋), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong 𝑇(𝑋) với

một tập mờ trên U.

Ví dụ 1.1: Từ định nghĩa trên, nếu biến ngôn ngữ X là biến TUỔI, biến cơ sở

của u có miền xác định là 𝑈 = [1,120] tính theo tuổi. Tập các giá trị ngôn ngữ tương

ứng của biến ngôn ngữ là 𝑇(𝑇𝑈Ổ𝐼) = {𝑇𝑟ẻ, 𝑇𝑟𝑢𝑛𝑔 𝑛𝑖ê𝑛, 𝐺𝑖à}. R là một qui tắc để

sinh ra các giá trị này. M là luật gán ngữ nghĩa sao cho mỗi một giá trị ngôn ngữ sẽ

được gán với một tập mờ. Chẳng hạn, đối với giá trị nguyên thuỷ “già”, 𝑀(𝐺𝑖à) =

{(𝑢, 𝜇𝐺𝑖à(𝑢))| 𝑢 ∈ [1,120]}, được gán như sau:

𝜇𝐺𝑖à(𝑢) = {

0 𝑢 ≤ 40𝑢 − 40

12040 < 𝑢 ≤ 55

1 55 ≤ 𝑢

19

Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già

1.1.3. Phân hoạch mờ

Chúng ta có định nghĩa phân hoạch mờ như sau:

Định nghĩa 1.3: [36] Cho m điểm cố định 𝑝1, 𝑝2, … , 𝑝𝑚 thuộc tập 𝑈 =

[𝑎, 𝑏] ⊂ 𝑅, 𝑝1 = 𝑎, 𝑝𝑚 = 𝑏 là không gian tham chiếu của biến cơ sở 𝑢 của biến

ngôn ngữ 𝑋. Khi đó một tập 𝑇 gồm m tập mờ 𝐴1, 𝐴2, … , 𝐴𝑚 định nghĩa trên 𝑈 (với

hàm thuộc tương ứng là 𝜇𝐴1 , 𝜇𝐴2,..., 𝜇𝐴𝑚) được gọi là một phân hoạch mờ của 𝑈 nếu

các điều kiện sau thoả mãn, ∀𝑘 = 1, … ,𝑚:

1) 𝜇𝐴𝑘(𝑝𝑘) (𝑝𝑘 thuộc về phần được gọi là lõi của 𝐴𝑘);

2) Nếu x ∉ [𝑝𝑘−1, 𝑝𝑘+1] thì 𝜇𝐴𝑘(𝑥) = 0 (trong đó 𝑝0 = 𝑝1 = 𝑎 và 𝑝𝑝+1 =

𝑝𝑝 = 𝑏);

3) 𝜇𝐴𝑘(𝑥) là liên tục;

4) 𝜇𝐴𝑘(𝑥) đơn điệu tăng trên [𝑝𝑘−1, 𝑝𝑘];

5) ∀𝑥 ∈ 𝑈, ∃𝑘, sao cho 𝜇𝐴𝑘(𝑥) > 0;

Nếu phân hoạch mờ thoả mãn thêm điều kiện 6) dưới đây thì được gọi là phân

hoạch mờ mạnh.

6) ∀𝑥𝜖𝑈,∑ 𝜇𝐴𝑘(𝑥) = 1𝑚𝑘=1 ;

Nếu phân hoạch mờ thoả mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi

là phân hoạch đều.

7) Với 𝑘 ≠ 𝑚 thì ℎ𝑘 = 𝑝𝑘+1 − 𝑝𝑘= hằng số

8) Các tập mờ 𝜇𝐴𝑘(𝑥) là hàm đối xứng

9) Các tập mờ 𝜇𝐴𝑘(𝑥) có cùng một dạng hình học

Mỗi phân hoạch mờ theo định nghĩa Định nghĩa 1.3 còn được gọi là một thể

hạt (granularity), một phân hoạch mờ gồm một thể hạt gọi là phân hoạch mờ đơn thể

20

hạt (single granularity), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ

đa thể hạt (multi granularity).

Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt

Để thiết kế các phân hoạch mờ, chúng ta có thể tiếp cận theo hai hướng: lý

thuyết tập mờ và tiếp cận theo lý thuyết ĐSGT [19, 49]. Theo tiếp cận lý thuyết tập

mờ việc thiết kế phân hoạch mờ là đi xác định các tập mờ cho mỗi phân hoạch rồi

gắn cho nó một nhãn ngôn ngữ. Quá trình thiết kế tập mờ không xuất phát từ ngữ

nghĩa của từ ngôn ngữ và không có ràng buộc liên kết giữa nhãn ngôn ngữ và tập mờ.

Theo tiếp cận lý thuyết ĐSGT khắc phục được một số nhước điểm của lý thuyết tập

mờ, việc thiết kế phân hoạch mờ là đi xác định các từ ngôn ngữ và ngữ nghĩa của từ

sử dụng trong phân hoạch.

Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt

Quá trình này được thực hiện dựa trên ngữ nghĩa của miền ngôn ngữ và dựa

trên hệ hình thức hóa của ĐSGT. Phương pháp thiết kế phân hoạch sử dụng ĐSGT

phù hợp với cấu trúc vốn có của ngôn ngữ tự nhiên.

21

Hình 1.2 là một cấu trúc phân hoạch mờ dạng đơn thể hạt, Hình 1.3 là một cấu

trúc phân hoạch mờ dạng đa thể hạt.

Thiết kế phân hoạch miền giá trị của các thuộc tính sử dụng biểu diễn dạng đa

thể hạt có ưu điểm là các từ có ngữ nghĩa từ khái quát đến đặc tả. Vì vậy nó phù hợp

với ngữ nghĩa vốn có của từ trong thế thế giới thực hơn.

1.2. Đại số gia tử

Để hiểu ý nghĩa của ĐSGT ta hãy lấy biến số 𝑥𝑁 nhận giá trị số thực trên một

khoảng [a, b], định ý biến tốc độ chẳng hạn. Nó mô phỏng một biến của thế giới thực

𝑥𝑅 (Reality). Con người cũng có thể mô tả biến 𝑥𝑅 bằng một biến ngôn ngữ XL sử

dụng các giá trị ngôn ngữ. Vì miền của biến 𝑥𝑁, Dom(𝑥𝑁) có thứ tự tuyến tính, nên

thực tế ta thấy miền ngôn ngữ của XL, Dom(XL), cũng có thức tự tuyến tính và, dó đó,

nó là một cấu trúc toán học. ĐSGT là một lý thuyết nhằm phát hiện và làm rõ cấu

trúc toán học, cụ thể là cấu trúc đại số của miền ngôn ngữ Dom(XL), trong đó các gia

tử như very, rather,… đóng vai trò là các phép tính một ngôi, chẳng hạn “very fast”,

“very rather slow”,…

1.2.1. Khái niệm Đại số gia tử

Định nghĩa 1.4: [19, 49] Một ĐSGT được ký hiệu là bộ 4 thành phần được ký

hiệu 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤) trong đó G là tập các phần tử sinh, H là tập các gia tử (hedge)

còn " ≤ " là quan hệ cảm sinh ngữ nghĩa trên X. Giả thiết trong G có chứa các phần

tử hằng 0, W, 1 với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hoà

(neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ 𝑥 ∈ 𝑋 là một hạng từ (term) trong

ĐSGT.

Tập H được chia thành hai tập con rời nhau, ký hiệu là H− và H+, trong đó H−

là tập gia tử âm (các gia tử làm giảm ngữ nghĩa của các phần tử sinh). H+ là tập các

gia tử dương (các gia tử làm tăng ngữ nghĩa của các phần tử sinh). Không mất tính

tổng quát, ta luôn giả thiết rằng H− = {h−1 < h−2 < ⋯ < h−q} và H+ =

{h1 < h2 < ⋯ < hp}.

Khi tác động gia tử h ∈ H vào phần tử x ∈ X, thì thu được phần tử ký hiệu hx.

Với mỗi x ∈ X, ký hiệu H(x) là tập tất cả các hạng từ u ∈ X được sinh từ ngôn ngữ x

bằng cách áp dụng các gia tử trong H và viết u = hn…h1x với hn,..., h1 ∈ H, n ≥ 1.

22

Nếu tập X và H là các tâp sắp xếp thứ tự tuyến tính, khi đó AX = (X, G, H,≤)

gọi là ĐSGT tuyến tính. Và nếu được trang bị thêm hai gia tử giới hạn là 𝜎 và 𝜙 với

ngữ nghĩa là cận trên đúng bà cận dưới đúng của tập H(x) khi tác động lên x, thì ta

được ĐSGT tuyến tính đầy đủ, ký hiệu AX∗ = (X, G, H, σ, ϕ,≤). Lưu ý rằng

hn…h1u được gọi là một biểu diễn chính tắc của một hạng từ x đối với u nếu

x = hn…h1u và hi…h1u ≠ hi−1…h1u với i nguyên và i ≤ n. Ta gọi độ dài của một

hạng từ 𝑥 là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm

1, kí hiệu l(x).

Ví dụ 1.2: Cho biến ngôn ngữ TRUTH, có G = {0, FALSE,W, TRUE, 1}, H− =

{Possible, Little} và H+ = {More, Very}. Khi đó giá trị của các ngôn ngữ được sắp

xếp thứ tự như sau: Very false < More false < false <Possible false <Little false< true

< More true < Verry true.

1.2.2. Một số tính chất của ĐSGT tuyến tính

Định lý 1.1: [19, 49] Cho tập H− và H+ là các tập có sắp thứ tự tuyến tính của

ĐSGT 𝐴𝑋 = (X, G, H,≤). Khi đó ta có các khẳng định sau:

i) Với mỗi 𝑢 ∈ 𝑋 thì 𝐻(𝑢) là tập sắp thứ tự tuyến tính.

ii) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X

cũng là tập sắp thứ tự tuyến tính. Hơn nữa nếu 𝑢 < 𝑣, và 𝑢, 𝑣 là độc lập với nhau, tức

là 𝑢 ∉ 𝐻(𝑣) và 𝑣 ∉ 𝐻(𝑢), thì 𝐻(𝑢) ≤ 𝐻(𝑣).

Định lý dưới đây xem xét sự so sánh của hai hạng từ trong niền ngôn ngữ của

biến X. Trong đó I là gia tử đơn vị, khi tác động lên một hạng từ không sinh ngữ

nghĩa mới.

Định lý 1.2: [19, 49] Cho 𝑥 = ℎ𝑛…ℎ1𝑢 và 𝑦 = 𝑘𝑛…𝑘1𝑢 là hai biểu diễn

chính tắc của 𝑥 và 𝑦 đối với 𝑢. Khi đó tồn tại chỉ số 𝑗 ≤ 𝑚𝑖𝑛{ 𝑛,𝑚 } + 1 sao cho

ℎ𝑗′ = 𝑘𝑗′ với mọi 𝑗′ < 𝑗 (ở đây nếu 𝑗 = 𝑚𝑖𝑛{𝑛,𝑚} thì hoặc ℎ𝑗 = 𝐼), ℎ𝑗 là gia tử đơn

vị 𝐼, với 𝑗 = 𝑛 + 1 ≤ 𝑚 hoặc 𝑘𝑗 = 𝐼 với 𝑗 = 𝑚 + 1 ≤ 𝑛 và

i) 𝑥 < 𝑦 khi và chỉ khi ℎ𝑗𝑥𝑗 < 𝑘𝑗𝑥𝑗, trong đó 𝑥𝑗 = ℎ𝑗−1ℎ1𝑢.

ii) 𝑥 = 𝑦 khi và chỉ khi m = n và ℎ𝑗𝑥𝑗 = 𝑘𝑗𝑥𝑗

iii) x và y là không so sánh được với nhau khi và chỉ khi ℎ𝑗𝑥𝑗 và 𝑘𝑗𝑥𝑗 là không

so sánh được với nhau.

23

1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ

Theo phương pháp tiếp cận tập mờ, các gái trị định lượng của mỗi tập mờ là

giá trị khử mờ của hàm thuộc tương ứng. Vì các giá trị ngôn ngữ có thứ tự theo ngữ

nghĩa của nó nên trong ĐSGT đã thiết lập một hàm định lượng ngữ nghĩa của các từ

với các giá trị nằm trong đoạn [0,1], các gái trị tương ứng với các từ đảm bảo thứ tự

này.

Định nghĩa 1.5: [19, 49] Cho AX = (X, G, H,≤) là một ĐSGT tuyến tính. Ánh

xạ 𝑣𝔵: 𝑋 → [0,1] được gọi là một hàm định lượng ngữ nghĩa của AX nếu:

(i) 𝑣𝔵 là ánh ạ 1-1 từ tập X vào đoạn [0,1] và bảo toàn thứ tự trên X, tức là

∀𝑥, 𝑦 ∈ 𝑋, 𝑥 < 𝑦 ⇒ 𝑣𝔵(𝑥) < 𝑣𝔵(𝑦) và 𝔳𝔵(0) = 0, 𝔳𝔵(1) = 1.

(ii) 𝑣(𝑋) liên tục: trù mật trong [0,1], nghĩa là ∀(𝑎, 𝑏) ≠ ∅ và (𝑎, 𝑏) ⊆ [0,1],

(𝑎, 𝑏) ∩ 𝑣𝔵(𝑋) ≠ ∅.

Điều kiện (𝑖) là bắt buộc tối thiểu đối với bất kỳ phương pháp định lượng nào,

còn điều kiện (𝑖𝑖) đảm bảo tính trù mật của H(G) trong X. Dựa trên những ràng buộc

này, các tác giả trong [25] đã xây dựng một phương pháp định lượng ngữ nghĩa của

các hạng từ trong ĐSGT. Trước hết chúng ta xét định nghĩa về dấu của các hạng từ

sau:

Định nghĩa 1.6: [19, 49] Một hàm dấu 𝑆𝑖𝑔𝑛: 𝑋 {−1,0,1} là một ánh xạ

được định nghĩa đệ qui như sau, trong đó ℎ, ℎ′ 𝐻 và 𝑐 {𝒄−, 𝒄+}:

(1) 𝑆𝑖𝑔𝑛(𝑐−) = −1, 𝑆𝑖𝑔𝑛(𝑐+) = 1;

(2) 𝑆𝑖𝑔𝑛(ℎ𝑐) = −𝑆𝑖𝑔𝑛(𝑐) nếu h âm đối với c; 𝑆𝑖𝑔𝑛(ℎ𝑐) = 𝑆𝑖𝑔𝑛(𝑐) nếu h

dương đối với c;

(3) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = −𝑆𝑖𝑔𝑛(ℎ𝑥), nếu ℎ′ℎ𝑥 ℎ𝑥 và ℎ′ âm đối với ℎ;

𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 𝑆𝑖𝑔𝑛(ℎ𝑥), nếu ℎ′ℎ𝑥 ℎ𝑥 và ℎ′ dương đối với ℎ;

(4) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 0, nếu ℎ′ℎ𝑥 = ℎ𝑥.

Dựa trên hàm dấu này, chúng ta có tiêu chuẩn để so sánh ℎ𝑥 và 𝑥.

Mệnh đề 1.1: [19, 49] Với bất kỳ ℎ và 𝑥, nếu 𝑆𝑖𝑔𝑛(ℎ𝑥) = 1 thì ℎ𝑥 > 𝑥; nếu

𝑆𝑖𝑔𝑛(ℎ𝑥) = -1 thì ℎ𝑥 < 𝑥.

Định nghĩa 1.7: [19, 49] Cho AX là một ĐSGT tuyến tính đầy đủ và 𝑓𝑚 là

một độ đo tính mờ trên X. Ta nói ánh xạ 𝔳𝔵: 𝑋 [0,1] được cảm sinh bởi độ đo tính

mờ 𝑓𝑚 nếu được định nghĩa bằng đệ qui như sau:

24

(1) 𝑣𝔵(𝑊) = = 𝑓𝑚(𝑐−), 𝑣𝔵(𝑐−) = – . 𝑓𝑚(𝑐−) = . 𝑓𝑚(𝑐−),

𝑣(𝑐+) = + . 𝑓𝑚(𝑐+);

(2) 𝑣𝔵(ℎ𝑗𝑥) = 𝑣𝔵(𝑥) + 𝑆𝑖𝑔𝑛(ℎ𝑗𝑥) {∑ 𝜇(ℎ𝑖)𝑓𝑚(𝑥) −𝑖−𝑠𝑖𝑔𝑛(𝑗)𝑖=𝑠𝑖𝑔𝑛(𝑗)

𝜔(ℎ𝑗𝑥)𝜇(ℎ𝑗)𝑓𝑚(𝑥)};

Với mọi j, −𝑞 ≤ 𝑗 ≤ 𝑝 và 𝑗 0, trong đó 𝜔(ℎ𝑗𝑥) =1

2[1 +

𝑆𝑖𝑔𝑛(ℎ𝑗𝑥) 𝑆𝑖𝑔𝑛(ℎ𝑝ℎ𝑗𝑥) (𝛽 − 𝛼)] ∈ {𝛼, 𝛽}

Với định nghĩa này, các tác giả trong [25] đã chứng minh nó thỏa mãn các yêu

cầu của một hàm định lượng ngữ nghĩa và đảm bảo tính trù mật của nó đối với các

hạng từ của AX trong đoạn [0,1].

Ví dụ 1.3: Xét ĐSGT 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙,≤) là một ĐSGT tuyến tính đầy

đủ của biến ngôn ngữ TUỔI với 𝐻 = {𝑉, 𝐿} và 𝐺 = {𝑦𝑜𝑢𝑛𝑔, 𝑜𝑙𝑑}. Với các tham số

được như sau: 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 35: 80 = 0.4375; 𝑓𝑚(𝑜𝑙𝑑) = 1 – 𝑓𝑚(𝑜𝑙𝑑) =

0.5625; Độ đo tính mờ của gia tử được cho là: 𝜇(𝐿) = 0.5; 𝜇(𝑉) = 0.5; Vì vậy, 𝑞 =

𝑝 = 1 và 𝛼 = 𝛽 = 0.5. Ta có thể tính được giá trị định lượng ngữ nghĩa của một số

hạng tử ngôn ngữ của TUỔI như sau:

Cho 𝑥 = 𝑦𝑜𝑢𝑛𝑔, ta có:

𝑣(𝑦𝑜𝑢𝑛𝑔) = 𝛽 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 0.5 𝑥 0.4375 = 0.21875. Với miền của

TUỔI là [0, 80], giá trị thực của trẻ là 80 𝑥 0.21875 = 17.5;

𝑣(𝑜𝑙𝑑) = 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) + 𝛼 𝑓𝑚(𝑜𝑙𝑑) = 0.4375 + 0.5 ∗ 0.5625 = 0.6875

và giá trị thực của già là 57.5;

𝑣(𝑉 𝑦𝑜𝑢𝑛𝑔) = 0.109375, giá trị thực của V young là 8.75

𝑣(𝐿 𝑦𝑜𝑢𝑛𝑔) = 0.328125, giá trị thực của L young là 26.25

𝑣(𝐿 𝑜𝑙𝑑) = 0.578125, giá trị thực của L old là 46.25

𝑣(𝑉 𝑜𝑙𝑑) = 0.859375, giá trị thực của V old là 68.75

1.2.4. Khoảng mờ

Khoảng tính mờ (fuzziness interval) của các khái niệm mờ là một khái niệm

rất quan trọng làm cơ sở cho việc nghiên cứu và xây dựng các mô hình ứng dụng.

Trong ĐSGT, dựa trên độ đo tính mờ 𝑓𝑚, chúng ta sẽ định nghĩa khoảng tính mờ của

các hạng từ. Gọi Itv([0, 1]) là họ các đoạn con của đoạn [0,1], ký hiệu || là độ dài

của đoạn "".

25

Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH

Định nghĩa 1.8: [25] Khoảng tính mờ của các hạng từ 𝑥 ∈ 𝑿, ký hiệu ℑ𝑓𝑚(𝑥),

là một đoạn con của đoạn [0,1], ℑ𝑓𝑚(𝑥) ∈ 𝐼𝑡𝑣([0,1]). Nếu nó có độ dài bằng độ đo

tính mờ, |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(𝑥), và được xác định bằng qui nạp theo độ dài của x như

sau:

(i) Với độ dài của x bằng 1 (𝑙(𝑥) = 1), tức là 𝑥 ∈ {𝑐−, 𝑐+}, khi đó |ℑ𝑓𝑚(𝑐−)| =

𝑓𝑚(𝑐−), |ℑ𝑓𝑚(𝑐+)| = 𝑓𝑚(𝑐+), và ℑ𝑓𝑚(𝑐

−) ≤ ℑ𝑓𝑚(𝑐+);

(ii) Giả sử 𝑥 có độ dài 𝑛 (𝑙(𝑥) = 𝑛) và khoảng tính mờ ℑ𝑓𝑚(𝑥) đã được định

nghĩa với |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(𝑥). Khi đó tập các khoảng tính mờ {|ℑ𝑓𝑚(ℎ𝑗𝑥)| : − 𝑞 ≤

𝑗 ≤ 𝑝 𝑣à 𝑗 ≠ 0} ⊂ 𝐼𝑡𝑣([0,1]) được xây dựng sao cho nó là một phân hoạch của

ℑ𝑓𝑚(𝑥), và thoả mãn |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(ℎ𝑗𝑥) và có thứ tự tuyến tính tương ứng với

thứ tự của tập {ℎ−𝑞𝑥, ℎ−𝑞+1𝑥,… , ℎ𝑝𝑥} tức là nếu ℎ−𝑞𝑥 > ℎ−𝑞+1𝑥 > ⋯ > ℎ𝑝𝑥 thì

ℑ𝑓𝑚(ℎ−𝑞𝑥) > ℑ𝑓𝑚(ℎ−𝑞+1𝑥) > ⋯ > ℑ𝑓𝑚(ℎ𝑝𝑥) và ngược lại (xem Hình 1.4). Dễ

dạng thấy rằng hệ phân hoạch như vậy luôn tồn tại dựa vào tính chất 𝑖) trong Mệnh

đề 1.2.

Trường hợp độ dài của 𝑥 bằng 𝑘, 𝑙(𝑥) = 𝑘, ta có ký hiệu ℑ𝑘(𝑥) thay cho

ℑ𝑓𝑚(𝑥), khi đó ta nói khoảng cách tính mờ của 𝑥 có độ sâu 𝑘 hay khoảng tính mờ

mức 𝑘.

1.2.5. Độ đo tính mờ của các giá trị ngôn ngữ

Khái niệm độ đo tính mờ của giá trị ngôn ngữ là một khái niệm trừu tượng

không dễ dàng để xác định bằng trực giác và có nhiều phương pháp tiếp cận khác để

xác định khái niệm này. Trong lý thuyết tập mờ, các phương pháp tiếp cận chủ yếu

u(True) u(LTr) u(PTr) u(MTr) u(VTr)

2(LTr) 2(PTr) 2(MTr) 2(VTr)

3(VLTr)

3(MLTr)

3(PLTr)

3(LLTr)

3(LPTr) 3(MPTr) 3(LMTr) 3(MMTr

)

3(LVTr) 3(MVTr)

3(PPTr) 3(VPTr) 3(PMTr) 3(VMTr) 3(PVTr) 3(VVTr)

26

là dựa trên hình dạng của tập mờ. Tuy nhiên, trong ĐSGT các tác giả đã đưa ra một

phương pháp xác định độ đo tính mờ một cách hợ lý: “tính mờ của một hạng từ 𝑥

được hiểu như là ngữ nghĩa của nó vẫn có thể được thay đổi khi tác động vào nó bằng

gia tử khác” [19, 25, 49]. Do đó, tập các hạng từ sinh ra từ 𝑥 bằng các gia tử sẽ thể

hiện cho tính mờ của x và do đó, 𝐻(𝑥) có thể sử dụng như là một mô hình biểu thị

tính mờ của 𝑥 và kích thước tập 𝐻(𝑥) được xem như độ đo tính mờ của 𝑥. Ta có định

nghĩa sau về độ đo tính mờ.

Định nghĩa 1.9: [19, 25, 49] Cho 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙, ≤) là một ĐSGT

tuyến tính đầy đủ. Ánh xạ 𝑓𝑚: 𝑋 → [0,1] được gọi là một độ đo tính mờ của các hạng

từ trong 𝑋 nếu:

(i) 𝑓𝑚 là đầy đủ, tức là 𝑓𝑚(𝑐−) + 𝑓𝑚(𝑐+) = 1 và ∑ 𝑓𝑚(ℎ𝑢) = 𝑓𝑚(𝑢)ℎ∈𝐻 ,

∀𝑢 ∈ 𝑋;

(ii) 𝑓𝑚(𝑥) = 0, với các x thoả 𝐻(𝑥) = {𝑥} và 𝑓𝑚(0) = 𝑓𝑚(𝑊) = 𝑓𝑚(1) =

0;

(iii) ∀𝑥, 𝑦 ∈ 𝑋, ∀ℎ ∈ 𝐻, ký hiệu 𝜇(ℎ) =𝑓𝑚(ℎ𝑥)

𝑓𝑚(𝑥)=

𝑓𝑚(ℎ𝑦)

𝑓𝑚(𝑦), tỷ số này không phụ

thuộc vào x và y, và nó được gọi là độ đo tính mờ của các giá tử.

Trong đó, 𝑐− và 𝑐+ là phần tử sinh âm và phần tử sinh dương, điều kiện (𝑖)

thể hiện tính đầy đủ của các phần tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa

của miền thực đối với các biến, (𝑖𝑖) thể hiện tính rõ của các hạng từ và (𝑖𝑖𝑖) có thể

được chấp nhận vì chúng ta đã chấp nhận giả thiết rằng các gia tử là độc lập với ngữ

cảnh và vì vậy, khi áp dụng một gia tử ℎ lên các hạng từ thì hiểu quả tác động làm

thay đổi ngữ nghĩa của các hạng đó là như nhau.

Hình 1.5: Độ đo tính mờ của biến TRUTH

27

Hình 1.5: minh hoạ rõ hơn cho khái niệm độ đo tính mờ của biến ngôn ngữ

TRUTH.

Các tính chất của độ đo tính mờ của các hạng từ và gia tử được thể hiện qua

mệnh đề sau:

Mệnh đề 1.2: [19, 25, 49] Với độ đo tính mờ 𝑓𝑚 và 𝜇 đã được định nghĩa

trong Định nghĩa 1.9, ta có:

(i) 𝑓𝑚(𝑐−) + 𝑓𝑚(𝑐+) = 1 và ∑ 𝑓𝑚(ℎ𝑥) = 𝑓𝑚(𝑥)ℎ∈𝐻 ;

(ii) ∑ 𝜇(ℎ𝑗) = 𝛼−1𝑗=−𝑞 , ∑ 𝜇(ℎ𝑗) = 𝛽

𝑝𝑗=1 , với 𝛼, 𝛽 > 0 và 𝛼 + 𝛽 = 1;

(iii) ∑ 𝑓𝑚(𝑥) = 1𝑥∈𝑋𝑘, trong đó 𝑋𝑘 là tập các hạng từ có độ dài đúng k;

(iv) 𝑓𝑚(ℎ𝑥) = 𝜇(ℎ). 𝑓𝑚(𝑥), và ∀𝑥 ∈ 𝑋, 𝑓𝑚(𝛿𝑥) = 𝑓𝑚(𝜙𝑥) = 0;

(v) Cho 𝑓𝑚(𝑐−), 𝑓𝑚(𝑐+) và 𝜇(ℎ) với ∀ℎ ∈ 𝐻, khi đó với 𝑥 = ℎ𝑛…ℎ1c, ∀𝑐 ∈

{𝑐−, 𝑐+}, dễ dạng tính được độ đo tính mờ của x như sau: 𝑓𝑚(𝑥) =

𝜇(ℎ𝑛)𝜇(ℎ1)𝑓𝑚(𝑐).

Ví dụ 1.4: Cho 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙,≤) là một ĐSGT tuyến tính đầy đủ của

biến ngôn ngữ TUỔI với 𝐻 = {𝑉, 𝐿} và 𝐺 = {𝑦𝑜𝑢𝑛𝑔, 𝑜𝑙𝑑}. Bây giờ chúng ta sẽ tính

độ đo tính mờ cho các phần tử của 𝐴𝑋∗ mà độ dài không quá 2. Thông thường, tuổi

của con người từ 0 đến 35 được gọi là trẻ, từ 36 đến 80 được gọi là già, ta có các tham

số được định nghĩa như sau: 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 35: 80 = 0.4375; 𝑓𝑚(𝑜𝑙𝑑) =

1 – 𝑓𝑚(𝑜𝑙𝑑) = 0.5625; Độ đo tính mờ của gia tử được cho là: 𝜇(𝐿) = 0.6; 𝜇(𝑉) =

0.4; Theo công thức 𝑓𝑚(ℎ𝑥) = 𝜇(ℎ). 𝑓𝑚(𝑥), ta tính độ đo tính mờ của các hạng từ

như sau:

V young young L young W L old old V old

0.2625 0.4375 0.2625 0 0.1750 0.5625 0.225

1.3. Giải thuật di truyền

Giải thuật di truyền (GA-Genetic Algorithm) là kỹ thuật phỏng theo quá trình

thích nghi tiến hóa của các quần thể sinh học dựa trên học thuyết Darwin [44]. GA là

phương pháp tìm kiếm tối ưu ngẫu nhiên bằng cách mô phỏng theo sự tiến hóa của

con người hay của sinh vật. GA đã bước đầu được áp dụng thành công trong các

trường hợp, mà việc mô tả toán học cho bài toán gặp rất nhiều khó khăn. Ngày nay,

GA đã và đang được ứng dụng để giải quyết trong một số ngành như tin sinh học,

khoa học máy tính, trí tuệ nhân tạo, tài chính và một số ngành khác.

28

Hình 1.6: Lưu đồ giải thuật di truyền

Giải thuật di truyền cơ bản gồm các bước sau:

Bước 1: Khởi tạo một quần thể ban đầu gồm các chuỗi nhiễm sắc thể.

Bước 2: Xác định giá trị hàm mục tiêu cho từng nhiễm sắc thể tương ứng trong

quần thể.

Bước 3: Tạo quần thể mới bằng cách lại ghép tréo (crossover) từ các cá thể

hiện tại có cọn lọc (selection), đồng thời tạo ra các đột biến (mutation) trong quần thể

mới theo một xác suất nhất định.

Bước 4: Xác định hàm mục tiêu cho các nhiễm sắc thể mới. Các cá thể trong

quần thể mới sinh ra được thay thế cho các cá thể cũ trong quần thể cũ bằng cách loại

bớt các nhiễm sắc thể có độ thích nghi thấp.

Bước 5: Kiểm tra thỏa mãn điều kiện dừng. Nếu điều kiện đúng, lấy ra nhiễm

sắc thể tốt nhất, giải thuật dừng lại; ngược lại, quay về bước 3.

Đúng

Sai

Khởi tạo quần thể

Mã hóa các biến

Đánh giá độ thích nghi

Chọn lọc

Lai ghép

Đột biến

Thỏa điều

kiện dừng

Kết quả

Bắt đầu

Kết thúc

29

Trong luận án sử dụng giải thuật di truyền theo mô hình CHC [10]. Các cá thể

của quần thể hiện tại khởi nguồn cho quần thể thế hệ kế tiếp bằng các phép chọn lọc

(Population-based Selection). Từ N cá thể cha mẹ và con cái tương ứng để chọn N cá

thể tốt nhất để sản sinh thế hệ kế tiếp. Mô hình CHC có sử dụng cơ chế tránh lai tại

cận huyết và khởi tạo lại quần thể để kích thích sự đa dạng của quần thể thay vì phép

toán đột biến. Cơ chế tránh lai tạo cận huyết sử dụng trong phép toán lai tạo, cá thể

bố mẹ sẽ được lại tạo nếu như khoảng cách hamming giữa hai cá thể này nhỏ hơn

một ngưỡng cho trước.

1.4. Bài toán khai phá luật kết hợp

1.4.1. Một số khái niệm cơ bản

Cho 𝐼 = {𝐼1, 𝐼2, . . , 𝐼𝑚} là tập hợp của m thuộc tính nhị phân gọi là các mục.

𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛} là tập các giao dịch gọi là cơ sở dữ liệu giao dịch. Mỗi giao dịch

trong D chứa tập con T các mục trong I (𝑇 ⊆ 𝐼), các bản ghi đều có chỉ số riêng.

Một luật kết hợp là một mệnh đề kéo theo có dạng 𝑋 → 𝑌, trong đó 𝑋, 𝑌 ⊆ 𝐼, thỏa

mãn điều kiện 𝑋 ∩ 𝑌 = ∅ Các tập hợp X và Y được gọi là các tập mục (itemset). Tập

X được gọi là tiên đề, tập Y được gọi là hệ quả của luật [21].

Định nghĩa 1.10: Luật kết hợp

Một luật kết hợp là một mệnh đề có dạng 𝑋 → 𝑌, trong đó 𝑋, 𝑌 𝐼 trong đó X

và Y được gọi là các tập mục (itemsets), thỏa mãn điều kiện 𝑋 ∩ 𝑌 = ∅. Tập X gọi là

nguyên nhân, tập Y gọi là hệ quả.

Độ hỗ trợ (support) và độ tin cậy (confidence) là hai độ đo quan trọng của luật

kết hợp được định nghĩa như phần dưới đây.

Cho tập mục X (𝑋 ⊆ 𝐼), ta định nghĩa độ hỗ trợ của tập mục X trong CSDL D

như sau:

Định nghĩa 1.11: [46] Độ hỗ trợ của tập mục X:

Đỗ hỗ trợ của tập mục X là tỷ lệ giữa số lượng các bản ghi trong D chứa tập

mục X với số bản ghi trong D.

𝑆𝑢𝑝𝑝(𝑋) =

|𝑋|

|𝐷| (1.1)

Định nghĩa 1.12: [46] Độ hỗ trợ của luật 𝑋 → 𝑌:

Độ hỗ trợ của một luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi chứa

tập hợp 𝑋 ∪ 𝑌, so với tổng số các bản ghi trong D.

30

𝑆𝑢𝑝𝑝(𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) =|𝑋∪𝑌|

|𝐷| (1.2)

Định nghĩa 1.13: [46] Độ tin cậy của luật 𝑋 → 𝑌:

Độ tin cậy của một luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi trong

D chứa 𝑋 ∪ 𝑌 với số bản ghi trong D có chứa tập hợp X.

𝑐𝑜𝑛𝑓(𝑋 → 𝑌) = 𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)

𝑆𝑢𝑝𝑝(𝑋) (1.3)

Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật

có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng độ hỗ trợ và độ tin cậy do người sử dụng

xác định trước. Các ngưỡng của Độ hỗ trợ và Độ tin cậy được ký hiệu là 𝑚𝑖𝑛𝑠𝑢𝑝 và

𝑚𝑖𝑛𝑐𝑜𝑛𝑓.

Ngoài các độ đo quan trọng là Support và Confidence thường dùng trong khai

phá luật kết hợp, có thể có những độ đo khác để đánh giá luật khai phá được như:

Lift, Leverage và Conviction. Về cơ bản, ý nghĩa của luật kết hợp ta khai phá được

vẫn chưa có những tiêu chí đánh giá rõ ràng. Ngoài hai độ đo Độ hỗ trợ và Độ tin

cậy, trong luận án này sử dụng các độ đo mang tính Eristic như các công trình (Hong

và cộng sự (2004, 2008) [42, 83], Herrera (2009) [53]) dùng để đánh giá như độ chồng

lấn, độ bao phủ,… Các độ đo này sẽ được trình bày cụ thể ở Chương 3.

Định nghĩa 1.14: [79] Độ đo Lift

Độ đo lift của luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi trong D

chứa 𝑋 ∪ 𝑌 với tích số lượng bản ghi chứa X và Số lượng bản ghi chứa Y trong D.

𝐿𝑖𝑓𝑡(𝑋 → 𝑌) =

𝐶𝑜𝑛𝑓(𝑋 → 𝑌)

𝑆𝑢𝑝𝑝(𝑌)=

𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)

𝑆𝑢𝑝𝑝(𝑋) ∗ 𝑆𝑢𝑝𝑝(𝑌) (1.4)

Độ thú vị của mỗi luật được tính theo công thức [71]:

𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡(𝑋 → 𝑌)

=𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)

𝑆𝑢𝑝𝑝(𝑋)∗𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)

𝑆𝑢𝑝𝑝(𝑌) ∗ (1 −

𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)

𝑁)

(1.5)

Định nghĩa 1.15: Tập mục thường xuyên

Tập hợp X được gọi là tập mục thường xuyên (Frenquent itemset) nếu có

𝑆𝑢𝑝𝑝(𝑋) 𝑚𝑖𝑛𝑠𝑢𝑝, với 𝑚𝑖𝑛𝑠𝑢𝑝 là ngưỡng độ hỗ trợ cho trước. Kí hiệu các tập này

là FI.

31

Tính chất 1.1: Giả sử 𝐴, 𝐵 ⊆ 𝐼 là hai tập mục với 𝐴 ⊆ 𝐵 thì 𝑆𝑢𝑝𝑝(𝐴) ≥

𝑆𝑢𝑝𝑝(𝐵).

Như vậy, những bản ghi nào chứa tập mục B thì cũng chứa tập mục A

Tính chất 1.2: Giả sử A, B là hai tập mục, 𝐴, 𝐵 ⊆ 𝐼, nếu B là tập mục thường

xuyên và 𝐴 ⊆ 𝐵 thì A cũng là tập mục thường xuyên.

Thật vậy, nếu B là tập mục thường xuyên thì 𝑆𝑢𝑝𝑝(𝐵) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝, mọi tập

mục A là tập con của tập mục B đều là tập mục thường xuyên trong cơ sở dữ liệu D

vì 𝑆𝑢𝑝𝑝(𝐴) ≥ 𝑆𝑢𝑝𝑝(𝐵) (Tính chất 1.1)

Tính chất 1.3: Giả sử A, B là hai tập mục, 𝐴 ⊆ 𝐵 và A là tập mục không

thường xuyên thì B cũng là tập mục không thường xuyên

Định nghĩa 1.16: Tập mục đóng

Tập mục X (𝑋 ⊆ 𝐼) được gọi là đóng nếu không tồn tại tập mục cha Y (𝑌 ⊆ 𝐼)

có cùng độ hỗ trợ với X.

𝑋 ⊆ 𝐼, X được gọi là đóng nếu ∀ 𝑌 ⊆ 𝐼 và 𝑋 ⊂ 𝑌: supp(X) < > supp(Y)

Ký hiệu tập phổ biến đóng là FCI.

Định nghĩa 1.17: Tập mục phổ biến lớn nhất

Tập mục X (𝑋 ⊆ 𝐼) là là tập mục phổ biến lớn nhất nếu không tồn tại tập cha

Y (𝑌 ⊆ 𝐼) nào trong I là một tập mục phổ biến. Ký hiệu tập tất cả các tập mục phổ

biến lớn nhất là MFI. Dễ thấy 𝑀𝐹𝐼 ⊆ 𝐹𝐶𝐼 ⊆ 𝐹𝐼.

1.4.2. Bài toán khai phá luật kết hợp mờ

Cho 𝐷𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛} là CSDL giao dịch, n là tổng số bản ghi trong D.

Cho 𝐼 = {𝑖1, 𝑖2, … , 𝑖𝑚} là các mục, với mỗi mục 𝑖𝑗 (1 ≤ 𝑗 ≤ 𝑚) là thuộc tính hạng

mục hoặc thuộc tính định lượng. Một tập thuộc tính mờ là một cặp ⟨𝑍, 𝐶⟩ với Z tương

ứng là tập các thuộc tính zj và C tương ứng là tập các tập mờ 𝑐𝑗 [27].

Nếu luật kết hợp mờ 𝑋 𝑖𝑠 𝐴 ⇒ 𝑌 𝑖𝑠 𝐵 gọi là tin cậy nếu thảo mãn độ hỗ trợ

mờ 𝐹(𝑍,𝐶) và độ tin cậy mờ 𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)), với 𝑍 = 𝑋 ∪ 𝑌, 𝐶 = 𝐴 ∪ 𝐵.

Độ hỗ trợ mờ của tập mục ⟨𝑍, 𝐶⟩ ký hiệu là 𝑓𝑠(⟨𝑍, 𝐶⟩) được xác định theo

công thức [27]:

𝑓𝑠(⟨𝑍, 𝐶⟩) =∑ ∏ (𝑡𝑖[(𝑥𝑗 , 𝑎𝑗)])

𝑚𝑗=1

𝑛𝑖=1

𝑛 (1.6)

Trong đó m là số lương tập mục trong tập mục (𝑍, 𝐶).

32

Độ tin cậy mờ được xác định theo công thức sau [27]:

𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)) = 𝑓𝑠(𝑍,𝐶)

𝑓𝑠(< 𝑋,𝐴 >) (1.7)

Thuật toán khai phá luật kết hợp mờ dựa trên thuật toán Apriori:

Thuật toán khai phá luật kết hợp mờ được chia làm hai pha như sau:

Pha 1: Tìm tất cả các tập thuộc tính mờ phổ biến dạng ⟨𝑍, 𝐶⟩ có độ hỗ trợ lớn

hơn độ hỗ trợ cực tiểu của người dùng nhập vào:

𝑓𝑠(⟨𝑍, 𝐶⟩) ≥ 𝑓𝑚𝑖𝑛𝑠𝑢𝑝

Pha 2: Sinh các luật kết hợp mờ tin cậy từ các tập phổ biến đã tìm thấy ở pha

thứ nhất. Pha này đơn giản và tốn kém ít thời gian hơn so với pha trên. Nếu ⟨𝑍, 𝐶⟩ là

một tập thuộc tính mờ phổ biến thì luật kết hợp được sinh ra từ X có dạng:

Z′is C′ fc→ Z\Z′is C\C′

Với Z' là tập con khác rỗng của Z, Z\Z' là hiệu của hai tập hợp, C' là tập con

khác rỗng của C và là tập các tập mờ tương ứng với các thuộc tính trong Z', C\C' là

hiệu hai tập hợp, 𝑓𝑐 là độ tin cậy của luật thỏa mãn: 𝑓𝑐 ≥ 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓.

Thuật toán:

Đầu vào: CSDL D, Độ hỗ trợ tối thiểu 𝑓𝑚𝑖𝑛𝑠𝑢𝑝, Độ tin cậy tối thiểu

𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓.

Đầu ra: Tập các luật kết hợp mờ.

Các ký hiệu:

Ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ

33

Ký hiệu Ý nghĩa

D CSDL (dạng quan hệ hoặc giao dịch)

I Tập các mục (thuộc tính) trong D

T Tập các giao dịch (hoặc bản ghi) trong D

𝐷𝑓 CSDL mờ (được tính toán từ CSDL ban đầu thông qua hàm thuộc của các

tập mờ tương ứng với từng thuộc tính)

𝐼𝑓 Tập các mục (thuộc tính) trong 𝐷𝑓, mỗi mục hay thuộc tính đều được gắn

với một tập mờ. Mỗi tập mờ f đều có môt ngưỡng 𝑤𝑓

𝐶𝑘 Tập các tập mục (thuộc tính) có kích thước k

𝐹𝑘 Tập các tập mục (thuộc tính) phổ biến có kích thước k

F Tập tất cả các tập mục (thuộc tính) phổ biến

fminsup Độ hỗ trợ tối thiểu

fminconf Độ tin cậy tối thiểu

Thuật toán khai phá luật kết hợp mờ:

1 BEGIN

2 (𝐷𝑓, 𝐼𝑓, 𝑇𝑓) = Transform(D, I, T);

3 𝐹1 = Counting(𝐷𝑓, 𝐼𝑓, 𝑇𝑓, fminsup);

4 k=2

5 while (Fk−1 ≠ ∅)

6 {

7 Ck = Join(Fk − 1);

8 𝐶𝑘 = 𝑃𝑟𝑢𝑛𝑒(𝐶𝑘);

9 Fk = Checking(Ck, Dk, fminsup);

10 F = F ∪ Fk;

11 k = k + 1;

12 }

13 GenerateRules(F, 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓);

14 END

34

Trong thuật toán sử dụng một số chương trình con sau đây:

- Chương trình con (DF, IF, TF) = Transform(D, I, T): hàm này thực hiện

chuyển đổi từ CSDL D ban đầu sang CSDL mờ 𝐷𝐹 .

- Chương trình con F1 = Counting(DF, IF, TF, 𝑓𝑚𝑖𝑛𝑠𝑢𝑝): hàm này sinh ra F1

là tập tất cả các tập phổ biến 1-ItemSet có lực lượng bằng 1.

- Chương trình con Ck = Join(Fk−1): hàm này thực hiện việc sinh ra tập các

tập thuộc tính mờ ứng cử viên có lực lượng k từ tập các tập thuộc tính mờ phổ biến

lực lượng k-1 là Fk−1.

- Chương trình con Ck = Prune(Ck): chương trình con này sử dụng tính chất

"mọi tập con khác rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập

không phổ biến đều là tập không phổ biến" (downward closure property) để cắt tỉa

những tập thuộc tính nào trong Ck có tập con lực lượng k-1 không thuộc tập các tập

thuộc tính phổ biến Fk−1.

- Chương trình con Fk = Checking(Ck, Df, 𝑓𝑚𝑖𝑛𝑠𝑢𝑝): chương trình con này

duyệt qua CSDL 𝐷𝑓 để cập nhật độ hỗ trợ cho các tập thuộc tính trong Ck. Sau khi

duyệt xong, Checking sẽ chỉ chọn những tập phổ biến (có độ hỗ trợ lớn hơn hoặc

bằng fminsup) để đưa vào trong Fk.

- Chương trình còn GenerateRules(F, 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓): sinh luật kết hợp mờ tin

cậy từ tập các tập phổ biến F.

1.5. Một số hướng nghiên cứu về luật kết hợp

Kể từ khi được R. Agrawal đề xuất vào năm 1994 [21], lĩnh vực khai phá luật

kết hợp đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau. Có

những đề xuất nhằm vào cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm

luật có ý nghĩa hơn,… Đã có nhiều kết nghiên cứu đã được các tác giả trong và ngoài

nước công bố về khai phá luật kết hợp, các nghiên cứu tập trung vào hai hướng:

(1) Tăng tốc độ quá trình tìm kiếm tập phổ biến từ CSDL;

(2) Bài toán phân chia mờ miền xác định các thuộc tính định lượng của dữ liệu

nhằm tìm kiếm các luật kết hợp có ý nghĩa hơn.

Sau đây là một số hướng nghiên cứu chính về khai phá luật kết hợp:

- Luật kết hợp nhị phân (binary association): là hướng nghiên cứu đầu tiên của

luật kết hợp. Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến

luật kết hợp nhị phân [21]. Trong dạng luật kết hợp này, các mục (thuộc tính) chỉ

35

được quan tâm là có hay không xuất hiện trong giao dịch của CSDL chứ không quan

tâm về "mức độ" xuất hiện. Thuật toán tiêu biểu nhất khai phá dạng luật này là thuật

toán Apriori được R. Agrawal đề xuất vào năm 1994 [21]. Đây là dạng luật đơn giản

và như sau này ta biết các dạng luật khác cũng có thể chuyển về dạng luật này bằng

một số phương pháp như rời rạc hóa, mờ hóa,… Một ví dụ về dạng luật này: "Nếu

mua Bánh mì và Sữa Thì sẽ mua Bơ”, với độ hỗ trợ 50% và độ tin cậy 70%".

- Luật kết hợp có thuộc tính định lượng và thuộc tính hạng mục (quantitative

and categorical association rule): các thuộc tính của các CSDL thực tế có kiểu rất đa

dạng (nhị phân - binary, số - quantitative, hạng mục - categorical,...). Đối với loại

này, ta không chỉ quan tâm tới sự có mặt hay không của các mục trong giao dịch mà

còn quan tâm tới định lượng của từng mục trong luật.

Để khai phá luật kết hợp dạng này, ta cần phải chuyển đổi dữ liệu về dạng nhị

phân hay còn gọi là rời rạc hoá dữ liệu để có thể áp dụng các thuật toán khai phá luật

kết hợp nhị phân. Để chuyển các thuộc tính số về thuộc tính nhị phân, ta cần chia

miền giá trị của thuộc tính thành các khoảng. Việc phân chia này là rất quan trọng và

nó ảnh hưởng đến quá trình khai phá dữ liệu. Để phát hiện luật kết hợp với các thuộc

tính dạng này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hóa nhằm

chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có.

- Luật kết hợp mờ (fuzzy association rule): với những hạn chế còn gặp phải

trong quá trình rời rạc hóa các thuộc tính định lượng (quantitative attributes), các nhà

nghiên cứu đã đề xuất luật kết hợp mờ nhằm khắc phục những hạn chế, và chuyển

luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng. Với thuộc tính

định lượng chúng ta gặp phải vấn đề “điểm biên gãy” khi rời rạc hoá dữ liệu. Với

dạng luật kết hợp mờ giúp ta làm trơn các “điểm biên gãy” đã đem lại hiệu quả đáng

kể. Khai phá luật kết hợp mờ là phát hiện các luật kết hợp sử dụng khái niệm tập mờ

đối với các thuộc tính định lượng. Khi khai phá chúng ta cần phải định nghĩa trước

các tập mờ cho các thuộc tính trước khi áp dụng các giải thuật cụ thể để khai phá dữ

liệu.

- Luật kết hợp nhiều mức (multi-level association rules): ngoài các dạng luật

trên, các nhà nghiên cứu còn đề xuất một hướng nghiên cứu nữa về luật kết hợp là

luật kết hợp nhiều mức. Với cách tiếp cận này, người ta sẽ tìm kiếm thêm những luật

có dạng "Nếu mua máy tính và máy in Thì sẽ mua lưu điện" thay vì chỉ những luật

36

quá cụ thể như "Nếu mua máy tính Sony Vaio và mua máy in Canon Thì sẽ mua lưu

điện". Dạng luật đầu là dạng luật tổng quát hóa của dạng luật sau.

- Luật kết hợp với thuộc tính được đánh trọng số (association rule with

weighted items): Với luật kết hợp thông thường, các mục trong CSDL sẽ có vai trò

như nhau trong CSDL. Tuy nhiênt trong thực tế, các thuộc tính trong CSDL có vai

trò khác nhau. Có một số thuộc tính được chú trọng và lúc đó ta nói những thuộc tính

đó có mức độ quan trọng cao hơn các thuộc tính khác. Đây là một hướng nghiên cứu

rất thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này. Với

luật kết hợp có thuộc tính được đánh trọng số, chúng ta sẽ khai phá được những luật

mang rất nhiều ý nghĩa, thậm chí là những luật "hiếm".

- Khai phá luật kết hợp song song (parallel mining of association rules):

Do kích thước dữ liệu ngày càng lớn, nhằm mục đích tăng tốc độ khai phá luật

kết hợp các nhà nghiên cứu tập trung vào nghiên cứu các giải pháp song song hóa và

xử lý phân. Có rất nhiều thuật toán song song khác nhau đã được đề xuất, chúng có

thể phụ thuộc hoặc độc lập với nền tảng phần cứng.

- Luật kết hợp tiếp cận theo hướng nén CSDL giao dịch: Các thuật toán sử

dụng cách nén dữ liệu trong CSDL nhị phân cung cấp một giải pháp tốt có thể giảm

yêu cầu không gian lưu trữ và thời gian xử lý dữ liệu. Jia - Yu Dai đã đề xuất thuật

toán gọi là M2TQT [18]. Ý tưởng cơ bản của thuật toán này là: gộp các giao dịch có

quan hệ gần nhau để tạo thành giao dịch mới, kết quả thu được là tạo ra CSDL mới

có kích thước nhỏ hơn, có thể giảm thời gian xử lý dữ liệu, giảm không gian lưu trữ.

Tuy nhiên thuật toán M2TQT chỉ thực hiện với CSDL nhị phân. Với hướng nghiên

cứu này, trong luận án đề xuất sử dụng ĐSGT để mờ hóa các thuộc tính mờ. Từ CSDL

mờ, tiến hành gộp các giao dịch có quan hệ gần nhau để tạo thành CSDL mới có kích

thước nhỏ hơn, làm tăng hiệu quả khi khai phá dữ liệu.

- Tìm kiếm hàm thuộc tối ưu cho bài toán khai phá luật kết hợp mờ: Trong các

nghiên cứu trước kia, thông thường các nghiên cứu chỉ tập trung vào công đoạn trích

xuất luật kết hợp, mặc nhiên công nhận đã có sẵn các hàm thuộc phân chia miền xác

định các thuộc tính. Gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây

dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên

công đoạn tiếp theo. Nếu không có một hệ các MF được xây dựng tốt thì cũng sẽ

không thể trích xuất các luật kết hợp tốt được. Tuy nhiên, các nghiên cứu liên quan

37

đến xây dựng các tập MF dành cho trích xuất luật kết hợp vẫn rất ít, đa số các bài báo

liên quan đến vấn đề này thuộc hướng phân loại tự động hay hồi quy [16, 28, 51].

Một số kết quả các nhà nghiên cứu đã công bố về hướng nghiên cứu này: [6, 7, 9, 14,

22, 23, 38, 39, 42, 43, 45, 46, 48, 50, 53, 60, 64, 69, 70, 74-78].

Trong các hướng nghiên cứu trên, luận án tập trung vào hai hướng chính:

- Nhằm mục đính giảm thời gian khai phá luật kết hợp, đề xuất giải pháp nén

cơ sở dữ liệu giao dịch và khai phá luật kết hợp từ CSDL nén.

- Để khai phá các luật kết hợp dưới dạng ngôn ngữ tự nhiên gần gũi với con

người, luận án đề xuất giải pháp sử dụng ĐSGT. Bên cạnh đó, để có được các luật

kết hợp có ý nghĩa hơn, giải thuật GA được sử dụng để tìm kiếm tham số tối ưu cho

ĐSGT.

1.6. Kết luận chương 1

Trong chương này, luận án đã tóm tắt những kiến thực cơ sở làm nền tảng

phục vụ trong quá trình nghiên cứu. Nó bao gồm những nội dung chính sau:

- Lý thuyết tập mờ bao gồm các khái niệm tập mờ, phương pháp xây dựng tập

mờ, biến ngôn ngữ, phân hoạch mờ,...

- Hệ thống lý thuyết về ĐSGT với những khái niện nền tảng như: ĐSGT,

ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ của gia tử, phần tử sinh,

phương pháp xác định giá trị định lượng của từ ngôn ngữ, khoảng tính mờ,...

- Một số khái niệm cơ bản về luật kết hợp, luật kết hợp mờ và một số hướng

nghiên cứu về khai phá luật kết hợp mờ.

Với những kiến thức cơ sở đã được trình bày trong chương trình là nền tảng

đủ để thực hiện các mục tiêu đã đặt ra của luận án.

38

CHƯƠNG 2. KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP

CẬN SỬ DỤNG ĐẠI SỐ GIA TỬ

Bài toán khai phá luật kết hợp mờ được nhiều tác giả quan tâm nghiên cứu và

tiếp cận theo nhiều hướng khác nhau. Các nhà nghiên cứu đã đề xuất nhiều giải pháp

khác nhau nhằm tăng tốc độ khai phá luật cũng như là làm thế nào nào để tìm ra được

các luật hữu ích từ CSDL. Trong chương này luận án đề xuất ứng dụng ĐSGT và đề

xuất giải pháp nén CSDL giao dịch mờ nhằm tạo ra CSDL giao dịch mới có kích

thước nhỏ hơn. Phương pháp đề xuất giúp tìm ra các luật kết hợp mờ dạng ngôn ngữ

gần gũi với con người và giảm thời gian khai phá luật kết hợp.

2.1. Đặt vấn đề

Khai phá luật kết hợp đã được triển khai nghiên cứu và mang lại nhiều kết quả

tốt [3, 56, 62, 73]. Các tác giả đã đưa ra nhiều giải pháp để giảm thời gian thực hiện

khai phá luật như: giải pháp khai phá luật kết hợp song song, sử dụng các giải pháp

nén giao dịch với CSDL nhị phân,... Tuy vậy, trong lĩnh vực này, đến nay vẫn còn

nhiều vấn đề đặt ra cần phải tiếp tục nghiên cứu giải quyết.

Gần đây, các thuật toán sử dụng cách nén dữ liệu trong CSDL nhị phân cung

cấp một giải pháp tốt có thể giảm yêu cầu không gian lưu trữ và thời gian xử lý dữ

liệu. Jia - Yu Dai (2008) đã đề xuất thuật toán nén CSDL giao dịch nhị phân gọi là

M2TQT [18]. Ý tưởng cơ bản của thuật toán này là: gộp các giao dịch có quan hệ gần

nhau để tạo thành giao dịch mới, kết quả thu được là tạo ra CSDL mới có kích thước

nhỏ hơn, có thể giảm thời gian xử lý dữ liệu, giảm không gian lưu trữ. Thuật toán

M2TQT được đánh giá là tốt hơn các phương pháp đã đề xuất trước đây. Tuy nhiên

thuật toán M2TQT chỉ thực hiện với CSDL nhị phân.

Việc xử lý dữ liệu mờ để khai phá dữ liệu trong các luật kết hợp mờ chủ yếu

dựa trên lý thuyết tập mờ như trong [62, 73]. Tuy nhiên, theo cách sử dụng tập mờ có

nhiều yếu tố ảnh hưởng đến độ chính xác như cách xác định tập mờ, phụ thuộc nhiều

vào ý kiến của chuyên gia.

Để khắc phục các nhược điểm của lý thuyết tập mờ, các giải pháp được đề xuất

trong [2, 3] đã ứng dụng ĐSGT vào giải quyết bài toán khai phá luật kết hợp mờ. Các

tác giả trong [2] xem miền trị Dom(A) của thuộc tính mờ là một ĐGST. Với mỗi x ∈

39

Dom(A) sẽ tương ứng với mỗi phần tử y trong ĐSGT (sử dụng hàm ngược trong

ĐSGT). Phương pháp này đơn giản nhưng việc ứng mỗi giá trị của Dom(A) với chỉ

một phần tử của ĐSGT có thể gây mất mát thông tin. Phương pháp trong [3] giải

quyết được hạn chế đó bằng cách xác định khoảng cách của x với giá trị định lượng

ngữ nghĩa của hai phần tử gần x nhất về hai phía, còn các phần tử khác của ĐSGT

bằng 0. Như vậy với mỗi giá trị x chúng ta lưu một cặp giá trị thay vì trong [2] chỉ

lưu một giá trị.

Nhằm nâng cao hiệu quả khai phá luật kết hợp, luận án đề xuất phương pháp

khai phá luật kết hợp mờ theo cách tiếp cận ĐSGT, sử dụng cách nén dữ liệu cho một

CSDL bất kỳ (không nhất thiết là nhị phân). Với cách tiếp cận này, các giao dịch gần

nhau được gộp lại để tạo thành giao dịch mới, làm giảm kích thước (chiều ngang) của

CSDL đầu vào. Thử nghiệm cho thấy, cách tiếp cận này cho kết quả tốt hơn các cách

tiếp cận đã có.

Nội dung chương này, luận án trình bày cách thức mờ hóa các thuộc tính mờ

theo hướng tiếp cận ĐSGT, thuật toán nén CSDL mờ, và thuật toán khai phá luật kết

hợp mờ với CSDL nén.

2.2. Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT

2.2.1. Mờ hóa cơ sở dữ liệu giao dịch

Với bài toán khai phá luật kết hợp mờ sử dụng lý thuyết tập mờ, chúng ta các

phải xây dựng các hàm thuộc cho mỗi thuộc tính. Sau đó, dựa vào hàm thuộc đã xây

dựng để tính độ thuộc của các giá trị và các miền mờ tương ứng. Luận án đề xuất mỗi

thuộc tính định lượng sẽ sử dụng một cấu trúc ĐSGT. Dựa vào giá trị định lượng ngữ

nghĩa của các phần tử của ĐSGT, chúng ta xây dựng lên các phân hoạch mờ để tính

độ thuộc của các phần tử trong CSDL đến các miền mờ.

Trong Hình 2.1 là một ví dụ sử dụng ĐSGT AX = (X, G, H, <=), G =

{𝐶−,𝑊, 𝐶+}, 𝐻 = 𝐻− ∪ 𝐻+, 𝐻− = {𝐿}, 𝐻+ = {𝑉}. Ta có các tham số sau:

𝑓𝑚(𝐶−) = 0.5; 𝑓𝑚(𝐶+) = 0.5; Độ đo tính mờ của gia tử được cho là: 𝜇(𝑉𝑒𝑟𝑦) =

0.5; 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = 0.5; Dựa vào giá trị định lượng ngữ nghĩa của các phần tử ĐSGT,

chúng ta có bốn khoảng tính mờ các phần tử: 𝑉𝐶−, 𝐿𝐶−, L𝐶+, 𝑉𝐶+.

40

Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT

Bước 1: Chuẩn hóa các giá trị của các thuộc tính mờ về đoạn [0,1].

Bước 2: Xét các miền mờ 𝑠𝑗 của thuộc tính 𝑥𝑖 là các phần tử của ĐSGT

𝐴𝑋𝑖 . Khi đó, một giá trị bất kỳ djxi của 𝑥𝑖 đều nằm giữa hai giá trị định lượng ngữ

nghĩa nào đó của hai phần tử của 𝐴𝑋𝑖. Khoảng cách trên đoạn [0,1] giữa djxi và giá

trị định lượng ngữ nghĩa của hai phần tử gần djxi nhất về hai phía có thể dùng để xác

định độ gần gũi của djxi vào hai miền mờ (hai phần tử của ĐSGT). Độ gần gũi giữa

djxi với các phần tử khác của ĐSGT được xác định bằng 0. Để xác định độ thuộc cuối

cùng, ta phải chuẩn hóa (chuyển về giá trị trong đoạn [0,1] rồi lấy 1 trừ khoảng cách

đã chuẩn hóa đó). Ta sẽ có, ứng với mỗi giá trị djxi là một cặp độ thuộc.

Như vậy để tính độ thuộc djxi của thuộc tính 𝑥𝑖 vào miền mờ 𝑠𝑗:

𝜇𝑠𝑗(djxi) = 1 − | 𝑣(𝑠𝑗) − dj

xi |, với 𝑣(𝑠𝑗) là giá trị định lượng ngữ nghĩa của

phần tử 𝑠𝑗.

Ví dụ 2.1: Cho CSDL như trong Bảng 2.1 gồm có hai thuộc tính A và B. ĐSGT

sử dụng cho hai thuộc tính này có cấu trúc giống nhau: 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤), 𝐶− =

{𝐿𝑜𝑤}, 𝐶+ = {𝐻𝑖𝑔ℎ𝑡}, 𝐻− = {𝐿𝑒𝑎𝑠𝑡}, 𝐶+ = {𝑉𝑒𝑟𝑦}, các tham số như sau:

𝑓𝑚(𝐿𝑜𝑤) = 𝑓𝑚(𝐻𝑖𝑔ℎ𝑡) = 0.5, 𝜇(𝑉𝑒𝑟𝑦) = 𝜇(Least) = 0.5, 𝐷𝑜𝑚(𝐴, 𝐵) =

[0, 100]. Khi đó ta tính được các giá trị định lượng ngữ nghĩa: v(Very Low) = 0.125,

v(Least Low) = 0.375, v(Least Height) = 0.625, v(Very Height) = 0.875.

Đối với thuộc tính A: Dom(A) = [0, 100], giá trị của thuộc tính A trong miền

[0, 1] như sau: {0.34, 0.41, 0.45}. Đối với thuộc tính B: Dom(A) = [0, 100], giá trị

của thuộc tính A trong miền [0, 1] như sau: {0.4, 0.48, 0.32}.

41

Bảng 2.1: Cơ sở dữ liệu ví dụ

TID A B

𝑇1 30 40

𝑇2 41 48

𝑇3 45 32

Với giá trị A = 0.3: Do giá trị v(Very Low) <0.3< v(Least Low), ta chỉ cần

tính khoảng cách giữa 0.3 với hai miền mờ tương ứng là Very Low và Least Low,

còn các miền mờ Least Height, Very Height có giá trị bằng 0. Khoảng cách giữa 0.3

và miền mờ Very Low: 1-abs(0.3 - 0.125) = 0.825. Khoảng cách giữa 0.3 và miền

mờ Least Low: 1-abs(0.3 - 0.375) = 0.925. Với giá trị A = 0.41: Do giá trị v(Least

Low) <0.41< v(Least Height), ta chỉ cần tính khoảng cách giữa 0.41 với hai miền mờ

tương ứng là Very Low và Least Low, còn các miền mờ Least Height, Very Height

có giá trị bằng 0. Khoảng cách giữa 0.41 và miền mờ Least Low: 1-abs(0.41 - 0.375)

= 0. 965. Khoảng cách giữa 0.4 và miền mờ Least Height: 1-abs(0.41 - 0.625) = 0.

785. Với cách tính tương tự chúng ta có các giá trị được mờ hóa như trong Bảng 2.2.

Ký hiệu: A1, B1: Very Low; A2, B2: Least Low; A3, B3: Least Heigh, A4,

B4: Very Heigh;

Bảng 2.2: Mờ hóa dữ liệu trong Bảng 2.1

TID A B

A1 A2 A3 A4 B1 B2 B3 B4

𝑇1 0.825 0.925 0 0 0 0.975 0.775 0

𝑇2 0 0.965 0.785 0 0 0.895 0.855 0

𝑇3 0 0.925 0.825 0 0.805 0.945 0 0

2.2.2. Quan hệ khoảng cách giao dịch

Jia-Yu Dai và công sự [18] đã đề xuất phương pháp tính khoảng cách giữa các

giao dịch trong CSDL nhị phân. Dựa vào khoảng cách giữa các giao dịch, có thể gộp

các giao dịch có khoảng cách gần nhau để tạo ra nhóm giao dịch, kết quả là thu được

CSDL mới có kích thước nhỏ hơn.

Quan hệ giao dịch và quan hệ khoảng cách giao dịch cho các giao dịch trong

CSDL mờ được định nghĩa như sau:

42

a) Quan hệ giao dịch: Hai giao dịch 𝑇1, 𝑇2 được gọi là có quan hệ với nhau

nếu 𝑇1 hoặc là tập con của 𝑇2 hoặc 𝑇1là tập cha của 𝑇2.

b) Quan hệ khoảng cách giao dịch: Khoảng cách giữa hai giao dịch là số các

mục (item) khác nhau.

Trong bảng Bảng 2.2 khoảng cách giữa giao dịch 𝑇1 và 𝑇2 là 𝐷𝑇1−𝑇2 = 2,

khoảng cách giữa hai giao dịch 𝑇2 và 𝑇3 là 𝐷𝑇1−𝑇3 = 4.

2.2.3. Xây dựng bảng định lượng

Để giảm số lượng tập ứng cử được tạo ra, cần phải có thêm thông tin để loại

bớt các tập không phải là tập phổ biến. Bảng định lượng được xây dựng để lưu các

thông tin này khi mỗi giao dịch được xử lý. Các mục xuất hiện trong giao dịch cần

sắp xếp theo thứ tự từ điển. Bắt đầu từ các mục bên trái và gọi đó là tiền tố của mục.

Sau đó tính chiều dài của giao dịch đầu vào là n, ghi số lượng các mục xuất hiện trong

giao dịch vào các mục tùy theo độ dài của giao dịch: L𝑛, Ln−1, . . . , L1. Bảng định lượng

bao gồm những mục trong đó mỗi Li chứa một tiền tố mục và giá trị hỗ trợ của mục

đó.

Ví dụ 2.2: Xây dựng bảng định lượng cho CSDl giao dịch trong Bảng 2.2. Với

giao dịch TID = T1 có giá trị là {A1 = 0.825; A2 = 0.925; B2 = 0.975; B3 = 0.775},

không tính các mục có giá trị bằng 0. Giao dịch T1 có chiều dài n = 4, với tiền tố A1,

giá trị từ L1 đến L4 tăng lên 0.825 (khởi tạo là 0), vì vậy A1 = 0.825 xuất hiện trong

mỗi Li, với i = 1,..,4. Với tiền tố A2, giá trị từ L1 đến L3 tăng lên 0.925 (khởi tạo là

0), Vì vậy A2 = 0.925 xuất hiện trong mỗi TLi, với i = 1,…,3. Với tiền tố B2, giá trị

từ L1,L2 tăng lên B2 = 0.975 (khởi tạo là 0). Với tiền tố B3, giá trị L1 tăng lên B3 =

0.775.

Với giao dịch TID = T2 có giá trị là {A2 = 0.965; A3 = 0.785; B2 = 0.895; B3

= 0.855}, giá trị A2 trong L1, L2, L3 tăng lên là A2 = 1.89 (0.925 + 0.965), giá trị A2

trong L4 là A2 = 0.965. Với tiền tố A3 = 0.785 trong L1, L2, L3. Với tiền tố B2 =

0.895 trong L1, L2. Với tiền tố B3 = 0.855 trong L1.

Với giao dịch TID = T3 {A2 = 0.925; A3 = 0.825; B1 = 0.805; B2 = 0.945; }.

Với tiền tốt A2, giá trị L4 tăng lên A2 = 1.89, trong L1, L2, L3 giá trị A2 = 2.815;

Với tiền tố A3: trong L1, L2, L3 giá trị của A3 = 1.61; Với tiền tố B1, trong L1, L2

giá trị B1 = 0.805; Với tiền tố B2, trong L1 giá trị B2 = 2.815.

43

Bảng 2.3 là bảng định lượng được xây dựng từ CSDL trong Bảng 2.2. Với

bảng định lượng, chúng ta có thể dễ dàng loại bớt các tập ứng cử viên có độ hỗ trợ

nhỏ hơn so với sự hỗ trợ tối thiểu.

Bảng 2.3: Bảng định lượng của cơ sở dữ liệu Bảng 2.2

L4 L3 L2 L1

A1 = 0.825 A1 = 0.825 A1 = 0.825 A1 = 0.825

A2 = 1.89 A2 = 2.815 A2 = 2.815 A2 = 2.815

A3 = 1.61 A3 = 1.61 A3 = 1.61

B1 = 0.805 B1 = 0.805

B2 = 1.87 B2 = 2.815

B3 = 1.63

2.3. Nén cơ sở dữ liệu giao dịch

Với d là khoảng cách quan hệ được khởi tạo bằng 1. Dựa vào khoảng cách

giữa các giao dịch, chúng ta gộp các giao dịch có khoảng cách nhỏ hơn hoặc bằng d

để tạo thành nhóm giao dịch mới và đưa vào khối gồm các giao dịch được trộn với

nhau.

Hình 2.2: Tổng quan về thuật toán nén CSDL giao dịch

CSDL

Tiền

xử

lý d

ữ liệu

Mờ hóa CSDL giao dịch

Gộp các giao dịch

Khai p

há d

ữ liệu

Thuật toán

Khai phá luật kết hợp mờ

từ CSDL nén

Tập luật kết hợp mờ

44

Trong Hình 2.2: CSDL gồm các thuộc tính định lượng, phần Tiền xử lý dữ

liệu: Thực hiện chuẩn hoá dữ liệu về đoạn [0,1], độ thuộc của giá trị của các thuộc

tính được tính toán như trình trình bày trong mục 2.2, sau đó từ CSDL mờ thu được

chúng ta gộp các giao dịch gần nhau vào với nhau tạo ra CSDL mới gọi là CSDL nén.

Chi tiết thuật toán nén được trình bày chi tiết trong Thuật toán 1. Để tìm ra các luật

kết hợp từ CSDL nén luận án đề xuất cải tiến thuật toán Apriori mờ và chi tiết như

Thuật toán 2.

Thuật toán 1: Thuật toán nén giao dịch

Đầu vào: Cơ sở dữ liệu giao dịch mờ D

Đầu ra: Cơ sở dữ liệu nén

Ký hiệu các tham số của thuật toán như sau:

𝑀𝐿 = {𝑀𝐿𝑘}: 𝑀𝐿𝑘 các nhóm giao dịch có độ dài bằng k (độ dài của giao dịch

là số mục trong giao dịch)

𝐿 = {𝐿𝑘}: 𝐿𝑘 các giao dịch có độ dài k

𝑇𝑖: Giao dịch thứ i trong CSDL mờ

| 𝑇𝑖 |: Độ dài của giao dịch 𝑇𝑖

Nội dung thuật toán:

Bước 1: Mỗi lần đọc một giao dịch 𝑇𝑖 từ CSDL mờ

Bước 2: Tính độ dài của giao dịch 𝑇𝑖: n

Bước 3: Dựa vào giao dịch đầu vào để xây dựng bảng định lượng.

Bước 4: Tính toán khoảng cách giữa giao dịch Ti với các nhóm giao dịch trong

khối MLn−1, MLn, MLn+1. Nếu tồn tại một nhóm giao dịch trong các khối MLn−1,

MLn, MLn+1 có khoảng cách với giao dịch Ti nhỏ hơn hoặc bằng d. Chúng ta tiến

hành gộp giao dịch Ti với nhóm giao dịch trong khối tương ứng, ta thu được nhóm

giao dịch mới và đưa vào khối có độ dài tương ứng, và xóa nhóm giao dịch cũ trong

khối.

Ví dụ 2.3: Cho d = 1 và hai giao dịch {B = 0.23; C = 0.55; D = 0.75} và

{C = 0.82; D = 0.94}. Do khoảng cách giữa hai giao dịch này bằng 1, chúng được

gộp thành một nhóm giao dịch {B = 0.23; C = 1.37; D = 1.69}. Nhóm giao dịch

này có độ dài bằng 3, vì vậy đưa nhóm giao dịch này vào khối 𝑀𝐿3. Dấu “ = ” được

sử dụng để chỉ tổng độ thuộc của các mục trong nhóm giao dịch. Với giao dịch

{B = 0.4; C = 0.5}, khoảng cách giữa {B = 0.23; C = 1.37; D = 1.69} và

45

{B = 0.4; C = 0.5} là 1. Vì vậy giao dịch {B = 0.4; C = 0.5} được gộp với

nhóm giao dịch {B = 0.23; C = 1.37; G = 1.69} tạo thành nhóm giao dịch mới.

Cuối cùng, nhóm giao dịch trở thành {B = 0.63; C = 1.87; G = 1.69}. Xóa nhóm

giao dịch {B = 0.23; C = 1.37; G = 1.69} trong khối 𝑀𝐿3 và thêm nhóm giao

dịch {B = 0.63; C = 1.87; G = 1.69} vào khối 𝑀𝐿3.

Bước 5: Nếu giao dịch 𝑇𝑖 không được gộp với các nhóm giao dịch trong khối

MLn−1, MLn, MLn+1. Tính toán khoảng cách giữa giao dịch 𝑇𝑖 và các giao dịch trong

khối 𝐿𝑛−1, 𝐿𝑛, 𝐿𝑛+1. Nếu tồn tại giao dịch 𝑇𝑗 sao cho 𝐷𝑇𝑖−𝑇𝑗 ≤ 𝑑, gộp giao dịch 𝑇𝑖 với

giao dịch 𝑇𝑗 để tạo thành nhóm giao dịch và thêm nhóm giao dịch này vào khối tương

ứng (tùy thuộc vào độ dài của nhóm giao dịch được tạo ra), và xóa giao dịch 𝑇𝑗 trong

khối: 𝐿𝑛−1, 𝐿𝑛, 𝐿𝑛+1. Nếu không tìm được giao dịch thỏa mãn khoảng cách d, thêm

giao dịch 𝑇𝑖 vào khối 𝐿𝑛.

Bước 6: Lặp lại 5 bước trên cho đến khi giao dịch cuối cùng trong CSDL giao

dịch được xử lý.

Bước 7: Mỗi lần đọc một giao dịch 𝑇𝑖 trong khối 𝐿 = {𝐿𝑘}

Bước 8: Tính độ dài của giao dịch 𝑇𝑖: n

Bước 9: Tính toán khoảng cách giữa giao dịch 𝑇𝑖 với các nhóm giao dịch trong

các khối MLn−1, MLn, MLn+1. Nếu tồn tại một nhóm giao dịch có khoảng cách nhỏ

hơn hoặc bằng d, tiến hành gộp giao dịch 𝑇𝑖 với nhóm giao dịch tìm được để tạo thành

nhóm giao dịch mới. Tùy thuộc vào độ dài của nhóm giao dịch mới, sẽ thêm nhóm

giao dịch mới này vào khối tương ứng: MLn−1, MLn, MLn+1, xóa nhóm giao dịch cũ

trong khối: MLn−1, MLn, MLn+1, và xóa giao dịch 𝑇𝑖 trong khối 𝐿𝑛.

Bước 10: Lặp lại bước 7, bước 8, bước 9 cho đến khi giao dịch cuối cùng trong

𝐿 = {𝐿𝑘 } được xử lý.

Kết quả thu được CSDL nén gồm các giao dịch trong các khối 𝐿 = {𝐿𝑘 },

𝑀𝐿 = {𝑀𝐿𝑘 }, và bảng định lượng.

Bước tiếp theo sau khi đã nén CSDL, có thể dùng một thuật toán khai phá luật

kết hợp mờ nào đó để khai phá các luật kết hợp mờ của CSDL đã nén. Ở đây, luận án

sử dụng thuật toán khai phá luật kết hợp mờ theo hướng tiếp cận của ĐSGT. Điểm

khác biệt ở đây là sử dụng lý thuyết ĐSGT để xây dựng độ thuộc của một giá trị thuộc

tính.

46

2.4. Thuật toán trích xuất luật kết hợp mờ

Thuật toán 2: Khai phá dữ liệu mờ theo hướng tiếp cận ĐSGT

Ký hiệu các tham số của thuật toán khai phá luật kết hợp mờ theo hướng tiếp

cận ĐSGT

N: Tổng số giao dịch trong CSDL

M: Tổng số thuộc tính

𝐴𝑗: Thuộc tính thứ j, 1 ≤ 𝑗 ≤ 𝑚 (thuộc tính định lượng hoặc thuộc tính hạng

mục)

|𝐴𝑗|: Số nhãn gia tử của thuộc tính Aj

𝑅𝑗𝑘: Nhãn gia tử j của thuộc tính Aj, 1 ≤ 𝑘 ≤ |Aj|

𝐷(𝑖): Dữ liệu giao dịch thứ i, 1 ≤ 𝑖 ≤ 𝑁

𝑣𝑗(𝑘)

: Giá trị phần tử thứ k của Aj trong D(i)

𝑓𝑗𝑘

(𝑖): Giá trị độ thuộc của 𝑣j

(k) với nhãn gia tử Rjk, 0 ≤ 𝑓𝑗𝑘

(𝑖) ≤ 1

𝑆𝑢𝑝(𝑅𝑗𝑘): Độ hỗ trợ của Rjk

Sup: Giá trị hỗ trợ của mỗi tập mục phổ biến

Conf: Độ tin cậy của mỗi tập mục phổ biến

Min_sup: Độ hỗ trợ tối thiểu cho trước

Min_conf: Độ tin tin cậy cho trước

𝐶𝑟: Tập các tập mục có khả năng với r thuộc tính (tập mục), 1 ≤ 𝑟 ≤ 𝑚

𝐿𝑟: Tập các tập mục phổ biến thỏa mãn với r nhãn gia tử (tập mục) 1 ≤ 𝑟 ≤

𝑚.

Thuật toán khai phá dữ liệu dựa trên ĐSGT cho các giá trị định lượng được

thực hiện như sau:

Input:

- CSDL giao tác D

- Các ĐSGT cho các thuộc tính mờ

- Độ hỗ trợ 𝑀𝑖𝑛_𝑠𝑢𝑝 và độ tin cậy 𝑀𝑖𝑛_𝑐𝑜𝑛𝑓

Output: Luật kết hợp mờ

Bước 1: Chuyển các giá trị định lượng 𝑣𝑗(𝑘)

của giao dịch 𝐴𝑗 trong 𝐷(𝑖)

, với i

từ 1 tới N. Với 𝑣𝑗(𝑘)

, nếu 𝑣𝑗(𝑘)

nằm ở ngoài 1 trong 2 đầu mút (2 nhãn gia tử cực đại

47

và cực tiểu) thì 𝑣𝑗(𝑘)

chỉ có 1 nhãn gia tử ứng với đầu mút đó. Ngược lại 𝑣𝑗(𝑘)

được

biểu diễn bởi 2 nhãn gia tử liên tiếp có đoạn giá trị nhỏ nhất trên trường giá trị của

𝑣𝑗(𝑘)

, mỗi nhãn ứng với 1 giá trị biểu diễn độ thuộc 𝑓𝑗𝑘(𝑖)

(j = 1, 2) của 𝑣𝑗(𝑘)

với nhãn gia

tử đó. Độ thuộc này được tính là khoảng cách của 𝑣𝑗(𝑘)

tới giá trị biểu diễn cho nhãn

gia tử tương ứng.

Bước 2: Thực hiện thuật toán nén giao dịch (Thuật toán 1) với CSDL được

mờ hóa ở Bước 1. Kết thúc bước này, chúng ta thu được CSDL giao dịch nén và bảng

định lượng.

Chúng ta sử dụng thuật toán giống như Apriori với CSDL nén để sinh ra các

tập phổ biến.

Bước 3: Dựa vào giá trị trong TL1 của bảng định lượng, giá trị trong TL1 là độ

hỗ trợ của các 𝑅𝑗𝑘. Nếu 𝑆𝑢𝑝(𝑅𝑗𝑘) ≥ min_𝑠𝑢𝑝 thì đưa Rjk vào L1.

Bước 4: Nếu L1 ≠ ∅, tiếp tục bước sau, nếu L1 = ∅ thì kết thúc thuật toán.

Bước 5: Thuật toán xây dựng tập mục phổ biến mức r từ các tập mục phổ biến

mức r - 1 bằng cách chọn 2 tập mục phổ biến mức r - 1 chỉ khác nhau duy nhất một

mục, hợp 2 tập mục này ta được tập mục ứng viên 𝐶𝑟. Trước khi sử dụng CSDL nén

để tính độ hỗ trợ của các tập mục trong 𝐶𝑟, dựa vào giá trị của TLr trong bảng định

lượng chúng ta có thể loại bớt một số ứng cử viên mà không cần phải duyệt CSDL

nén.

Bước 6: Duyệt CSDL nén, tính độ hỗ trợ của mỗi tập mục trong 𝐶𝑟. Nếu tập

mục nào có độ hỗ trợ thỏa mãn độ hỗ trợ tối thiểu thì đưa vào 𝐿𝑟.

Bước 7: Thực hiện theo các bước con sau đây lặp lại cho các tập mục phổ biến

mức lớn hơn được sinh ra tiếp theo dạng (r+1) tập mục phổ biến S với mục

(𝑠1, 𝑠2, … , 𝑠𝑡 , … , 𝑠𝑟+1) trong 𝐶𝑟+1, 1 ≤ 𝑡 ≤ 𝑟 + 1.

(a) Tính giá trị hỗ trợ sup(S) của S trong giao dịch

(b) Nếu 𝑆𝑢𝑝(𝑆) ≥ 𝑀𝑖𝑛_𝑠𝑢𝑝, thì đưa S vào 𝐿𝑟+1

Bước 8: Nếu Lr+1 là rỗng, thì thực hiện bước tiếp theo, ngược lại, đặt 𝑟 =

𝑟 + 1, thực hiện lại bước 6 và 7.

Bước 9: Đưa ra các luật kết hợp từ các tập mục phổ biến vừa thu được.

48

2.5. Kết quả thử nghiệm

Kết quả thử nghiệm được thực hiện với hai thuật toán: thuật toán đề xuất và

thuật toán trong [31] bằng ngôn ngữ lập trình C# và chạy thử nghiệm trên máy tính

có cấu hình như sau: Intel(R) Core i5 CPU, RAM 8GB.

Trong chương này, luận án sử dụng hai CSDL để thử nghiệm: FAM95 và

STULONG:

- Dữ liệu thử nghiệm STULONG gồm 5 thuộc tính có giá trị là các số nguyên

A1, A2, A3, A4, A5. Miền giá trị tương ứng của các thuộc tính là: [-1, 199], [-1, 133],

[90, 225], [50, 145], [-1, 530]. CSDL này gồm 1417 bản ghi.

- Dữ liệu thử nghiệm FAM95 là số liệu điều tra dân số Mỹ năm 1995. Luận

án lựa chọn 5 thuộc tính để thử nghiệm gồm: Age, Hours, IncFam, IncHead, Sex. Với

Age là tuổi của người dân, Hours là số giờ làm việc trong tuần, IncFam: thu nhập của

gia đình, IncHead là thu nhập của người đứng đầu gia đình, Sex giới tính của chủ gia

đình. Các thuộc tính: Age, Hours, IncFam, IncHead là các thuộc tính mờ, thuộc tính

Sex nhận các giá trị 0 (nữ) hoặc 1 (nam). CSDL FAM95 gồm 63565 bản ghi.

2.5.1. Thử nghiệm với CSDL FAM95

Trong Bảng 2.4 thống kê số lượng luật kết hợp thu được của ba phương pháp:

phương pháp sử dụng: CSDL không nén, CSDL nén, và CSDL nén và Bảng định

lượng. Với độ hỗ trợ 20%, 30% số lượng luật kết hợp của phương pháp luận án đề

xuất có khác so với phương pháp sử dụng thuật toán Apriori, với độ hỗ trợ tử 40%

đến 70% thì số lượng luật kết hợp thu được của ba phương pháp là giống nhau.

Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80%

Độ hỗ trợ

(%) CSDL không nén CSDL nén

CSDL nén, và Bảng định

lượng

20 238 255 255

30 98 94 94

40 34 34 34

50 18 18 18

60 6 6 2

70 2 2 2

49

Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80%

STT Luật kết hợp Đỗ hỗ

trợ

Độ tin

cậy

CSDL không nén

1 { VL_INCHEAD } ==> { VL_INCFAM } 92% 97%

2 { VL_INCFAM } ==> { VL_INCHEAD } 92% 98%

3 { LY_AGE } ==> { VL_INCHEAD } 69% 98%

4 { LY_AGE } ==> { VL_INCFAM } 70% 99%

5 { VL_INCHEAD, LY_AGE } ==> { VL_INCFAM } 69% 99%

6 { VL_INCFAM, LY_AGE } ==> { VL_INCHEAD } 69% 99%

CSDL giao dịch nén, không Bảng định lượng



3 { LY_AGE } ==> { VL_INCHEAD } 69% 99%

4 { LY_AGE } ==> { VL_INCFAM } 69% 100%

5 { VL_INCHEAD, LY_AGE } ==> { VL_INCFAM } 69% 100%

6 { VL_INCFAM, LY_AGE } ==> { VL_INCHEAD } 69% 99%

CSDL giao dịch nén, và Bảng định lượng



3 { LY_AGE } ==> { VL_INCHEAD } 69% 99%

4 { LY_AGE } ==> { VL_INCFAM } 69% 100%

5 { LY_AGE, VL_INCHEAD } ==> { VL_INCFAM } 69% 100%

6 { LY_AGE, VL_INCFAM } ==> { VL_INCHEAD } 69% 99%


STT Luật kết hợp Đỗ hỗ trợ Độ tin cậy

CSDL không nén









50

Trong Bảng 2.5, Bảng 2.6 cho thấy số lượng luật kết hợp thu được của ba thử

nghiệm (với CSDL không nén, CSDL nén không sử dụng bảng định lượng, CSDL

nén sử dụng bảng định lượng) có số lượng giống nhau. Trong Bảng 2.5 so sánh tương

ứng từng luật của ba phương pháp cho thấy độ hỗ trợ và độ tin cậy của mỗi luật có

khác nhau nhưng không đáng kể.

Hình 2.3: Thời gian thực hiện với CSDL nén và CSDL không nén

Hình 2.4: Thời gian thực hiện với CSDL nén

0

200

400

600

800

1000

1200

1400

1600

10% 20% 30% 40% 50% 60% 70% 80%

TIM

E (

SE

CO

ND

)

MINIMUM SUPPORT

CSDL không nén CSDL nén

0

50

100

150

200

250

300

4% 5% 10% 15% 20% 25% 30%

TIM

E (

SE

CO

ND

)

MINIMUM SUPPORT

Không sử dụng bảng định lượng Sử dụng bảng định lượng

51

Trong Hình 2.3 so sánh thời gian thực thuật toán Apriori mờ với CSDL không

nén và thời gian thực hiện với CSDL nén nhưng không sử dụng bảng định lượng.

Trong Hình 2.4 so sánh thời gian thực hiện thuật toán cùng với CSDL nén có

sử dụng bảng định lượng và CSDL nén không sử dụng bảng định lượng.

Thời gian dùng để nén CSDL trên là 135 giây, số giao dịch thu được sau khi

nén là 2402 giao dịch. Kết quả thử nghiệm với độ tin cậy là 60%, luận án thử nghiệm

với hai thuật toán: Luật kết hợp theo cách tiếp cận của ĐSGT [2] và thuật toán luận

án đề xuất là nén CSDL mờ theo hướng tiếp cận ĐSGT. Kết quả thử nghiệm cho thấy

phương pháp đề xuất nén CSDL cho kết quả nhanh hơn với phương pháp đề xuất

trong [2] và giá trị của các tập phổ biến tìm được giống với khi chúng ta sử dụng

CSDL không nén.

2.5.2. Thử nghiệm với CSDL STULONG

Trong Bảng 2.7 thống kê số lượng luật kết hợp thu được của ba phương pháp:

phương pháp sử dụng: CSDL không nén, CSDL nén, và CSDL nén và Bảng định

lượng.

Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80%

Độ hỗ trợ (%) CSDL không nén CSDL nén CSDL nén,

và Bảng định lượng

5% 7822 8188 8185

10% 5076 5532 5527

20% 2149 2528 2528

30% 1096 1348 1318

40% 587 599 599

50% 248 287 287

60% 107 155 155

70% 75 75 75

80% 23 35 35

Nhận xét: số lượng luật kết hợp thu được của phương pháp luận án đề xuất sử

dụng CSDL nén có sử dụng bảng định lương và không sử dụng bảng định lượng cơ

bản là giống nhau.

52

Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80%

Độ hỗ trợ (%) CSDL không nén CSDL nén CSDL nén,

và Bảng định lượng

5% 669 41.4 41.4

10% 580 26.4 26.3

20% 187 8.3 8.3

30% 72 3.6 3.5

40% 26 1.1 1.1

50% 8 0.4 0.4

60% 3 0.2 0.2

70% 1 0.1 0.1

Trong Bảng 2.9, Bảng 2.10 cho thấy số lượng luật kết hợp thu được của ba thử

nghiệm (với CSDL không nén, CSDL nén không sử dụng bảng định lượng, CSDL

nén sử dụng bảng định lượng) có số lượng luật kết hợp giống nhau. Trong Bảng 2.9,

Bảng 2.10 so sánh tương ứng từng luật của ba phương pháp cho thấy độ hỗ trợ và độ

tin cậy của mỗi luật có khác nhau nhưng không đáng kể.



trợ

Độ tin

cậy

CSDL không nén

1 { LL_A5 } ==> { LH_A2 } 86 % 97 %

2 { LH_A2 } ==> { LL_A5 } 86 % 93 %

3 { LL_A5 } ==> { VH_A1 } 88 % 99 %

4 { VH_A1 } ==> { LL_A5 } 88 % 91 %

5 { LH_A2 } ==> { VH_A1 } 92 % 99 %

6 { VH_A1 } ==> { LH_A2 } 92 % 95 %

7 { LL_A5, VH_A1 } ==> { LH_A2 } 85 % 97 %

8 { LH_A2, VH_A1 } ==> { LL_A5 } 85 % 93 %

9 { LH_A2, LL_A5 } ==> { VH_A1 } 85 % 100 %


1 { LL_A5 } ==> { LH_A2 } 88 % 99 %

2 { LH_A2 } ==> { LL_A5 } 88 % 95 %

3 { LL_A5 } ==> { VH_A1 } 88 % 100 %

53

4 { VH_A1 } ==> { LL_A5 } 88 % 91 %

5 { LH_A2 } ==> { VH_A1 } 92 % 100 %

6 { VH_A1 } ==> { LH_A2 } 92 % 95 %

7 { LL_A5, VH_A1 } ==> { LH_A2 } 87 % 99 %

8 { LH_A2, VH_A1 } ==> { LL_A5 } 87 % 95 %

9 { LH_A2, LL_A5 } ==> { VH_A1 } 87 % 100 %


1 { B3 } ==> { A4 } 92 % 100 %

2 { A4 } ==> { B3 } 92 % 95 %

3 { E2 } ==> { A4 } 88 % 100 %

4 { A4 } ==> { E2 } 88 % 91 %

5 { E2 } ==> { B3 } 88 % 99 %

6 { B3 } ==> { E2 } 88 % 95 %

7 { B3, E2 } ==> { A4 } 87 % 100 %

8 { A4, E2 } ==> { B3 } 87 % 99 %

9 { A4, B3 } ==> { E2 } 87 % 95 %



trợ

Độ tin

cậy

CSDL không nén

1 { LH_A2 } ==> { VH_A1 } 92 % 99 %

2 { VH_A1 } ==> { LH_A2 } 92 % 95 %


1 { LH_A2 } ==> { VH_A1 } 92 % 100 %

2 { VH_A1 } ==> { LH_A2 } 92 % 95 %


1 { B3 } ==> { A4 } 92 % 100 %

2 { A4 } ==> { B3 } 92 % 95 %

54

Trong Hình 2.3 so sánh thời gian thực thuật toán Apriori mờ với CSDL không

nén và thời gian thực hiện với CSDL nén nhưng không sử dụng bảng định lượng.

Hình 2.5: Thời gian thực hiện với CSDL nén và CSDL không nén

Trong Hình 2.5 so sánh thời gian thực hiện thuật toán cùng với CSDL nén có

sử dụng bảng định lượng và CSDL nén không sử dụng bảng định lượng. Kết quả thử

nghiệm với độ tin cậy là 80%, luận án thử nghiệm với hai thuật toán: Luật kết hợp

theo cách tiếp cận của ĐSGT [2] và thuật toán luận án đề xuất là nén CSDL mờ theo

hướng tiếp cận ĐSGT. Kết quả thử nghiệm cho thấy phương pháp đề xuất nén CSDL

cho kết quả nhanh hơn với phương pháp đề xuất trong [2] và giá trị của các tập phổ

biến tìm được giống với khi chúng ta sử dụng CSDL không nén.


Trong chương này luận án nghiên cứu ĐSGT và phát triển thuật toán nén

CSDL giao dịch sử dụng cho bài toán khai phá luật kết hợp mờ. Với cách tiếp cận

này, các giao dịch gần nhau được gộp lại để tạo thành giao dịch mới, làm giảm kích

thước của CSDL đầu vào. Thuật toán nén CSDL giao dịch được thử nghiệm trên

CSDL: FAM95 và STULONG. Kết quả thử nghiệm với 2 CSDL cho thấy phương

pháp đề xuất nén CSDL cho kết quả nhanh hơn với phương pháp đề xuất trong [2] và

giá trị của các tập phổ biến tìm được giống với khi chúng ta sử dụng CSDL không

nén. Nội dung của chương này được công bố trong các công trình [i, ii].

0

100

200

300

400

500

600

700

800

5% 10% 20% 30% 40% 50% 60% 70% 80%

TIM

E (

SE

CO

ND

)

MINIMUM SUPPORT

CSDL không nén CSDL nén không sử dụng bảng định lượng

55

Trong chương này, luận án sử dụng ĐSGT với các biểu diễn đơn thể hạt cho

các thuộc tính với tham số giống nhau. Để nâng cao hiệu quả khai phá luật kết hợp

và để tìm ra các luật có ý nghĩa hơn, trong chương 3 luận án nghiên cứu và đề xuất

phương pháp tối ưu các tham số mờ cho phù hợp với từng thuộc tính với biểu diễn

đơn thể hạt và đa thể hạt.

56

CHƯƠNG 3. PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN

BIỂU DIỄN THỂ HẠT CỦA ĐSGT

Mục tiêu chính của khai phá luật kết hợp là tìm ra các mối liên hệ giữa các tập

mục trong CSDL. Trong bài toán khai phá luật kết hợp mờ sử dụng lý thuyết tập mờ

cho các thuộc tính định lượng. Việc thiết kế phân hoạch mờ trên miền thuộc tính cho

bài toán khai phá luật kết hợp có vài trò hết sức quan trọng đối kết quả của các luật

kết hợp mờ thu được.

Trong chương này, luận án trình bày một số cách phân chia miền mờ và đề

xuất phương pháp phân chia miền mờ bằng cách sử dụng lý thuyết ĐSGT dựa trên

biểu diễn đơn thể hạt và đa thể hạt. ĐSGT cho phép mô hình hoá và thiết kế các từ

ngôn ngữ cùng với ngữ nghĩa dựa trên tập mờ. Luận án đề xuất thuật toán tối ưu các

hàm thuộc được xây dựng dựa trên lý thuyết ĐSGT cho bài toán khai phá luật kết

hợp mờ. Các kết quả thử nghiệm cho thấy kết quả của các phương pháp đề xuất có

một số ưu việt hơn một số phương pháp đã đề xuất trước đây.

3.1. Phân hoạch cho miền giá trị của thuộc tính

3.1.1. Đặt vấn đề

Bài toán phân chia miền xác định các thuộc tính định lượng của một tập dữ

liệu đầu vào như sau: Cho miền xác định của một thuộc tính (ở đây chỉ xét thuộc tính

định lượng). Mỗi thuộc tính định lượng có một miền xác định (hoặc miền giá trị) là

miền trên trục số thực bao gồm các giá trị mà thuộc tính định lượng đó có thể nhận.

Thí dụ tuổi có thể nhận các giá trị từ 0 đến 120. Yêu cầu là phải phân chia miền thuộc

tính ra thành các hạt và mỗi hạt có nhãn ngôn ngữ biểu thị bằng tập mờ.

Việc phân chia này là cần thiết vì sử dụng tập mờ với nhãn ngôn ngữ phù hợp

với cách con người sử dụng ngôn ngữ và để tương tác với người dùng. Việc phân chia

có thể là rời rạc nhưng xu hướng chung là phân chia thành các miền có giao nhau rõ

hay mờ vì nó mang tính hợp lý hơn. Chẳng hạn, với thuộc tính “khoảng cách”, việc

phân chia rời rạc có thể là [0 km, 50 km] là “gần”; [51km, 100 km] là “trung bình”;

[100 km, 200 km] là “xa”, nhưng như vậy thì khoảng cách 50km và 51 km rất gần

nhau nhưng lại thuộc hai nhãn khoảng cách khác nhau không thật hợp lý. Với phân

57

chia mờ, ta coi các nhãn “gần”, “trung bình”, “xa” là các tập mờ, khi đó một giá trị x

bất kỳ thuộc miền giá trị của thuộc tính “khoảng cách” sẽ chuyển đổi thành tập các

độ thuộc 𝜇𝐺ầ𝑛(𝑥), 𝜇𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ(𝑥), 𝜇𝑋𝑎(𝑥) và ta sẽ xử lý trên tập độ thuộc của x vào các

tập mờ thay vì xử lý trực tiếp giá trị x. Khi đó, việc xử lý sẽ có chi phí lớn hơn nhưng

rõ ràng là mang tính mềm dẻo hơn nhiều.

Trong cách tiếp cận lý thuyết tập mờ, các tác giả phân chia miền giá trị của

thuộc tính thành các tập mờ, và điều chỉnh tham số của các tập mờ. Việc gán nhãn

ngôn ngữ vào các tập mờ dựa trên trực giác của người thiết kế. ĐSGT xuất phát từ

khung nhận thức ngôn ngữ để từ đó thiết kế các từ ngôn ngữ cùng với ngữ nghĩa dựa

trên tập mờ của chúng.

3.1.2. Rời rạc hóa thuộc tính định lượng

Khai phá luật kết hợp với thuộc tính định lượng và thuộc tính hạng mục là một

trong những hướng tiếp cận quan trọng trong lĩnh vực khai phá luật kết hợp. Dạng

luật này được đề xuất nghiên cứu lần đầu tiên được R. Agrawal (1993) đề xuất trong

[54].

Bảng dữ liệu trong Bảng 3.1 minh họa một CSDL bao gồm các thuộc tính nhị

phân (binary), thuộc tính định lượng (quantitative), và thuộc tính hạng mục

(categorical). Trong CSDL này, thuộc tính Tuổi, Thu nhập là các thuộc tính định

lượng (quantitative), Số con là các thuộc tính hạng mục (categorical), còn các thuộc

tính còn lại như Giới tính là các thuộc tính nhị phân. Thực ra thuộc tính nhị phân cũng

là một trường hợp đặc biệt của thuộc tính hạng mục.

Các thuật toán khai phá luật kết hợp nhị phân chỉ có thể áp dụng trên những

CSDL quan hệ chỉ có thuộc tính nhị phân. Chúng không thể áp dụng trực tiếp với các

CSDL có thuộc tính định lượng và thuộc tính hạng mục như trong CSDL ở Bảng 3.1.

Muốn thực hiện được điều này, R. J. Miller (1997) đề xuất trong [8] phải tiến

hành rời rạc hóa dữ liệu cho các thuộc tính định lượng để chuyển chúng về thuộc tính

nhị phân. Mặc dù các thuật toán được đề xuất trong [65] có thể giải quyết trọn vẹn

bài toán này, tuy vậy kết quả tìm được vẫn chưa làm thỏa mãn những nhà nghiên cứu.

Vấn đề không phải ở thuật toán mà là cách thức rời rạc hóa dữ liệu được áp dụng.

Mục này sẽ trình bày một vài phương pháp rời rạc hóa, đồng thời đánh giá xem chúng

có những ưu và nhược điểm gì.

58

Có 2 cách phân chia miền xác định thuộc tính thành các miền con rõ và mờ.

Cách phân chia thành các miền con rõ có thể thấy qua ví dụ sau:

Nếu A là thuộc tính định lượng rời rạc (quantitative & discrete) hoặc là thuộc

tính hạng mục (categorical) với miền giá trị hữu hạn dạng {v1, v2, … , vk} và k đủ bé

thì ta sẽ biến đổi thuộc tính này thành k thuộc tính nhị phân dạng A_V1, A_V2, … A_Vk.

Giá trị của một bản ghi tại trường A_Vi bằng 1 nếu giá trị của bản ghi đó của thuộc

tính A ban đầu bằng 𝑣𝑖, trong các trường hợp còn lại giá trị của A_Vi sẽ là 0.

Bảng 3.1: CSDL thống kế dân số của 10 gia đình

STT Tuổi Giới tính Thu nhập Số con

1 48 Nữ 17546 1

2 40 Nam 30085 3

3 51 Nữ 16575 0

4 23 Nữ 20375 3

5 57 Nữ 50576 0

6 57 Nữ 37869 2

7 22 Nam 8877 0

8 58 Nam 24946 0

9 37 Nam 25304 2

10 54 Nam 24212 2

Dữ liệu trong Bảng 3.1 có 3 thuộc tính kiểu số, đó là "Tuổi", "Thu nhập", và

"Số con". Đối với thuộc tính "Số con", vì phạm vi giá của nó chỉ có thể là 0, 1, 2 và

3 cho nên ta có thể giữ lại các giá trị của thuộc tính này.

Bảng 3.2: Rời rạc hóa thuộc tính định lượng

Số con (0, 1, 2, 3) ===>

Sau khi rời

rạc hóa

Số con_1 Số con_2 Số con_3

3 0 0 1

1 1 0 0

2 0 1 0

Nếu A là thuộc tính định lượng liên tục (quantitative & continuous) hoặc A là

thuộc tính định lượng rời rạc hay thuộc tính hạng mục với miền giá trị dạng

{v1, v2, … , vp} (p lớn) thì ta sẽ ánh xạ thành q thuộc tính nhị phân <

𝐴: start1. . end1 >, < 𝐴: start2. . end2 >, …, < 𝐴: startq. . endq >. Giá trị của một

59

bản ghi tại trường < 𝐴: starti. . endi > sẽ bằng 1 nếu giá trị của bản ghi đó tại thuộc

tính A ban đầu năm trong khoảng [starti. . endi], ngược lại nó sẽ nhận giá trị 0. Thuộc

tính Tuổi, và Thu nhập trong CSDL ở Bảng 3.1 là những thuộc tính dạng này. Ví dụ

ta chia thuộc tính Tuổi thành các thuộc tính nhị phân ở hai bảng sau:

Bảng 3.3: Ví dụ rời rạc hóa thuộc tính "Tuổi"

Tuổi

Sau khi rời

rạc hóa

Tuổi: 1-29 Tuổi: 30-59 Tuổi: 60-120

74 0 0 1

29 1 0 0

30 0 1 0

59 0 1 0

60 0 0 1

Rời rạc hóa theo khoảng cũng nảy sinh một vấn đề về ngữ nghĩa. Ví dụ rời rạc

hóa thuộc tính Tuổi trong Bảng 3.3 cho thấy rằng 29 và 30 chỉ cách nhau một tuổi lại

thuộc về hai khoảng khác nhau. Nếu ta cho khoảng [1..29] là trẻ, [30..59] là trung

niên, còn [60..150] là già thì 59 tuổi được xem là trung niên trong khi 60 tuổi lại được

xem là già. Đây là điều rất thiếu tự nhiên và không "thuận" với cách tư duy của con

người bởi trong thực tế tuổi 60 chỉ "già hơn" tuổi 59 chút ít.

Phương pháp rời rạc hóa trên gặp phải vấn đề "điểm biên gãy" [27] (sharp

boundary problem). Nhằm khắc phục "Điểm biên gãy", Gyenesei và cộng sự [27] đã

đề xuất một cách phân khoảng mới sao cho các khoảng liền kề có một phần "gối" lên

nhau (overlap) ở phần đường biên giữa chúng. Cách phân khoảng này giải quyết được

vấn đề trên, nhưng lại gặp phải một vấn đề mới là khi đó tổng độ hỗ trợ của các

khoảng lớn hơn 100% và một số giá trị (nằm ở lân cận biên) được "coi trọng" hơn so

với các giá trị khác của thuộc tính - điều này là rất thiếu tự nhiên và có phần mâu

thuẫn.

Với những vấn đề nảy sinh ở trên, người ta đã đề xuất một dạng luật mới: luật

kết hợp mờ [23, 31, 57, 59]. Luật kết hợp mờ đã khắc phục được các vấn đề phân

khoảng như đã nêu trên. Các luật kết hợp mờ dạng này đem lại một dạng luật tự nhiên

hơn về mặt ngữ nghĩa và gần gũi với con người hơn.

Trong bài toán khai phá luật kết hợp mờ, chúng ta cần phải phần chia miền giá

trị của các thuộc tính thành các miền mờ, với mỗi miền mờ này thường gắn với một

60

hàm thuộc và nhãn ngôn ngữ. Cách phân chia miền xác định thành các miền con mờ

có nhiều ưu điểm hơn và sẽ là cách mà luận án sử dụng nên sẽ được trình bày kỹ ở

mục 3.1.3.

3.1.3. Phân chia miền giá trị của thuộc tính theo cách tiếp cận lý thuyết tập mờ

Một số phương pháp phân chia miền mờ phổ biến được sử dụng trong thời

gian gần đây:

a) Phân chia đều miền giá trị thuộc tính

Trong phương pháp này, ta chọn một số cố định các miền cần chia và chia một

mục thành các miền đều nhau. Phương pháp này đơn giản và có lẽ là tốt khi ta không

có thông tin nào khác, nhưng hiển nhiên là không đáp ứng tính đa dạng của dữ liệu.

b) Phân chia theo phương pháp phân cụm

Các thuộc tính liên tục (thuộc tính định lượng) có thể được xử lý bằng cách sử

dụng lý thuyết tập mờ. Rất khó để xác định hàm thuộc cho các thuộc tính dựa trên

trực giác. Trong phần này, ta mô tả các bước cơ bản của việc tìm các tập mờ và các

hàm thuộc tương ứng từ CSDL cho trước.

Với mỗi thuộc tính, bước đầu tiên chuyển giá trị của thuộc tính về dạng có thể

sử dụng phân cụm. Sau đó, áp dụng phương pháp phân cụm (K-Mean) để tìm kiếm

tập mờ, chúng ta sẽ xem xét không gian tìm kiếm của một CSDL gồm n thuộc tính

(thuộc tính: số, hạng mục, nhị phân) như là không gian n chiều. Thuật toán biết đến

nhiều trong hướng phân cụm K-Mean [17]. Phương pháp này tính đến sự đa dạng của

việc phân bố dữ liệu nhưng đòi hỏi phải tiến hành thực hiện các thuật toán tốn nhiều

thời gian. Một số công trình theo hướng này đã được các nhà nghiên cứu công bố

trong [12, 23, 24, 32].

Các bước để xây dựng các tập mờ có thể nói ngắn gọn như sau:

1) Biến đối dữ liệu gốc về dạng có thể phân cụm được;

2) Tìm trong tâm của k cụm trong CSDL;

3) Sử dụng trọng tâm của các cụm, xây dựng các tập mờ cho mỗi thuộc tính

định lượng;

4) Xây dựng các hàm thuộc tương ứng cho các thuộc tính định lượng.

Sau khi có được k tâm của các cụm của mỗi thuộc tính trong CSDL. Chúng ta

sử dụng các tâm này để xác định các tập mờ cho mỗi thuộc tính thành k tập mờ. Với

{𝑚1, 𝑚2, … ,𝑚𝑘} là k tâm cụm của n thuộc tính định lượng có được từ CSDL, với

61

𝑚𝑖 = {𝑎𝑖1, 𝑎𝑖2, … , 𝑎𝑖𝑛} là tâm của các cụm của thuộc tính thứ i. Chúng ta muốn xác

định các tập mờ cho thuộc tính thứ j với các giá trị số nằm trong đoạn 𝑚𝑖𝑛𝑗 đến 𝑚𝑎𝑥𝑗,

{𝑎1𝑗 , 𝑎2𝑗 , … , 𝑎𝑘𝑗} là tập các tâm của các cụm của miền mờ của thuộc tính j. k miền

mờ sẽ có phạm vi như sau: {𝑚𝑖𝑛𝑗 − 𝑎2𝑗}, {𝑎1𝑗 − 𝑎3𝑗},…, {𝑎(𝑖−1)𝑗 −

𝑎(𝑖+1)𝑗},…, {𝑚𝑖𝑛(𝑘−1)𝑗 −𝑚𝑎𝑥𝑗}.

Ví dụ 3.1: CSDL gồm có các thuộc tính định lượng (Lương có giá trị nằm

trong đoạn: 4000 đến 32000). Chúng ta có 3 trong tâm, với: 𝑚1 = 7000, 𝑚2 =

10000, 𝑚3 = 20000.

Nhãn tập mờ Phạm vị Trọng tâm

Low 4000 - 10000 7000

Medium 7000 - 20000 10000

Hight 10000 - 32000 20000

Để sinh các hàm thuộc tương ứng từ các tập mờ cho một thuộc tính định lượng

như trong [23]. Với {𝑚1, 𝑚2, … ,𝑚𝑘} là giá trị của k trọng tâm (medoids) được tìm

thấy từ CSDL có n thuộc tính, với 𝑚𝑖 = {𝑎𝑖1, 𝑎𝑖2, … , 𝑎𝑖𝑛} là medoids thứ i. Chúng ta

muốn xây dựng hàm thuộc của tập mờ cho thuộc tính thứ j với miền giá trị của thuộc

tính nằm trong đoạn từ 𝑚𝑖𝑛𝑗 đến 𝑚𝑎𝑥𝑗, {𝑎1𝑗 , 𝑎2𝑗 , … , 𝑎𝑘𝑗 , } là tập các trọng tâm của

miền mờ của thuộc tính j.

Với miền mờ có điểm trong tâm là 𝑎1𝑗, hàm thuộc được xây dựng như sau:

𝑓1𝑗(𝑥) =

{

1 𝑛ế𝑢 𝑥 ≤ 𝑎1𝑗𝑥 − 𝑎2𝑗

𝑎1𝑗 − 𝑎2𝑗𝑛ế𝑢 𝑎1𝑗 < 𝑥 < 𝑎2𝑗

0 𝑛ế𝑢 𝑥 ≥ 𝑎1𝑗

(3.1)

Với miền mờ có điểm trong tâm là 𝑎𝑘𝑗, hàm thuộc được xây dựng như sau:

𝑓1𝑗(𝑥) =

{

1 𝑛ế𝑢 𝑥 ≤ 𝑎1𝑗𝑥 − 𝑎(𝑘−1)𝑗

𝑎𝑘𝑗 − 𝑎(𝑘−1)𝑗𝑛ế𝑢 𝑎(𝑘−1)𝑗 < 𝑥 < 𝑎𝑘𝑗


(3.2)

Với miền mờ có điểm trong tâm là 𝑎𝑖𝑗, 2 ≤ 𝑖 ≤ 𝑘 − 1 hàm thuộc được xây

dựng như sau:

62

𝑓1𝑗(𝑥) =

{

1 𝑛ế𝑢 𝑥 ≤ 𝑎1𝑗𝑥 − 𝑎(𝑖−1)𝑗

𝑎𝑖𝑗 − 𝑎(𝑖−1)𝑗𝑛ế𝑢 𝑎(𝑖−1)𝑗 < 𝑥 < 𝑎𝑖𝑗

𝑥 − 𝑎(𝑖+1)𝑗

𝑎𝑖𝑗 − 𝑎(𝑖+1)𝑗𝑛ế𝑢 𝑎𝑖𝑗 < 𝑥 < 𝑎(𝑖+1)𝑗


(3.3)

c) Phân chia theo phương pháp ràng buộc động

Việc xác định các hạt thông tin đóng vai trò hết sức quan trọng trong các bài

toán khai phá dữ liệu mờ, các hạt thông tin này là các tập mờ. Phân chia theo rằng

buộc động có nghĩa là các miền con mờ không cố định một lần mà có thể thay đổi

phụ thuộc vào số liệu, vào kết quả phân hoạch. Tương ứng với một tập mờ là một

hàm thuộc. Các hàm thuộc thường dùng: hàm thuộc hình thang, hàm thuộc hình

chuông, và hàm thuộc dạng Gaussian. Mỗi hàm thuộc thường có các tham số để điều

chỉnh độ thuộc của các giá trị vào miền mờ. Ví dụ hàm thuộc dạng tam giác gồm có

3 tham số. Để có được các miền con mờ tốt (tối ưu xấp xỉ), có thể dùng giải thuật GA

hoặc các phương pháp khác để tối ưu các tham số của các tập con mờ dùng phân chia

miền xác định. Việc tối ưu các tham số của các hàm thuộc là một hướng nghiên cứu

trong bài toán khai phá luật kết hợp mờ. Để giải quyết nhiệm vụ này, một số nghiên

cứu sử dụng thuật toán tiến hoá nhằm tăng khả năng trong việc tối ưu và đã cụ thể

hóa các số đo cụ thể như độ chồng lấn, phủ,… của các hàm thuộc.

Cụ thể, Hong và cộng sự [55] phát triển thuật toán sử dụng GA để khai thác

dữ liệu mờ, kết quả cho thấy thuật toán có thể đưa ra được các hàm thuộc thích hợp

cho khai phá luật kết hợp mờ. Sau đó, họ tiếp tục sử dụng chiến lược chia để trị nhằm

năng cao hiệu quả [83]. Chen và cộng sự (2008) [11] đề xuất phương pháp sử dụng

thuật toán phân cụm để giảm chi phí khi đánh giá. Phương pháp đề xuất chia quần

thể thành nhiều cụm và thông qua độ hỗ trợ của một nhiễm sắc thể đại diện trong mỗi

cụm để đánh giá. Alcalá-Fdez và cộng sự [28] không sử dụng GA để tối ưu hàm

thuộc, mà sử dụng GA để lựa chọn luật kết hợp mờ. Lee và cộng sự [59] đề xuất sử

dụng GA để đánh giá trực tiếp tập các luật kết hợp mờ thay vì đánh giá tham số của

các hàm thuộc.

Hơn nữa, Chen và cộng sự [33] đề xuất thuật toán khai phá luật mờ để giải

quyết vấn đề thiết lập độ hỗ trợ tối thiểu. Ngoài việc sử dụng GA, giải thuật tối ưu

bầy đàn (PSO) và các thuật toán tiến hoá khác cũng được áp dụng để tối ưu các tham

số của hàm thuộc. Cai và cộng sự [58] đề xuất phương pháp PSO phi tuyến để khai

63

phá luật kết hợp mờ, với mỗi cá thể (particle) biểu diễn tất cả các tham số của các

hàm thuộc. Mishra và cộng sự [80] áp dụng giải thuật PSO để mã hoá gene cho mẫu

phổ biến mờ. Giải thuật PSO khởi tạo quần thể sử dụng phương pháp tăng trưởng

mẫu phổ biến để cải thiện hiệu xuất.

Bên cạnh tối ưu đơn mục tiêu, các nhà nghiên cứu cũng quan tâm đến tối ưu

đa mục tiêu trong bài toán khai phá luật kết hợp mờ [81]. Khi tối ưu các hàm thuộc

sẽ có nhiều hơn một mục tiêu sẽ được tối ưu. Qodmanan và cộng sự [72] xem xét cả

đỗ hỗ trợ và độ tin cậy, và Meng và cộng sự [20] tối ưu cả định lượng ngôn ngữ và

tính đứng đắn trong hàm mục tiêu. Minaei-Bidgoli và cộng sự [63] quan tâm đến

nhiều mục tiêu hơn bao gồm: độ hỗ trợ, độ tin cậy, tính toàn diện và độ thú vị. Họ sử

dụng phương pháp tiếp cận Michigan cho thuật toán tối ưu đa mục tiêu, với mỗi

nhiễm sắc thể biểu thị một luật kết hợp.

Theo Pulkkinen và cộng sự [16], Hong và cộng sự [83] đã cụ thể hoá bằng các

số đo cụ thể như độ chồng lến, độ phủ,… sẽ được trình bày ở phần sau:

- Số lượng các (hàm thuộc) MF mỗi biến là vừa phải.

- Các MF được phân biệt, ví dụ hai MF không đặc trưng cho cùng hoặc gần

như cùng một nhãn ngôn ngữ.

- Mỗi MF là chuẩn hóa tức là nếu nó đạt đến giá trị 1 ít nhất tại một điểm của

miền giá trị.

- Các miền mờ phủ toàn bộ miền giá trị tương ứng và ít nhất độ thuộc vào một

MF nhận giá trị β > 0 tại bất kỳ điểm nào trên miền giá trị.

Trong mục 3.2, thay vì sử dụng lý thuyết tập mờ để xây dựng các hàm thuộc,

luận án sử dụng ĐSGT để phân chia miền giá trị của các thuộc tính định lượng. Từ

đó, chúng ta xây dựng các hàm thuộc hình tam giác để phục vụ các bước tiếp theo

của khai phá luật kết hợp mờ.

3.2. Phương pháp phân hoạch mờ bằng biểu diễn thể hạt với ĐSGT

Trong phần này, luận án trình bày phương pháp phân chia miền xác định thuộc

tính định lượng theo cách tiếp cận của Đại số gia tử dựa trên biểu diễn đơn thể hạt và

đa thể hạt của dữ liệu. ĐSGT cho ta một cấu trúc toán học khá tốt xây dựng trên miền

xác định thuộc tính, giúp ta không chỉ có được phân hoạch miền xác định một cách

đơn giản mà còn cho phép gắn chặt ngữ nghĩa của miền con mờ với nhãn ngôn ngữ

mà nó biểu diễn, luôn đảm bảo thứ tự tự nhiên của các nhãn ngôn ngữ đó. Không

64

những thế, phân hoạch dựa trên ĐSGT theo cách luận án sử dụng luôn là một phân

hoạch mạnh. Với cách tiếp cận này, các luật kết hợp được khai phá sẽ phản ánh phong

phú và đa dạng hơn tri thức ẩn chứa trong kho thông tin được khai phá, từ những tri

thức có tính khái quát cao cho đến những tri thức mang tính riêng biệt, chi tiết hơn

đáp ứng tốt nhu cầu của người quản lý.

3.2.1. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt

Với một số kết quả liên quan đến khoảng tính mờ của các phần tử của ĐSGT

nêu trong mục 1.2.4, ta có thể thấy ngay một cách tính độ thuộc của một giá trị bất

kỳ trong CSDL số đã cho vào các tập mờ dùng phân chia miền mờ của mục [25, 26].

Ta thấy, trên miền xác định của mục (item) (có thể đã chuẩn hóa về đoạn [0,1], một

giá trị bất kỳ đều nằm giữa hai giá trị ĐLNN của 2 khoảng tính mờ liên tiếp hoặc

trùng với một giá trị ĐLNN của một khoảng tính mờ do tính chất tạo nên phân hoạch

miền xác định của các khoảng tính mờ. Như vậy, khoảng cách giữa giá trị 𝑥𝑖𝑗 đó tới

2 giá trị ĐLNN có thể dùng để tính độ thuộc của 𝑥𝑖𝑗 vào các tập mờ được biểu diễn

bởi các khoảng tính mờ đó (trường hợp trùng với 1 giá trị ĐLNN thì chỉ có 1 độ

thuộc): khoảng cách càng nhỏ thì độ thuộc càng lớn, nếu trùng có thể coi đạt 1. Trong

Hình 3.1, tác giả dùng các giá trị ĐLNN để phân hoạch miền xác định của thuộc tính

thành các miền mờ. Tương ứng với mỗi miền mờ dựng các tam giác là biểu diễn các

hàm thuộc của tập mờ với 1 đỉnh có tọa độ (𝜐(𝑥𝑖), 1), hai đỉnh còn lại nằm trên miền

xác định, có tọa độ tương ứng là (𝜐(𝑥𝑖−1),0), (𝜐(𝑥𝑖+1), 0), trong đó 𝜐(𝑥𝑖−1), 𝜐(𝑥𝑖),

𝜐(𝑥𝑖+1) là 3 giá trị ĐLNN liên tiếp (Hình 3.1).

Có thể thấy về thực chất hai cách xây dựng này là tương đương. Thật vậy, giả

sử ta có điểm E là một điểm tùy ý trên trục biểu diễn miền xác định của thuộc tính 𝐼𝑖.

Khi đó, theo cách thứ nhất, khoảng cách 𝐸𝜈(𝑥2) và 𝐸𝜈(𝑥3) sẽ được dùng để xác định

độ thuộc của E vào các tập mờ được biểu diễn bằng các hàm thuộc - tam giác

𝜈(𝑥1) 𝐵 𝜈(𝑥3) và 𝜈(𝑥2) 𝐶 𝜈(𝑥4), thông qua việc chuẩn hóa để độ thuộc luôn nằm

trong khoảng [0,1]. Còn theo cách thứ 2, ta có EG và EF chính là độ thuộc của E vào

2 tập mờ này. Ta có, do EG song song với 𝜈(𝑥2) 𝐵 nên 𝐸𝐺

𝜈(𝑥2)𝐵 =

𝐸 𝜈(𝑥2)

𝜈(𝑥2)𝜈(𝑥3). Tương tự

𝐸𝐹

𝑣(𝑥3)𝐶 =

𝜈(𝑥3)𝐸

𝜈(𝑥2)𝜈(𝑥3). Ngoài ra, 𝜈(𝑥2) 𝐵 = 𝜈(𝑥3) 𝐶 = 1 nên cuối cùng ta có

𝐸𝐹

𝐸𝐺=

𝐸 𝜈(𝑥3)

𝐸 𝜈(𝑥2). Từ đó dễ dàng suy ra thực chất hai cách gắn độ thuộc này là tương đương.

65

Điều đó cũng nhấn mạnh thêm cách gắn độ thuộc theo cách của ĐSGT là hợp lý về

mặt cảm nhận.

Hình 3.1: Xây dựng phần hoạch miền xác định của thuộc tính theo cách tiếp cận

ĐSGT

Cách xây dựng các hàm thuộc hay tương đương là các tập mờ để phân chia

miền xác định của thuộc tính theo cách tiếp cận ĐSGT như trên có những ưu điểm

sau:

a) Do cách xây dựng sử dụng ĐSGT có cơ sở phù hợp với ngữ nghĩa con người

cảm nhận nên về mặt cảm tính, có thể thấy các hàm thuộc được xây dựng là phản ánh

khá tốt ngữ nghĩa của tập mờ mà nó biểu diễn.

b) Dễ thấy là độ phủ của các hàm thuộc là tốt (luôn phủ kín miền xác định). Từ

đó ta thấy nếu cần tối ưu mức độ phù hợp phù hợp của MF, ta chỉ cần tối ưu mức độ

chồng lên nhau và mức độ bao phủ của các MF. Bài toán tối ưu các tham số của

ĐSGT theo độ chồng lấn và tính hữu dụng có thể giải bằng một giải thuật GA.

c) Các tham số cần quản khi xây dựng là ít (mỗi tam giác một tham số, là giá trị

ĐLNN), khi thay đổi tham số ban đầu của ĐSGT, dễ dàng xác định lại được các MF

mới và các MF vẫn giữ nguyên độ đo chồng lấn và phủ như cũ. Phương pháp này đơn

giản và hợp lý.

Hình 3.2: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đơn thể hạt

66

3.2.2. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt

Phương pháp phân chia miền mờ theo tiếp cận ĐSGT sử dụng biểu diễn đơn

thể hạt tuy có những ưu điểm như đã trình bày, vẫn còn có những hạn chế liên quan

đến ngữ nghĩa của dữ liệu. Theo lý thuyết ĐSGT, các MF mà ta tạo nên ở trên dựa

trên phân hoạch của các hạng từ có cùng độ dài. Điều đó có nghĩa các luật kết hợp

mà ta khai phá được chỉ bao gồm các hạng từ có cùng độ dài, mà điều đó làm giảm ý

nghĩa của các luật khai phá được. Ví dụ những luật kiểu như <Nếu “rất trẻ” và “chăm

chỉ” Thì “tương lai tốt”> và <Nếu “trẻ” và “khá chăm chỉ” Thì “tương lai tương

đối tốt”> là 2 luật không thể cùng xuất hiện trong tập luật khai phá được vì “trẻ” và

“rất trẻ” là 2 nhãn mờ có độ dài khác nhau. Nếu ta không quan tâm lắm đến ngữ nghĩa

dữ liệu, chỉ đơn thuần là phân chia miền xác định một cách gần như máy móc (như

phần lớn các phương pháp theo cách tiếp cận tập mờ đã làm) thì phương pháp đề xuất

sử dụng biểu diễn đơn thể hạt sử dụng ĐSGT trình bày trong mục 3.2.1 là khá tốt.

Tuy nhiên, nếu để ý đến ngữ nghĩa của dữ liệu - là điều cực kỳ quan trọng để có được

các tri thức tốt trong khai phá luật kết hợp - ta phải có một cách tiếp cận sâu hơn. Có

thể xây dựng các khoảng mờ ngữ nghĩa [47] để tạo nên các phân hoạch của các hạng

từ có độ dài khác nhau nhưng cách này không thật chuẩn tắc vì những phân hoạch tạo

ra không phải là duy nhất. Trong chương này, luận án chọn cách tiếp cận dựa trên

biểu diễn dữ liệu theo cấu trúc đa thể hạt. Với phương pháp này, nhằm nâng cao tri

thức của các luật kết hợp, các luật kết hợp thu được sẽ phong phú hơn.

Biểu diễn dữ liệu theo cấu trúc đa thể hạt nằm ở gốc rễ của khái niệm tính toán

hạt (GrC- Granular Computing) là một hướng nghiên cứu phát triển mạnh trong thập

kỷ qua [37, 67, 68, 82]. Tư tưởng của GrC là thông tin được phân chia thành các hạt

để xử lý. Việc phân chia này giúp ta không chỉ dễ xử lý hơn mà còn giúp ta nhận thức

thế giới thông tin tốt hơn vì các gói thông tin được phân chia đã mang tính khái quát

nhất định. Thông tin mà ta tiếp nhận có thể phân chia theo nhiều cách khác nhau, cho

ta các cách nhìn khác nhau về thế giới thực. Hiển nhiên là càng có các cách nhìn khác

nhau về thông tin tiếp nhận, chúng ta càng có nhiều tri thức hơn về vần đề quan tâm.

Đó là lý do cần có biểu diễn đa thể hạt cho dữ liệu.

67

Hình 3.3: Cấu trúc hạt thể nhiều mức

Về mặt tư tưởng, sử dụng biểu diễn đa thể hạt, như đã nói, cho ta cái nhìn đa

dạng hơn về thông tin đầu vào. Việc xây dựng, biểu diễn và sử dụng cấu trúc hạt

thường tuân thủ quy tắc đa mức và đa dạng (multilevel và multiview) [82]. Quy tắc

multilevel là ưu điểm do cấu trúc hạt mang lại thể hiển ở sự hiểu và biểu diễn đa mức

các hạt. Quy tắc đa dạng gắn liền vừa với sự tồn tại khách quan của dữ liệu (các hạt

thông tin) vừa với cái nhìn chủ quan của người nghiên cứu sử dụng dữ liệu, theo đó

ở mỗi mức cấu trúc hạt, thông tin có thể phân chia theo các cách khác nhau [82]. Với

tính toán hạt tuân thủ hai quy tắc nêu trên, chúng ta có cái nhìn có cấu trúc về dữ liệu,

vừa mang tính hệ thống lại vừa đơn giản hơn trong việc giải các bài toán khai phá dữ

liệu. Ngoài ra, rất quan trọng trong hướng nghiên cứu theo tiếp cận của ĐSGT của

luận án, tính toán hạt và gắn liền với nó là biểu diễn đa thể hạt dữ liệu theo các quy

tắc nêu trên thỏa mãn những đòi hỏi về tính diễn giải được theo các nghiên cứu mới

[4, 85] về ĐSGT. Các đòi hỏi đó là việc phân chia các hạt cần bảo toàn thứ tự ngôn

ngữ tự nhiên (thí dụ như “trẻ” < “già” thì khi phân chia tiếp, mọi phần của nhãn ngôn

ngữ “trẻ”, chẳng hạn “khá trẻ” phải nhỏ hơn mọi phần của “trung niên”, chẳng hạn

“khá già”, tức “khá trẻ” < “khá già” và bảo toàn quan hệ chung-riêng [85], từ tính

chung cao hơn thì giá tập mờ của nó chứa giá tập mờ của từ có tính riêng hơn; đa thể

hạt là cấu trúc có thể thỏa mãn cả hai đòi hỏi này. Một điểm nhấn quan trọng là với

68

cách tiếp cận của ĐSGT, việc chuyển sang tính toán hạt đa mức và đa dạng hoàn toàn

đơn giản mà luận án sẽ chứng tỏ ở sau.

Trong [67] các tác giả đã sử dụng tính toán hạt trên biểu diễn đa thể hạt áp

dụng cho bài toán phân loại tự động và hồi quy. Dưới đây là một ví dụ cụ thể. Trong

[37] các tác giả trình bày một ví dụ về giải bài toán phân loại các phần tử của Cone-

Torus dataset. Ở mức 1, dữ liệu được phân cụm thành các tập 2 chiều (nhờ thuật toán

Conditional Fuzzy C-Means: CFCM), mỗi chiều được phân chia bởi 3 tập mờ “thấp”,

“trung bình”, “cao”. Ở mức thứ 2, trên mỗi chiều dữ liệu lại được phân chia tiếp trong

từng tập mờ. Thí dụ, trong context cụm dữ liệu x= ”thấp” và y= “thấp”, dữ liệu tiếp

tục được phân cụm (cũng bởi thuật toán CFCM) thành các cụm nhờ các tập mờ x=

“khoảng nhỏ hơn hoặc bằng 1.1” và x= “khoảng lớn hơn hoặc bằng 3.7”, y= “khoảng

nhỏ hơn hoặc bằng 1.0”, y= “khoảng 2.6” và y=” khoảng lớn hơn hoặc bằng 4.5”.

Nhờ các phân chia mờ ở 2 mức này, các tác giả đã đưa ra được hệ luật để phân loại

dữ liệu bao gồm các luật có tính khái quát (ví dụ < IF x is LOW AND y is LOW

THEN P(class = 1) = 0.53, P(class = 2) = 0.38, P(class = 3) = 0.09>; <IF x is

MEDIUM AND y is LOW THEN P(class = 1) = 0.6, P(class = 2) = 0.11, P(class =

3) = 0.29> ) cùng với các luật có tính chi tiết (<IF x is about 1.1 or less AND y is

about 2.6 THEN P(class = 1) = 0.31, P(class = 2) = 0.38, P(class = 3) = 0.01>). Hệ

luật này, theo các tác giả có tỷ lệ phân loại đúng cao đồng thời có tính dễ hiểu

(interpretability). Nói tóm lại, sử dụng biểu diễn đa thể hạt cho ta những tri thức khai

phá mang tính khái quát cao bên cạnh những tri thức có tính đặc tả chi tiết, nâng cao

hiệu năng của phương pháp.

Đối với lý thuyết tập mờ (theo L.Zadeh), một trong những hạn chế của các

phương pháp sử dụng biểu diễn đa thể hạt là đôi khi lựa chọn các hàm thuộc không

dễ dàng vì có ít cơ sở để xác định các hàm thuộc ở các mức khác nhau, và chưa thể

xây dựng ràng buộc giữa chúng. Hầu như việc xác định này chỉ tiến hành theo kinh

nghiệm, qua ví dụ trên ta cũng có thể cảm nhận được điều đó. Đồng thời, việc tiến

hành tính toán với các mức khác nhau của dữ liệu sẽ gây sự phức tạp kéo theo chi phí

lớn hơn nhiều về thời gian cũng như bộ nhớ. Ngay những nghiên cứu gần đây [67],

trong ứng dụng xây dựng hệ luật mờ giải bài toán hồi quy, các tác giả cũng tiếp cận

phương pháp tính toán hạt cho biểu diễn đơn thể hạt, cụ thể là sử dụng thuật toán tiến

hóa để xây dựng hệ luật mờ trên cơ sở tối ưu hóa các tập MF phân chia mờ miền xác

69

định các thuộc tính theo cả số miền mờ phân chia cho mỗi thuộc tính lẫn các tiêu chí

khác đã nhắc đến ở trên. Dù thuật toán nêu ra tốt hơn các thuật toán đã có do không

cố định trước số lượng các tập mờ dùng phân chia miền giá trị thuộc tính nhưng về

mặt ngữ nghĩa, nó vẫn không cho phép xây dựng các luật có tính khái quát và chi tiết

khác nhau cùng trong một hệ luật mờ.

Ngược lại, với ĐSGT việc thiết kế phân hoạch mờ trên miền giá trị của thuộc

tính các mức khác nhau của biểu diễn đa thể hạt là dễ dàng vì nằm trong bản thân

cách xây dựng ĐSGT. Trong lý thuyết ĐSGT, với mỗi miền giá trị của thuộc tính chỉ

cần xác định bộ tham số mờ của ĐSGT là ta có thể xác định khoảng tính mờ của tất

cả các hạng từ thông qua các công thức tính toán xác định dù cho hạng từ này có độ

dài bao nhiêu (tức dù cho hạng từ này có nằm ở mức bao nhiêu trong hệ thống biểu

diễn đa thể hạt). Tính phân cấp là một trong những cách thức chính mà GrC sử dụng

cũng nằm trong cách xây dựng ĐSGT. Theo lý thuyết ĐSGT, mỗi hạng từ x có độ

dài k có thể phân hoạch thành các hạng từ ℎ𝑖𝑥 (với ℎ𝑖 là mọi gia tử của ĐSGT đang

xét) có độ dài k+1. Có thể nói, ĐSGT là công cụ hết sức thích hợp cho tính toán đa

thể hạt.

Hình 3.4: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đa thể hạt

Hình 3.4 là một ví dụ gồm 3 thể hạt được xây dựng dựa trên giá trị định lượng

nghữ nghĩa của ĐSGT. Thể hạt mức 0 gồm 3 hàm thuộc, thể hạt mức 1 gồm 4 hàm

thuộc, và thể hạt mức 2 gồm 6 hàm thuộc.

70

3.3. Phương pháp tối ưu tham số mờ ĐSGT cho bài toán khai phá luật kết hợp

Để tìm kiếm hàm thuộc tối ưu cho bài toán khai phá luật kế hợp mờ, các tác

giả trong [42, 48, 53, 83] đã sử dụng một số tiêu chí để đánh giá các hàm thuộc cho

các thuộc tính. Cụ thể, sự thích hợp (Suitabitity) của tập MF dùng để phân chia thuộc

tính ngôn ngữ 𝐼𝑞 có thể đánh giá qua 3 yếu tố: độ chồng lấn (Overlap_factor) đo độ

chồng lấn của các MF lên nhau; độ phủ (Coverge factor) đo độ bao phủ miền giá trị

của các MF này, và tính hữu dụng (usage factor).

Trong phần này, dựa vào giá trị định lượng ngữ nghĩa của ĐSGT để xây dựng

các hàm thuộc cho các thuộc tính số và áp dụng cho bài toán khai phá luật kết hợp

mờ. Thay vì tối ưu các tham số của hàm thuộc, chúng ta tối ưu các tham số mờ của

ĐSGT.

Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính và khai

phái luật kết hợp

Hình 3.5 là lược đồ tìm kiếm hàm thuộc và khai phá luật kết hợp gồm:

- Bước 1: Tìm kiếm phân hoạch mờ tối ưu: với các tham số ĐSGT của các thuộc

tính. Chúng ta có thể dễ dàng xây dựng các hàm thuộc cho các thuộc tính như trình

bày trong mục 3.2 để tính toán hàm mục tiêu. Kết thúc bước 1 chúng ta thu được tập

các tham số của các ĐSGT. Từ các tham số của các ĐSGT, chúng ta có thể dễ dàng

xây dựng các hàm thuộc ở bước 2.

Khởi tạo các

tham số

ĐSGT

Quá

trình

xử lý

CSDL giao

dịch

Tính toán

hàm mục

tiêu

Tập các

tham số

ĐSGT tối

ưu

CSDL giao

dịch

Khai

phá luật

kết hợp

mờ

Tập luật kết hợp

mờ Các tham số

ĐSGT

Tìm kiếm các phân hoạch tối ưu Khai phá luật kết hợp mờ

71

Bước 2: Khai phá luật kết hợp: Chúng ta sử dụng các tham số ĐSGT thu được

ở bước 1 để mờ hoá CSDL giao dịch và tiến hành khai phá luật kết hợp mờ. Kết thúc

bước này chúng ta thu được tập các luật kết hợp biểu thị bằng thông tin ngôn ngữ.

Trong luận án sử dụng giải thuật di truyền CHC [10] nhằm mục tiêu tối ưu hóa

tập MF theo các tiêu chí nói trên, hay chính là tìm các tham số MF của ĐSGT của

các thuộc tính.

Sau đây, luận sẽ trình bày các nội dung:

- Mô hình CHC: Mô hình giải thuật di truyền sẽ được sử dụng trong luận án để

tìm các tham số mờ của ĐSGT.

- Mã hóa tập MF: luận án đề xuất cách mã hóa các tham số mờ của ĐSGT được

sử dụng trong GA để tìm kiếm các tham số mờ của ĐSGT. Từ các tham số mờ này

có thể dễ dàng xây dựng được các MF như trình bày trong mục 3.2.

- Hàm mục tiêu (fitness function).

3.3.1. Mô hình giải thuật di truyền CHC

Luận án sử dụng giải thuật di truyền theo mô hình CHC [10] để tìm kiếm các

tham số tối ưu cho các ĐSGT. Mô hình giải thuật di truyền CHC tiếp cận theo hướng

sử dụng phép toán chọn lọc tự nhiên. Trong mô hình CHC, từ N bố mẹ và các nhiễm

sắc thể con tương ứng sẽ tạo ra N nhiễm sắc thể tốt nhất cho quần thể mới. Mô hình

CHC sử dụng phương pháp tránh lai tạo giữa các nhiễm sắc thể gần nhau và cơ chế

khởi tạo lại quần thể. Trong lược đồ mã hoá, mỗi gene sẽ được mã hoá thành Gray

Code với số bít cố định cho mỗi gene, số bít này có được dựa vào kinh nghiệm.

Ngưỡng giới hạn để khởi tạo lại quần thể được xác định như sau: L = (#Genes

BITSGENE)/4.0.

Với biến #Genes là số gene trong một nhiễm sắc thể, BITSGENE là số bít

dùng cho mỗi gene. Trong mô hình CHC, trong mỗi lần lặp nếu không tạo ra được cá

thể mới nào trong quần thể thì L sẽ giảm một lần, giá trị của L phụ thuộc vào #Genes

và BITSGENE, mỗi lần L giảm 𝜑% (được xác định bởi người dùng, thường là 10%).

Thuật toán được khởi tạo lại khi L <= 0.

Lược đồ thuật toán theo mô hình giải thuật di truyền CHC như Hình 3.6.

72

Hình 3.6: Mô hình giải thuật di truyền CHC

3.3.2. Mã hóa tập các MF

Để xây dựng các hàm thuộc cho các thuộc tính, trong luận án sử dụng ĐSGT

có cấu trúc 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤) trong đó:

- 𝐺 = {𝐶− = {𝐿𝑜𝑤} ∪ 𝐶+ = {𝐻𝑖𝑔ℎ}}

- 𝐻 = {𝐻− = {𝐿𝑖𝑡𝑡𝑙𝑒} ∪ 𝐻+ = {𝑉𝑒𝑟𝑦}}

Với:

- 𝛼 = 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = 1 − 𝜇(𝑉𝑒𝑟𝑦), 𝛽 = 𝜇(𝑉𝑒𝑟𝑦)

- 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 − 𝑓𝑚(𝐻𝑖𝑔ℎ).

Với cấu trúc ĐSGT trên gồm bộ bốn tham số: 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), 𝜇(𝑉𝑒𝑟𝑦), 𝑓𝑚(𝐶−),

𝑓𝑚(𝐶+). Tham số 𝛼 = 𝜇(𝑉𝑒𝑟𝑦) = 1 − 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), và 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 −

𝑓𝑚(𝐻𝑖𝑔ℎ), vì vậy với mỗi ĐSGT chúng ta chỉ cần tìm hai tham số 𝛼 và 𝑤 thay vì

tìm cả bốn tham số.

Dựa vào các tham số của ĐSGT của các thuộc tính, chúng ta xây dựng các

hàm thuộc theo dạng đơn thể hạt như trình bày mục 3.2.1 hoặc biểu diễn đa thể hạt

như trình bày trong mục 3.2.2.

Chúng ta cần phải cần phải tìm kiếm các tham số mờ của các ĐSGT 𝐴𝑋𝑖 cho

n thuộc tính định lượng, mỗi ĐSGT gồm có hai tham số 𝛼𝑖 , 𝑤𝑖 (i=1,…,n). Như vậy

để biểu diễn một nhiệm sắc thể cần một mảng số thực có kích thước 2*n. Cấu trúc

một gene như sau:

Khởi tạo quần

thể và Threshold

Khởi tại lại quần

thể và Threshold

Lại tạo N cá

thể cha mẹ

Threshold <= 0

Đánh giá các cá thể

mới

Lựa chọn N cá thể

tốt nhất

Nếu không có cá

thể mới, giảm giá

trị Threshold

Sai

Đúng

73

(𝛼1, … , 𝛼𝑛, 𝑤1, … , 𝑤𝑛) (3.1)

Dựa vào kinh nghiệm các tham số mờ của các ĐSGT 𝛼𝑖 và 𝑤𝑖 sẽ nhận giá trị

nằm trong đoạn [0.2, 0.8].

3.3.3. Đánh giá nhiễm sắc thể

Để đánh giá các nhiễm sắc thể, chúng ta sử dụng hàm mục tiêu được định

nghĩa trong [42]. Hàm mục tiêu của một nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:

𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) =

∑ 𝑓𝑢𝑧𝑧y_support(x)𝑥∈𝐿1

𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) (3.2)

Với:

- 𝐿1 là tập phổ biến 1-ItemSet sử dụng tập các hàm MF trong 𝐶𝑞.

Chúng ta chỉ tính độ hỗ trợ của các 1-ItemSet để đảm bảo cân bằng giữa thời

gian thực hiện thuật toán và độ thú vị của các luật được tạo ra. Thông thường các mục

xuất hiện trong 1-ItemSet khả năng cao sẽ xuất hiện trong các tập mục k-itemset

(k>1). Vì vậy trong đánh giá chúng ta chỉ tính độ hỗ trợ của các tập mục trong 1-

ItemSet, sẽ nhanh hơn là tính độ hỗ trợ của tất cả các tập mục hoặc đánh giá toàn bộ

các luật kết hợp [83].

- 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥) độ hỗ trợ mờ của 1-ItemSet x được tính toán từ CSDL

giao dịch.

- 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) mức độ phù hợp phù hợp của MF trong 𝐶𝑞.

Mức độ phù hợp của tập các MF trong nhiệm sắc thể 𝐶𝑞 được định nghĩa như

sau:

𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) = ∑[𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) + 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘)]

𝑛

𝑘=1

(3.3)

Với n là số lượng item, 𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ chồng lên nhau của

các MF của item 𝐼𝑘 trong nhiệm sắc thể 𝐶𝑞, và 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ

bao phủ của các MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞.

𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ các MF chồng lên nhau của item 𝐼𝑘 trong

nhiễm sắc thể 𝐶𝑞. Tỷ lệ chồng lên nhau của hai MF: 𝑅𝑖 và 𝑅𝑗 (i<j) được định nghĩa là

lấy chiều dài chồng lên nhau chia cho giá trị nhỏ nhất của right span của 𝑅𝑖 và left

74

span của 𝑅𝑗. Nếu chiều dài chồng lên nhau lớn hơn giá trị nhỏ nhất của hai giá trị

span trên thì hai MF không được tốt, cần phải xem xét lại. Overlap factor của MF đối

với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:

Overlap_factor(𝐶𝑞𝑘)

= ∑ ∑ [𝑚𝑎𝑥 (𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗)

𝑚𝑖𝑛 (𝑠𝑝𝑎𝑛𝑅𝑅𝑖 , 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 , ), 1) − 1]

𝑚

𝑗=𝑖+1

𝑚

𝑘=1

(3.4)

Với 𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗) là chiều dài chồng lên nhau của 𝑅𝑖 và 𝑅𝑗, 𝑠𝑝𝑎𝑛𝑅𝑅𝑖 là

right span của 𝑅𝑖, 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 là left span của 𝑅𝑗 và m là số hàm thuộc MF đối với item

𝐼𝑘.

𝐶𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ bao phủ của các MF đối với item 𝐼𝑘 trong

nhiễm sắc thể 𝐶𝑞. Tỷ lệ bao phủ của MF đối với item item 𝐼𝑘 được định nghĩa là độ

bao phủ của hàm chia cho giá trị lớn nhất của item trong giao dịch. Coverage_factor

của MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:

Coverage_factor(𝐶𝑞𝑘) =1

𝑅𝑎𝑛𝑔(𝑅1, … , 𝑅𝑚)𝑚𝑎𝑥(𝐼𝑘)

(3.5)

Với 𝑅𝑎𝑛𝑔(𝑅1, … , 𝑅𝑚) là phạm vi bao phủ của MF và 𝑚𝑎𝑥(𝐼𝑘) giá trị lớn nhất

của 𝐼𝑘 trong giao dịch.

Hình 3.7: Tập các MF cho mục Ij

Với 𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, ta có thể loại hoặc hạn chế trường hợp (a) của Hình

3.8, khi các hàm thuộc chồng nhau quá nhiều, ít mang tính phân biệt. Với

𝑐𝑜𝑣𝑒𝑟𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, có thể hạn chế trường hợp như (b) trên Hình 3.8, khi tồn tại

nhiều khoảng trống trên miền xác định, không rơi vào tập mờ nào (độ thuộc lớn hơn

75

0). Ngoài ra, với hi vọng thu được tập các tập mờ được phân chia tốt, 𝑢𝑠𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟

là số đo tổng độ hỗ trợ của các tập phổ biến 1 thuộc tính (large 1-ItemSet) được sử

dụng. Với tổng độ hỗ trợ cao, hi vọng là ta sẽ nhận được nhiều luật kết hợp, tuy không

chắc như xem xét tất cả các tập phổ biến nhưng bù lại, thời gian xử lý sẽ ít hơn vì chỉ

xét các tập phổ biến 1-ItemSet.

Hình 3.8: Hai tập hàm thuộc phân bố không tốt

Gần đây, người ta còn sử dụng khái niệm phân hoạch mờ mạnh (strong fuzzy

partition) để xây dựng tập MF [15]. Khái niệm này được định nghĩa như sau: tập các

MF tạo nên một phân hoạch mờ mạnh nếu chúng phủ kín miền giá trị thuộc tính và

tại mỗi điểm bất kỳ trên miền xác định, tổng độ thuộc của điểm này đến tất cả các

MF trong phân hoạch đạt giá trị 1. Phân hoạch mờ mạnh cũng tạo ra các MF phân bố

tương đối tốt.

Với các độ đo như vậy, có thể sử dụng giải thuật di truyền để nhận được các

tập MF tối ưu (thường là xấp xỉ), có tính đến sự cân bằng giữa mức độ tốt của hệ

thống và thời gian tính toán.

3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp

Trong phần này luận án đề xuất thuật toán để tìm kiếm phân hoạch mờ tối ưu

theo hướng sử dụng ĐSGT thay cho cách tiếp cận sử dụng lý thuyết tập mờ của các

tác giả khác [28, 69] và khai phá luật kết hợp mờ.

Thuật toán gồm hai pha:

Pha 1: Tìm kiếm phân hoạch mờ tối ưu dựa vào CSDL giao dịch đầu vào.

Pha 2: Sử dụng thuật toán khai phá luật kết hợp mờ với các hàm thuộc có được

trong Pha 1.

76


Đầu vào: T giao dịch số, tập gồm n mục (thuộc tính), mỗi mục gồm m hạng

từ ngôn ngữ, độ hỗ trợ min_𝑠𝑢𝑝𝑝, và độ tin cậy min_𝑐𝑜𝑛𝑓 và kích thước quần thể N.

Đầu ra: Tập các luật kết hợp mờ và tập hàm thuộc MF.


Pha 1: Tìm kiếm phân hoạch mờ tối ưu từ CSDL giao dịch T

Bước 1: Khởi tạo quần thể gồm N nhiễm sắc thể ngẫu nhiên.

Nhiễm sắc thể biểu diễn có dạng (𝛼1, … , 𝛼𝑛, 𝑤1, … , 𝑤𝑛). Với mỗi cặp (𝛼𝑖 , 𝑤𝑖)

là một ĐSGT, với i=1,..,n.

Bước 2: Mã hóa các hàm thuộc thành chuỗi mã hóa như trình bày ở mục 3.3.2.

Dựa vào các ĐSGT có được trong Bước 1, xây dựng các hàm thuộc cho các

thuộc tính trong CSDL gốc như trình bày trong phần 3.2. Chúng ta có thể sử dụng

biểu diễn hàm thuộc dạng Đơn thể hạt hoặc Đa thể hạt.

Bước 3: Tính toán hàm mục tiêu cho mỗi nhiễm sắc thể trong quần thể như

sau:

Bước 3.1: Mỗi giao dịch và 𝐷𝑖, với i=1…n, mỗi thuộc tính 𝐼𝑗, j=1…m biến đổi

thành giá trị số 𝑣𝑗 (𝑖)

như sau: (𝑓𝑗1(𝑖)

𝑅𝑗1+

𝑓𝑗2(𝑖)

𝑅𝑗2+⋯+

𝑓𝑗𝑙(𝑖)

𝑅𝑗𝑙 ) để biểu diễn tập hàm thuộc

của một nhiễm sắc thể.

Với 𝑅𝑗𝑘 là vùng mờ thứ k của item 𝐼𝑗, 𝑓𝑗𝑙(𝑖)

: 𝑣𝑗(𝑖)

là giá trị của hàm thuộc thứ j

của item 𝐼𝑗, l là số miền mờ.

Bước 3.2: Tính toán giá trị mỗi miền mờ:

𝑐𝑜𝑢𝑛𝑡𝑗𝑘 =∑𝑓𝑗 (𝑖)

𝑛

𝑖=1

(3.6)

Bước 3.3: Mỗi miền mờ 𝑅𝑗𝑘, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|, kiểm tra giá trị 𝑐𝑜𝑢𝑛𝑡𝑗𝑘

so với ngưỡng độ hỗ trợ tối thiểu min_supp. Nếu 𝑅𝑗𝑘 thỏa mãn điều kiện thì đưa vào

tập phổ biến 1-ItemSet (𝐿1).

𝐿1 = {𝑅𝑗𝑘| 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 ≥ 𝛼, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|}

Bước 3.4: Giá trị mục tiêu của nhiễm sắc thể được tính theo công thức sau:

77

𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) =∑ 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥)𝑥∈𝐿1

𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) (3.7)

Bước 4: Thực hiện phép lai tạo trong quần thể.

Bước 5: Sử dụng phép chọn lọc theo điều kiện để chọn các cá thể trong quần

thể để tạo thế hệ tiếp theo.

Bước 6: Nếu điều kiện dừng chưa thỏa mãn thì quay lại Bước 3, ngược lại

thực hiện bước tiếp theo.

Bước 7: Hàm thuộc được lựa chọn từ cá thể có giá trị hàm mục tiêu lớn nhất

trong quần thể.

Pha 2: Khai phá luật kết hợp mờ

Sử dụng thuật toán khai phá luật kết hợp mờ như trong [53].

3.5. Kết quả thử nghiệm

Trong phần này sẽ mô tả CSDL dùng trong thử nghiệm và các kết quả thử

nghiệm với hai phương pháp luận án đề xuất: sử dụng biểu diễn dữ liệu dạng đơn thể

hạt và sử dụng biểu diễn dữ liệu dạng đa thể hạt.

Các tham số của giải thuật GA như sau: kích thước quần thể 50; số thế hệ

10000, số bít cho mỗi gen là 30, xác suất lai tạo 0.6.

3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm

Bảng 3.4: CSDL thử nghiệm

CSDL Số thuộc tính Số bản ghi

Fam95 10 63756

Pollution 16 60

Stulong 5 1417

Basketball 5 96

Quake 4 2178

Stock 10 950

CSDL được sử dụng trong thử nghiệm gồm: FAM95, pollution, stulong,

basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI

(https://archive.ics.uci.edu).

78

CSDL FAM95: thường được các nhà nghiên cứu coi là tập mẫu chuẩn để tiến

hành thử nghiệm, tiện so sánh kết quả. FAM95 chứa số liệu của 63756 gia đình Mỹ

(số liệu khảo sát năm 1995), bao gồm 63756 bản ghi, 23 mục. Ở đây luận án chọn 10

mục định lượng để tiến hành thử nghiệm. CSDL Pollution: bao gồm 60 bản ghi với

16 thuộc tính số. CSDL Stulong: bao gồm 1417 bản ghi với 5 thuộc tính số. CSDL

Basketball: bao gồm 96 bản ghi với 5 thuộc tính số. CSDL Quake: bao gồm 2178 bản

ghi, với 4 thuộc tính số. CSDL Stock: bao gồm 950 bản ghi, với 10 thuộc tính số.

3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn

thể hạt

Trong phần này các kết quả thu được từ thử nghiệm với biểu diễn hàm thuộc

dang đơn thể hạt. Mỗi mục (thuộc tính) được chia làm 5 miền mờ có các nhãn tương

ứng trong ĐSGT là {0, 𝑐−,𝑊, 𝑐+, 1}. Phương pháp sử dụng ĐSGT được so sánh với

3 phương pháp khác: Phương pháp do Herrera và cộng sự [53], phương pháp của

Hong và cộng sự [42] và phương pháp phân chia đều miền giá trị của thuộc tính bằng

các MF đồng dạng (là tam giác cân, giống nhau về mặt hình học và chia đều miền

xác định của mục).

3.5.2.1. Kết quả thử nghiệm với CSDL FAM95

Trong Bảng 3.5 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu

được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng

các hàm thuộc theo dạng biểu diễn đơn thể hạt như đã trình bày trong mục 3.2.1.

Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương

pháp sử dụng biểu diễn đơn thể hạt

Th

uộ

c tính

1

Th

uộ

c tính

2

Th

uộ

c tính

3

Th

uộ

c tính

4

Th

uộ

c tính

5

Th

uộ

c tính

6

Th

uộ

c tính

7

Th

uộ

c tính

8

Th

uộ

c tính

9

Th

uộ

c tính

10

𝜇(𝐿) 0.679 0.350 0.610 0.649 0.214 0.379 0.202 0.704 0.231 0.213

𝜇(𝑉) 0.321 0.650 0.390 0.351 0.786 0.621 0.798 0.296 0.769 0.787

𝑓𝑚(𝐶−) 0.504 0.764 0.799 0.756 0.732 0.479 0.800 0.499 0.765 0.776

𝑓𝑚(𝐶+) 0.496 0.236 0.201 0.244 0.268 0.521 0.200 0.501 0.235 0.224

79

Kết quả thu được như trong Bảng 3.6, với 𝐹𝑠𝑢𝑝: Tổng độ hỗ trợ của các tập phổ

biến 1-ItemSet, Fit: Giá trị hàm mục tiêu, Suit: Độ phù hợp, #1I: Số lượng 1-ItemSet,

Interest: độ thú vị trung bình của các luật.

Từ kết quả trên có thể thấy:

Ở giá trị min_supp = 20%, số tập phố biến 1-ItemSet theo cách tiếp cận ĐSGT:

- So với phương pháp phương pháp do Herrera và cộng sự [53], phương pháp

của Hong và cộng sự [42] là như nhau.

- Phương pháp phân chia đều kém hơn phương pháp sử dụng ĐSGT.

Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt

Phương pháp đề xuất sử dụng ĐSGT

Min Sup (%) Fit Fsup Suit #1I

20 0.98 9.83 10 22

50 0.79 7.87 10 10

70 0.66 6.62 10 8

90 0.09 0.94 10 1

Phương pháp của Herrera và cộng sự


20 0.95 10.46 10.99 22

50 0.77 9.92 12.92 15

70 0.61 7.69 12.57 10

90 0.10 0.92 10.0 1

Phương pháp của Hong và cộng sự


20 0.53 10.22 19.27 22

50 0.38 7.95 20.63 12

70 0.20 3.96 19.54 5

90 0.06 0.90 15.01 1

Phương pháp phân chia đều


20 0.94 9.43 10 21

50 0.46 4.57 10 7

70 0.24 2.36 10 3

90 0.00 0.00 10 0

80

Với độ hỗ trợ min_supp = 50%, phương pháp ĐSGT có kém chút ít phương

pháp của nhóm Herrera và nhóm Hong về số tập phố biến 1-ItemSet. Với độ hỗ trợ

min_supp = 70% phương pháp sử dụng ĐSGT kém hơn phương pháp do Herrera đề

xuất, nhưng hơn hai phương pháp còn lại.

Với mục tiêu, xây dựng các hàm thuộc sao cho không chồng lên nhau quá

nhiều, và không rời rạc nhau. Giá trị Suit (độ phù hợp của các MF) trong hàm mục

giúp chúng ta tìm kiếm các hàm thuộc đảm bảo điều này. Trong Bảng 3.6 cho thấy,

phương pháp sử dụng ĐSGT có giá trị Suit thấp hơn phương pháp Herrera và Hong.

Giá trị Suit nhỏ giúp cho giá trị hàm mục tiêu càng lớn. Điều đó cho thấy, các hàm

thuộc được xây dựng bằng phương pháp sử dụng ĐSGT gia tử cho kết quả tốt hơn

(Hình 3.9). Kết quả của nhóm Herrera tuy có tốt hơn về mặt số tập phố biến 1-ItemSet

(trong Bảng 3.6 giá trị 1-ItemSet lần lượt là 22, 15, 10, 1) nhưng các tập MF thu được

sau khi chạy GA thì rất không tốt (xem Hình 3.14: hình vẽ MF với độ hỗ trợ tối thiểu

20% dưới đây để thấy rõ).

Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp

Trong Hình 3.9 quan hệ độ phù hợp của ba phương pháp: sử dụng ĐSGT,

Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy độ phù hợp của các

MF của phương pháp sử dụng ĐSGT nhỏ hơn các phương pháp còn lại.

0

5

10

15

20

25

20% 50% 70% 90%

Độ

ph

ù h

ợp

củ

a cá

c h

àm t

hu

ộc

Min support

PP đề xuất PP Herrera PP Hong

81

Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp

Trong Hình 3.10 quan hệ giá trị hàm mục tiêu của ba phương pháp sử dụng

ĐSGT, Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy hàm mục tiêu

của phương pháp sử dụng ĐSGT tốt hơn các phương pháp còn lại.

Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp

0

0.2

0.4

0.6

0.8

1

1.2

20% 50% 70% 90%

Giá

trị

hàm

mụ

c ti

êu

Min support

PP đề xuất PP Herrera PP Hong PP Phân chia đều

0

2

4

6

8

10

12

20% 50% 70% 90%

Độ

hỗ

trợ

1-I

tem

Set

Min support

PP đề xuất PP Herrera PP Hong PP phân chia đều

82

Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp

Trong Hình 3.12 cho thấy số lượng 1-ItemSet của phương pháp ĐSGT kém

hơn so với kết quả Herrera và hơn so với các phương pháp còn lại. Tuy nhiên dựa

vào giá trị Suit trong Bảng 3.6 và bằng trực quan trong Hình 3.14 cho thấy hàm thuộc

của nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng

khít lên nhau.

Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật

Min Supp 20% 30% 40% 50% 60% 70%

PP ĐSGT 0.383 0.516 0.585 0.713 0.771 0.820

PP Herrera 0.368 0.483 0.591 0.669 0.767 0.822

PP Phân chia đều 0.385 0.489 0.606 0.672 0.774 0.821

Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục

1.4.1. Từ kết quả trong Bảng 3.7 cho thấy độ thú vị trung bình của các luật của phương

pháp sử dụng ĐSGT cao hơn hoặc bằng hai phương pháp còn lại.

0

5

10

15

20

25

20% 50% 70% 90%

Số l

ượ

ng t

ập l

ớn 1

-Ite

mse

t

Min support

PP đề xuất PP Herrera PP Hong Phân chia đều

83

Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp

Trong Hình 3.14 có thể thấy, kết quả thu được tập các MF đều có 1 cặp MF

gần như chồng khít, không thỏa mãn tiêu chí về độ chồng lấn. Điều này chứng tỏ kết

quả phân chia miền mờ của phương pháp này không tốt (ở đây kết quả chỉ ra một

điều là có lẽ chia thành 4 miền mờ thì hợp lý hơn, khi đó các nhãn ngôn ngữ cũng sẽ

khác, chỉ có 4 thay vì 5). Vấn đề lựa chọn không chỉ các hàm MF phân chia miền xác

định của mục khi cố định số lượng (thí dụ như 5) mà hơn nữa, lựa chọn chính số

lượng đó cho từng mục là vấn đề đáng được quan tâm vì có thể thấy các chỉ số nêu

trên bảng trên phụ thuộc nhiều vào số lượng của các MF cho từng mục.

Trong chương này, luận án trình bày thuật toán tối ưu hóa cả số lượng lẫn

thông số các MF cho các thuộc tính định tính nhằm tới kết quả tốt nhất khi khai phá

dữ liệu thông qua việc sử dụng khái niệm đa thể hạt khi phân chia miền mờ. Các hình

ảnh cho tập MF theo phương pháp ĐSGT được đưa ra trong Hình 3.15. Tất nhiên,

các tam giác biểu diễn các MF ở đây vẫn tạo nên một phân hoạch mạnh theo cách ta

xây dựng.

-

0.200

0.400

0.600

0.800

1.000

20% 30% 40% 50% 60% 70%

Độ t

hú v

ị tr

ung b

ình c

ủa

ác l

uật

Min support

PP ĐSGT PP Herrera PP Phân chia đều

84

85

Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của

Herrera sử dụng lý thuyết tập mờ

Hình 3.15 là tập các hàm thuộc của 10 thuộc tính thu được sau khi thực hiện

tối ưu bằng giải thuật di truyền. Bằng trực quan chúng ta có thể thấy, các tập mờ có

sự phân bố đều đảm bảo độ chồng lấn giữa các tập mờ vừa phải và các tập mờ phủ

toàn bộ trên miền giá trị của thuộc tính.

86


biểu diễn đơn thể hạt và ĐSGT

3.5.2.2. Kết quả thử nghiệm với một số CSDL khác

Trong mục này, luận án sử dụng cấu trúc ĐSGT như trọng mục 3.5.2.1, và

trình bày kết quả thử nghiệm với 5 CSDL gồm: pollution, stulong, basketball, quake,

stock. Luận án trình bày so sánh kết quả đề xuất với hai phương pháp khác là: Phương

pháp do Herrera và cộng sự [53], phương pháp của Hong và cộng sự [42]. Trong

Bảng 3.8 là số lượng tập phổ biến 1-ItemSet, Bảng 3.9 là độ thú vị trung bình.

Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet

87

CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong

pollution

20 37 45 56

50 15 14 43

70 5 2 18

90 1 0 1

stulong

20 10 13 17

50 5 10 13

70 5 5 13

90 0 0 2

basketball

5 22 20 22

10 18 19 20

15 15 17 21

20 13 15 21

25 11 13 20

30 10 9 20

35 10 9 18

40 9 5 17

45 5 4 18

50 4 2 14

quake

5 14 16 16

10 15 14 13

15 11 11 14

20 9 9 13

25 8 9 11

30 8 8 11

35 7 8 11

40 6 8 11

45 4 6 11

50 4 3 10

stock

5 50 50 50

10 50 50 48

15 50 50 49

20 45 49 50

88

25 47 50 49

30 43 48 49

35 41 48 50

40 41 47 46

45 37 47 47

50 33 41 48

Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution

Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong

0

10

20

30

40

50

60

20% 50% 70% 90%Số

lư

ợn

g t

ập l

ớn 1

-Ite

mS

et

Min support


0

5

10

15

20

20% 50% 70% 90%

Số l

ượ

ng t

ập l

ớn

1-I

tem

Set

Min support


89

Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball

Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake

0

5

10

15

20

25

5% 10% 15% 20% 25% 30% 35% 40% 45% 50%Số l

ượ

ng t

ập l

ớn 1

-Ite

mS

et

Min support


0

5

10

15

20

5% 10% 15% 20% 25% 30% 35% 40% 45% 50%Số

lư

ợn

g t

ập l

ớn

1-I

tem

Set

Min support


0

10

20

30

40

50

60

5% 10% 15% 20% 25% 30% 35% 40% 45% 50%Số

lư

ợng t

ập l

ớn 1

-Ite

mS

et

Min support


90

Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock

Trong Hình 3.16, Hình 3.17, Hình 3.18, Hình 3.19, Hình 3.20 cho thấy số

lượng 1-ItemSet của phương pháp ĐSGT kém hơn so với kết quả của Hong, so với

phương pháp của Herrera có thử nghiệm số lượng 1-ItemSet lớn hơn, có thử nghiệm

số lượng ít hơn. Tuy nhiên bằng trực quan trong Hình 3.14 cho thấy hàm thuộc của

nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng

khít lên nhau.

Bảng 3.9: Bảng Độ thú vị trung bình

CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong

pollution

20 0.351 0.349 0.342

50 0.643 0.665 0.654

70 0.823 0.918 0.798

stulong

20 0.487 0.457 0.414

50 0.754 0.651 0.685

70 0.824 0.783 0.789

basketball

1 0.065 0.065 0.067

2 0.087 0.086 0.081

3 0.108 0.099 0.104

4 0.128 0.122 0.119

5 0.123 0.148 0.132

6 0.134 0.154 0.154

7 0.153 0.170 0.174

8 0.187 0.184 0.186

9 0.211 0.197 0.199

10 0.225 0.203 0.211

15 0.306 0.282 0.273

quake

1 0.071 0.099 0.075

2 0.108 0.117 0.077

3 0.096 0.136 0.105

4 0.137 0.153 0.131

5 0.155 0.174 0.161

6 0.204 0.190 0.188

7 0.218 0.207 0.198

8 0.214 0.218 0.205

91

9 0.196 0.226 0.211

10 0.212 0.234 0.218

15 0.310 0.289 0.287

20 0.388 0.330 0.332

25 0.424 0.399 0.394

30 0.486 0.415 0.431

stock

3 0.137 0.159 0.146

4 0.183 0.191 0.159

5 0.179 0.210 0.190

6 0.218 0.229 0.211

7 0.221 0.255 0.230

8 0.252 0.283 0.268

9 0.248 0.303 0.294

10 0.280 0.385 0.353

15 0.380 0.454 0.430

20 0.416 0.594 0.509

25 0.453 0.596 0.568

30 0.592 0.625 0.614

Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution

-

0.200

0.400

0.600

0.800

1.000

20% 50% 70%

Độ

th

ú v

ị tr

un

g b

ình

Min support


92

Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong

Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball

Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake

-

0.200

0.400

0.600

0.800

1.000

20% 50% 70%

Độ t

hú v

ị tr

ung b

ình

Min support


0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

1 2 3 4 5 6 7 8 9 10 15

Độ

th

ú v

ị tr

un

g b

ình

Min support (%)


0

0.1

0.2

0.3

0.4

0.5

0.6

1 2 3 4 5 6 7 8 9 10 15 20 25 30

Độ t

hú v

ị tr

ung b

ình

Min support (%)


93

Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock

Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục

1.4.1. Từ kết quả trong Bảng 3.9 cho thấy độ thú vị trung bình của các luật kết hợp

thu được của phương pháp sử dụng ĐSGT cao hơn hoặc sấp sỉ bằng hai phương pháp

còn lại.

3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa

thể hạt

Với mỗi thuộc tính trong CSDL được phân chia miền mờ sử dụng biểu diễn

đa thể hạt và mỗi thuộc tính sử dụng một cấu trúc ĐSGT như trình bày trong mục

3.5.2.2.

Các kết quả thử nghiệm được so sánh với các kết quả đã công bố trước đây

trong Bảng 3.10, thống kê số lượng tập phố biến với mỗ độ hỗ trợ khác nhau từ 20%

đến 80%. Bảng 3.11 là kết quả thử nghiệm với ba phương pháp: phương pháp đề xuất

sử dụng biểu diễn đa thể hạt, phương pháp biểu diễn đơn thể hạt đề xuất trong chương

3 và phương pháp Herrera (2009). Kết quả cho thấy phương pháp sử dụng biểu diễn

Đa thể hạt cho số lượng 1-ItemSet tốt hơn số với hai phương pháp còn lại (như Hình

4.3). Ở đây, (liệt kê các thuộc tính dùng so sánh: độ phủ, chồng lấn đã trình bày ở

trong mục 3.3.3) và các phương pháp dùng để so sánh đều thực hiện với biểu diễn

đơn thể hạt. Các kết quả thử nghiệm cho thấy ưu việt của việc sử dụng biểu diễn đa

thể hạt và ĐSGT, củng cố thêm cho các kết quả nghiên cứu liên quan đến sử dụng

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

3 4 5 6 7 8 9 10 15 20 25 30

Độ t

hú v

ị tr

ung b

ình

Min support (%)


94

biểu diễn đa thể hạt (một số công trình công bố trong một số năm gần đây sử dụng

biểu diễn đa thể hạt [37, 66-68, 82, 84])

Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với

phương pháp sử dụng biểu diễn đa thể hạt

Th

uộ

c tính

1

Th

uộ

c tính

2

Th

uộ

c tính

3

Th

uộ

c tính

4

Th

uộ

c tính

5

Th

uộ

c tính

6

Th

uộ

c tính

7

Th

uộ

c tính

8

Th

uộ

c tính

9

Th

uộ

c tính

10

𝜇(𝐿) 0.531 0.203 0.445 0.548 0.208 0.233 0.202 0.200 0.212 0.204

𝜇(𝑉) 0.469 0.797 0.555 0.452 0.792 0.767 0.798 0.800 0.788 0.796

𝑓𝑚(𝐶−) 0.202 0.501 0.562 0.457 0.617 0.316 0.800 0.798 0.586 0.651

𝑓𝑚(𝐶+) 0.798 0.499 0.438 0.543 0.383 0.684 0.200 0.202 0.414 0.349

Có thể thấy là dùng biểu diễn đa thể hạt sẽ cho kết quả tốt hơn hẳn. Ngoài ra,

như đã nói ở trên, về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các

luật mang tính khái quát cao và các luật chi tiết. Luận án tiến hành thử nghiệm phương

pháp của Herrera với việc phân chia như vậy, kết quả tuy có tăng về chỉ số nhưng vẫn

kém phương pháp đề xuất (xem đồ thị so sánh Hình 3.27:). Cần nhấn mạnh rằng, với

phương pháp luận án đề xuất, việc tính toán liên quan đến biểu diễn đa thể hạt là tăng

thêm không đáng kể về mặt phức tạp cũng như mặt thời gian mà kết quả nhận được

lại tốt hơn rất nhiều.

Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp

Min Supp 20% 30% 40% 50% 60% 70% 80%

1-ItemSet 59 50 38 29 26 22 17

2-itemset 974 675 456 371 285 187 78

3-itemset 8890 4806 3111 2660 2518 772 150

4-itemset 50242 20719 13095 11890 4708 1774 167

5-itemset 187379 57461 36432 34995 9506 2528 167

Trong Bảng 3.11 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu

được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng

các hàm thuộc theo dạng biểu diễn đa thể hạt như đã trình bày trong mục 3.2.2.

95

Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp

Min Supp 20% 30% 40% 50% 60% 70% 80% 90%

PP biểu diễn Đa thể hạt 54 46 35 27 23 14 12 5

PP biểu diễn Đơn thể hạt 21 17 13 8 7 6 3 1

PP Herrera và cộng sự 25 21 15 10 5 3 2 0

Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp

Hình 3.27: So sánh số lượng tập phổ biến và Min Supp

0

500

1000

1500

20% 30% 40% 50% 60% 70% 80%

Tập

lớ

n 1

-Ite

mse

t

Min support

1-itemset 2-itemset

0

20

40

60

20% 30% 40% 50% 60% 70% 80% 90%Tập

lớ

n 1

-Ite

mse

t

Min support

Phương pháp biểu diễn Đa thể hạt

Phương pháp biểu diễn Đơn thể hạt

PP Herrera và cộng sự

96

97


biểu diễn đa thể hạt và ĐSGT

Hình 3.28 tập các hàm thuộc biểu diễn dạng đa thể hạt của 10 thuộc tính thu

được sau khi thực hiện tối ưu bằng giải thuật GA. Có thể thấy các hàm thuộc được

xây dựng dựa trên ĐSGT của các thuộc tính có phân bố khá tốt, đảm bảo độ bao phủ

toàn miền giá trị và độ chồng lấn hợp lý.


Chương này luận án đề xuất phương pháp khai khá luật kết hợp mờ sử dụng

ĐSGT dựa trên cơ sở phân chia mờ miền giá trị thuộc tính với biểu diễn đơn thể hạt

và đa thể hạt. Với mỗi thuộc tính số sẽ sử dụng một cấu trúc ĐSDT để xây dựng các

hàm thuộc dạng đơn thể hạt hoặc đa thể hạt. Luận án sử dụng giải thuật di truyền để

tìm kiếm các thuộc tối ưu (hay xác định các tham số của các cấu trúc ĐSGT) dựa trên

CSDL cho trước. Kết quả nghiên cứu này cho thấy phương pháp xây dựng các tập

hàm thuộc để phân chia tập mục mờ trong bài toán khai phá luật kết hợp mờ, một

công đoạn quan trọng mà còn ít được đầu tư nghiên cứu. Việc mở rộng ĐSGT (không

chỉ có 5 hạng từ) để đáp ứng yêu cầu bài toán tối ưu hóa cả số lượng lẫn các thông số

các MF đã nêu trên sẽ vừa giải quyết tốt bài toán khai phá dữ liệu, vừa phát huy thế

mạnh của ĐSGT. Sử dụng ĐSGT có thể tăng dễ dàng số hạng từ mà vẫn đảm bảo có

được các phân hoạch mạnh dùng phân chia miền xác định của mục. Nội dung của

chương này được công bố trong các công trình [iii, iv].

Kết quả của luận án được thử nghiệm với 6 CSDL gồm: FAM95, pollution,

stulong, basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI

(https://archive.ics.uci.edu).

98

Phương pháp này khá đơn giản nhưng hiệu quả trong việc xây dựng các tập

mờ phân chia miền giá trị thuộc tính. Cách phân chia miền mờ vừa đảm bảo đáp ứng

tốt các tiêu chí về hệ tập mờ, vừa mang lại sự đáp ứng tốt về mặt ngữ nghĩa cho các

luật khai phá được. Luận án đã thử nghiệm với hai phương pháp biểu diễn dữ liệu:

biểu diễn đơn thể hạt và biểu diễn đa thể hạt. Các luật khai phá được bao gồm cả các

luật mang tính khái quát cao và các luật chi tiết, phụ thuộc vào tầng biểu diễn dữ liệu

trong cấu trúc đa thể hạt ta xây dựng thông qua ĐSGT.

99

KẾT LUẬN VÀ KIẾN NGHỊ

Với mục tiêu tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng

luật mờ, như luật kết hợp mờ, luật mờ dạng ngôn ngữ,… từ các kho dữ liệu số. Luận

án sử dụng ĐSGT thay cho lý thuyết tập mờ để nghiên cứu một số vấn đề về khai phá

luật kết hợp mờ. Luận án đề xuất phương pháp nhằm giảm thời gian, cũng như đề

xuất giải pháp tìm kiếm phân hoạch mờ tối ưu cho mỗi thuộc tính định lượng dựa vào

CSDL đầu vào theo một số ràng buộc cho trước. Luận án đề xuất sử dụng lý thuyết

ĐSGT và giải thuật GA áp dụng trong bài toán khai phá luật kết hợp mờ thay vì sử

dụng lý thuyết tập mờ như các phương pháp đã đề xuất trước đây.

Kết quả nghiên cứu chính của luận án là:

- Nhằm mục đích giảm thời gian khai phá luật kết hợp, luận án đề xuất phương

pháp sử dụng ĐSGT và giải pháp nén CSDL mờ. Các giao dịch mờ gần nhau sẽ được

gộp với nhau để tạo thành giao dịch mới. Ưu điểm của phương pháp này là giúp

CSDL có kích thước nhỏ hơn CSDL ban đầu giúp thời gian khai phá luật kết hợp

giảm.

- Luận án đề xuất sử dụng lý thuyết ĐSGT và giải thuật di truyền tìm kiếm hàm

thuộc dựa vào CSDL giao dịch đầu vào và một số mục tiêu của bài toán khai phá luật

kết hợp mờ. Phương pháp lập luận mờ sử dụng ĐSGT chỉ cần tập trung đến độ đo

tính mờ hay tối ưu được bộ số gia tử, số lượng tham số ít hơn so với một số phương

pháp đã đề xuất trước đây mà các tác giả sử dụng lý tuyết tập mờ giúp thời gian tối

ưu nhanh hơn. Luận án sử dụng biểu diễn tập mờ dạng đơn thể hạt để tính toán độ

thuộc của dữ liệu vào các miền mờ. Kết quả là chúng ta thu được tập các hàm thuộc

cho các thuộc tính định lượng và tập các luật kết hợp mờ.

- Luận án sử dụng biểu diễn đa thể hạt và ĐSGT cho bài toán khai phá luật kết

hợp mờ. Về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các luật kết hợp

vừa có tính khái quát và có tính chi tiết. Với phương pháp luận án đề xuất, việc tính

toán liên quan đến biểu diễn đa thể hạt là tăng thêm không đáng kể về mặt phức tạp

cũng như mặt thời gian mà kết quả nhận được lại tốt hơn rất nhiều.

Mặc dù luận án đã đạt được những kết quả khá tốt, tuy nhiên các kết quả nghiên

cứu này chủ yếu tập trung vào giải pháp nén dữ liệu giao dịch và phân hoạch miền

xác định của thuộc tính thành các miền mờ dưới dạng biểu diễn đơn thể hạt và đa thể

100

hạt theo hướng tiếp cận sử dụng ĐSGT cho bài toán khai phá luật kết hợp mờ. Song,

một số nội dung liên quan đến bài toán khai phá luật kết hợp cần được tiếp tục nghiên

cứu hoàn chỉnh hơn: giải các bài toán tìm luật kết hợp phủ định, luật kết hợp có trọng

số, luật kết hợp song song,… Đó là những vấn đề đặt ra cho chúng tôi cần phải có

những nghiên cứu trong thời gian tới.

101

CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN

LUẬN ÁN

i) Trần Thái Sơn, Nguyễn Tuấn Anh, Nâng cao hiệu quả khai phá luật kết hợp mờ theo

hướng tiếp cận đại số gia tử, Kỷ yếu hội nghị quốc gia lần VI về nghiên cứu cơ bản

và ứng dụng công nghệ thông tin (Fair) - Huế, 6/2013.

ii) Tran Thai Son, Nguyen Tuan Anh, Improve efficiency fuzzy association rule using

hedge algebra approach, Journal of Computer Science and Cybernetics, Vol 30, No

4, 2014.

iii) Tran Thai Son, Nguyen Tuan Anh, Hedges Algebras and fuzzy partition problem for

qualitative attributes, Journal of Computer Science and Cybernetics, V.32, N.4, 2016.

iv) Tran Thai Son, and Nguyen Tuan Anh, Partition fuzzy domain with multi-granularity

representation of data based on Hedge Algebra approach, Journal of Computer

Science and Cybernetics, vol 34, pp. 63-76, 2018.

102

TÀI LIỆU THAM KHẢO

TIẾNG VIỆT

[1] B. C. Cường, and N. D. Phước, Hệ mờ, mạng nơron và ứng dụng, Nhà xuất

bản Khoa học kỹ thuật, 2006.

[2] N. C. Hào, and N. C. Đoàn, Luật kết hợp mờ dựa trên ngữ nghĩa đại số gia tử,

Tạp chí khoa học - Đại học Huế, vol. 74A, no. 5, 2012.

[3] T. T. Sơn, Đ. N. Tiến, and P. Đ. Phong, Luật kết hợp theo cách tiếp cận Đại

số gia tử, Journal of Computer Science and Cybernetics, vol. 27, no. 4, 2012.

[4] H. V. Thông, N. C. Hồ, and N. Đ. Dư, Một phương pháp sinh hệ luật mờ

Mamdani cho bài toán hồi quy với ngữ nghĩa Đại số gia tử, Tin học và điều

khiển học, vol. 30, no. 3, pp. 227-238, 2014.

TIẾNG ANH

[5] C.-M. Lin, Y.-L. Hsieh, K.-C. Yin, M.-C. Hung, and D.-L. Yang, ADMiner:

An Incremental Data Mining Approach Using a Compressed FP-tree, Journal

of Software, vol. 8, no. 8, 2013.

[6] R. J. Kuo, C. M. Chao, and Y. Chiu, Application of particle swarm

optimization to association rule mining, Applied Soft Computing, vol. 11, no.

1, pp. 326-336, 2011.

[7] A. Agarwal, and N. Nanavati, Association rule mining using hybrid GA-PSO

for multi-objective optimisation, Computational Intelligence and Computing

Research (ICCIC), 2016 IEEE International Conference on, IEEE, 2016.

[8] R. J. Miller, and Y. Yang, Association rules over interval data, ACM

SIGMOD Record, vol. 26, no. 2, pp. 452-461, 1997.

[9] U. Can, and B. Alatas, Automatic Mining of Quantitative Association Rules

with Gravitational Search Algorithm, International Journal of Software

Engineering and Knowledge Engineering, vol. 27, no. 03, pp. 343-372, 2017.

[10] L. J. Eshelman, The CHC adaptive search algorithm: How to have safe search

when engaging in nontraditional genetic recombination, Foundations of

genetic algorithms, pp. 265-283: Elsevier, 1991.

[11] C.-H. Chen, V. S. Tseng, and T.-P. Hong, Cluster-based evaluation in fuzzy-

genetic data mining, IEEE transactions on fuzzy systems, vol. 16, no. 1, pp.

249-262, 2008.

[12] M. Kaya, and R. Alhajj, A clustering algorithm with genetically optimized

membership functions for fuzzy association rules mining, Fuzzy Systems,

2003. FUZZ'03. The 12th IEEE International Conference on, IEEE, 2003.

[13] L. A. Zadeh, The concept of a linguistic variable and its application to

approximate reasoning—I, Information sciences, vol. 8, no. 3, pp. 199-249,

1975.

[14] H. B. Yadav, and D. K. Yadav, Construction of membership function for

software metrics, Procedia Computer Science, vol. 46, pp. 933-940, 2015.

[15] C. Mencar, M. Lucarelli, C. Castiello, and A. M. Fanelli, Design of Strong

Fuzzy Partitions from Cuts, EUSFLAT Conf., 2013.

103

[16] P. Pulkkinen, and H. Koivisto, A dynamically constrained multiobjective

genetic fuzzy system for regression problems, IEEE Transactions on Fuzzy

Systems, vol. 18, no. 1, pp. 161-177, 2010.

[17] R. T. Ng, and J. Han, Efficient and Effective Clustering Methods for Spatial

Data Mining, Proceedings of VLDB, Citeseer, 1994.

[18] J.-Y. Dai, D.-L. Yang, J. Wu, and M.-C. Hung, An efficient data mining

approach on compressed transactions, World Academy of Science,

Engineering and Technology, vol. 3, pp. 76-83, 2008.

[19] N. C. Ho, and W. Wechler, Extended hedge algebras and their application to

fuzzy logic, Fuzzy sets and systems, vol. 52, no. 3, pp. 259-281, 1992.

[20] D. Meng, and Z. Pei, Extracting linguistic rules from data sets using fuzzy

logic and genetic algorithms, Neurocomputing, vol. 78, no. 1, pp. 48-54, 2012.

[21] R. Agrawal, and R. Srikant, Fast algorithms for mining association rules,

Proc. 20th int. conf. very large data bases, VLDB, 1994.

[22] C.-H. Chen, T.-P. Hong, Y.-C. Lee, and V. S. Tseng, Finding Active

Membership Functions for Genetic-Fuzzy Data Mining, International Journal

of Information Technology & Decision Making, vol. 14, no. 06, pp. 1215-

1242, 2015.

[23] A. Fu, M. H. Wong, S. C. Sze, W. C. Wong, W. L. Wong, and W. K. Yu,

Finding fuzzy sets for the mining of fuzzy association rules for numerical

attributes, Proceedings of the first international symposium on intelligent data

engineering and learning, 1998.

[24] A. Mangalampalli, and V. Pudi, FPrep: Fuzzy clustering driven efficient

automated pre-processing for fuzzy association rule mining, Fuzzy Systems

(FUZZ), 2010 IEEE International Conference on, IEEE, 2010.

[25] N. C. Ho, and N. V. Long, Fuzziness measure on complete hedge algebras and

quantifying semantics of terms in linear hedge algebras, Fuzzy Sets and

Systems, vol. 158, no. 4, pp. 452-471, 2007.

[26] N. C. Ho, T. T. Son, T. D. Khang, and L. X. Viet, Fuzziness Measure,

Quantified Sematic Mapping and Interpolative Method of Approximate

Reasoning in Medical Expert Systems, Journal of Computer Science and

Cybernetics, vol. 18, no. 3, pp. 237-252, 2002.

[27] A. Gyenesei, A fuzzy approach for mining quantitative association rules, Acta

Cybern., vol. 15, no. 2, pp. 305-320, 2001.

[28] J. Alcala-Fdez, R. Alcala, and F. Herrera, A fuzzy association rule-based

classification model for high-dimensional problems with genetic rule selection

and lateral tuning, IEEE Transactions on Fuzzy Systems, vol. 19, no. 5, pp.

857-872, 2011.

[29] A. Mangalampalli, and V. Pudi, Fuzzy association rule mining algorithm for

fast and efficient performance on very large datasets, Fuzzy Systems, 2009.

FUZZ-IEEE 2009. IEEE International Conference on, IEEE, 2009.

[30] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with

quantitative attributes, ACM SIGMOD Records, 1998.

[31] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with

quntitative attributes, ACM SIGMOD Records, 1998.

[32] C. A. Kumar, Fuzzy Clustering-Based Formal Concept Analysis for

Association Rules Mining, Applied Artificial Intelligence, vol. 26, no. 3, pp.

274-301, 2012.

104

[33] C.-H. Chen, A.-F. Li, and Y.-C. Lee, A fuzzy coherent rule mining algorithm,

Applied Soft Computing, vol. 13, no. 7, pp. 3422-3428, 2013.

[34] C.-W. Lin, T.-P. Hong, and W.-H. Lu, Fuzzy data mining based on the

compressed fuzzy fp-trees, Fuzzy Systems, 2009. FUZZ-IEEE 2009. IEEE

International Conference on, IEEE, 2009.

[35] W. Siler, and J. J. Buckley,Fuzzy expert systems and fuzzy reasoning: John

Wiley & Sons, 2005.

[36] K. Loquin, and O. Strauss, Fuzzy histograms and density estimation, Soft

methods for integrated uncertainty modelling, pp. 45-52: Springer, 2006.

[37] G. Castellano, A. M. Fanelli, and C. Mencar, Fuzzy Information Granulation

with Multiple Levels of Granularity, Granular Computing and Intelligent

Systems, pp. 185-202: Springer, 2011.

[38] G. Pradeep, and V. Ravi, Fuzzy Multi-Objective Association Rule Mining

Using Evolutionary Computation, Handbook of Research on Intelligent

Techniques and Modeling Applications in Marketing Analytics, pp. 119, 2016.

[39] H. Ishibuchi, and T. Yamamoto, Fuzzy rule selection by multi-objective

genetic local search algorithms and rule evaluation measures in data mining,

Fuzzy Sets and Systems, vol. 141, no. 1, pp. 59-88, 2004.

[40] L. A. Zadeh, Fuzzy sets, Information and control, vol. 8, no. 3, pp. 338-353,

1965.

[41] J. C. Bezdek, D. Dubois, and H. Prade,Fuzzy sets in approximate reasoning

and information systems: Springer Science & Business Media, 2012.

[42] T.-P. Hong, C.-H. Chen, Y.-C. Lee, and Y.-L. Wu, Genetic-fuzzy data mining

with divide-and-conquer strategy, IEEE Transactions on Evolutionary

Computation, vol. 12, no. 2, pp. 252-265, 2008.

[43] C.-H. Chen, T.-P. Hong, V. S. Tseng, and C.-S. Lee, A genetic-fuzzy mining

approach for items with multiple minimum supports, Soft Computing, vol. 13,

no. 5, pp. 521-533, 2009.

[44] K. Deb, Genetic Algorithm in Search and Optimization, Indian Institute of

Technology, Kanpur, India, 1998.

[45] W. Wang, and S. Bridges, Genetic algorithm optimization of membership

functions for mining fuzzy association rules, Department of Computer Science

Mississippi State University, vol. 2, 2000.

[46] C.-K. Ting, T.-C. Wang, R.-T. Liaw, and T.-P. Hong, Genetic algorithm with

a structure-based representation for genetic-fuzzy data mining, Soft

Computing, vol. 21, no. 11, pp. 2871-2882, 2016.

[47] N. C. Ho, W. Pedrycz, D. T. Long, and T. T. Son, A genetic design of linguistic

terms for fuzzy rule based classifiers, International Journal of Approximate

Reasoning, vol. 54, no. 1, pp. 1-21, 2012.

[48] R. Alcalá, J. Alcalá-Fdez, M. J. Gacto, and F. Herrera, Genetic learning of

membership functions for mining fuzzy association rules, Fuzzy Systems

Conference, 2007. FUZZ-IEEE 2007. IEEE International, IEEE, 2007.

[49] N. C. Ho, and W. Wechler, Hedge algebras: an algebraic approach to

structure of sets of linguistic truth values, Fuzzy sets and systems, vol. 35, no.

3, pp. 281-293, 1990.

[50] M. Martínez-Ballesteros, A. Troncoso, F. Martínez-Álvarez, and J. C.

Riquelme, Improving a multi-objective evolutionary algorithm to discover

105

quantitative association rules, Knowledge and Information Systems, vol. 49,

no. 2, pp. 481-509, 2015.

[51] M. J. Gacto, R. Alcalá, and F. Herrera, Interpretability of linguistic fuzzy rule-

based systems: An overview of interpretability measures, Information

Sciences, vol. 181, no. 20, pp. 4340-4360, 2011.

[52] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Learning

concurrently data and rule bases of Mamdani fuzzy rule-based systems by

exploiting a novel interpretability index, Soft Computing, vol. 15, no. 10, pp.

1981-1998, 2011.

[53] J. Alcalá-Fdez, R. Alcalá, M. J. Gacto, and F. Herrera, Learning the

membership function contexts for mining fuzzy association rules by using

genetic algorithms, Fuzzy Sets and Systems, vol. 160, no. 7, pp. 905-921,

2009.

[54] R. Agrawal, T. Imieliński, and A. Swami, Mining association rules between

sets of items in large databases, Acm sigmod record, ACM, 1993.

[55] T.-P. Hong, C.-S. Kuo, and S.-C. Chi, Mining association rules from

quantitative data, Intelligent data analysis, vol. 3, no. 5, pp. 363-376, 1999.

[56] C. H. Cai, A. W.-C. Fu, C. Cheng, and W. Kwong, Mining association rules

with weighted items, Database Engineering and Applications Symposium,

1998. Proceedings. IDEAS'98. International, IEEE, 1998.

[57] K. C. Chan, and W.-H. Au, Mining fuzzy association rules, Proceedings of the

sixth international conference on Information and knowledge management,

ACM, 1997.

[58] S.-z. Li, and S.-l. Chen, Mining fuzzy association rules by using nonlinear

particle swarm optimization, Quantitative Logic and Soft Computing 2010, pp.

621-630: Springer, 2010.

[59] C. M. Kuok, A. Fu, and M. H. Wong, Mining fuzzy association rules in

databases, ACM Sigmod Record, vol. 27, no. 1, pp. 41-46, 1998.

[60] C.-K. Ting, R.-T. Liaw, T.-C. Wang, and T.-P. J. M. C. Hong, Mining fuzzy

association rules using a memetic algorithm based on structure

representation, Memetic Computing, vol. 10, no. 1, pp. 15-28, 2018.

[61] W. Zhang, Mining fuzzy quantitative association rules, Tools with Artificial

Intelligence, 1999. Proceedings. 11th IEEE International Conference on,

IEEE, 1999.

[62] D. L. Olson, and Y. Li, Mining fuzzy weighted association rules, System

Sciences, 2007. HICSS 2007. 40th Annual Hawaii International Conference

on, IEEE, 2007.

[63] B. Minaei-Bidgoli, R. Barmaki, and M. Nasiri, Mining numerical association

rules via multi-objective genetic algorithms, Information Sciences, vol. 233,

pp. 15-24, 2013.

[64] M. Kaya, and R. Alhajj, Mining optimized fuzzy association rules using multi-

objective genetic algorithm, 8th IEEE International Conference on Intelligent

Engineering Systems, Cluj-Napoca, Romania, 2004.

[65] R. Srikant, and R. Agrawal, Mining quantitative association rules in large

relational tables, Acm Sigmod Record, ACM, 1996.

[66] G. Wang, J. Xu, Q. Zhang, and Y. Liu, Multi-granularity intelligent

information processing, Rough Sets, Fuzzy Sets, Data Mining, and Granular

Computing, pp. 36-48: Springer, 2015.

106

[67] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective

evolutionary design of granular rule-based classifiers, Granular Computing,

vol. 1, no. 1, pp. 37-58, 2015.

[68] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective

evolutionary learning of granularity, membership function parameters and

rules of Mamdani fuzzy systems, Evolutionary Intelligence, vol. 2, no. 1-2, pp.

21, 2009.

[69] C.-H. Chen, T.-P. Hong, V. S. Tseng, and L.-C. Chen, Multi-objective genetic-

fuzzy data mining, International Journal of Innovative Computing Information

and Control, vol. 8, no. 10A, pp. 6551-6568, 2012.

[70] M. Kaya, Multi-objective genetic algorithm based approaches for mining

optimized fuzzy association rules, Soft computing, vol. 10, no. 7, pp. 578-586,

2006.

[71] A. Ghosh, and B. Nath, Multi-objective rule mining using genetic algorithms,

Information Sciences, vol. 163, no. 1-3, pp. 123-133, 2004.

[72] H. R. Qodmanan, M. Nasiri, and B. Minaei-Bidgoli, Multi objective

association rule mining with genetic algorithm without specifying minimum

support and minimum confidence, Expert Systems with applications, vol. 38,

no. 1, pp. 288-298, 2011.

[73] M. J. Zaki, S. Parthasarathy, M. Ogihara, and W. Li, New Algorithms for Fast

Discovery of Association Rules, KDD, 1997.

[74] H. Kalia, S. Dehuri, A. Ghosh, and S.-B. Cho, On the mining of fuzzy

association rule using multi-objective genetic algorithms, International

Journal of Data Mining, Modelling and Management, vol. 8, no. 1, pp. 1-31,

2016.

[75] A. Gupta, S. Jain, and A. J. A. a. S. Tiwari, Optimization and Improvement of

association rule mining using genetic algorithm and fuzzy logic, 2019.

[76] U. K. Patel, Optimization of Association Rule Mining Using Genetic

Algorithm, Conference Proceeding of International Conference on Recent

Innovation in Science, Technology and Management, 2016.

[77] M. Saggar, A. K. Agrawal, and A. Lad, Optimization of association rule

mining using improved genetic algorithms, Systems, Man and Cybernetics,

2004 IEEE International Conference on, IEEE, 2004.

[78] H. Zheng, J. He, G. Huang, and Y. Zhang, Optimized fuzzy association rule

mining for quantitative data, Fuzzy Systems (FUZZ-IEEE), 2014 IEEE

International Conference on, IEEE, 2014.

[79] Z. Makani, S. Arora, and P. Kanikar, A Parallel Approach to Combined

Association Rule Mining, International Journal of Computer Applications, vol.

62, no. 15, 2013.

[80] S. Mishra, D. Mishra, and S. K. Satapathy, Particle swarm optimization based

fuzzy frequent pattern mining from gene expression data, Computer and

Communication Technology (ICCCT), 2011 2nd International Conference on,

IEEE, 2011.

[81] M. Fazzolari, R. Alcala, Y. Nojima, H. Ishibuchi, and F. Herrera, A review of

the application of multiobjective evolutionary fuzzy systems: Current status

and further directions, IEEE Transactions on Fuzzy systems, vol. 21, no. 1,

pp. 45-65, 2013.

107

[82] Y. Yao, A triarchic theory of granular computing, Granular Computing, vol.

1, no. 2, pp. 145-157, 2016.

[83] T.-P. Hong, C.-H. Chen, Y.-L. Wu, and Y.-C. Lee, Using divide-and-conquer

GA strategy in fuzzy data mining, Computers and Communications, 2004.

Proceedings. ISCC 2004. Ninth International Symposium on, IEEE, 2004.

[84] L. Yan, Z. Pei, and F. Ren, Constructing and Managing Multi-Granular

Linguistic Values Based on Linguistic Terms and Their Fuzzy Sets, IEEE

Access, vol. 7, pp. 152928-152943, 2019.

[85] N. C. Ho, T. T. Son, H. V. Thong, and N. V. Long, LFoC-Interpretability of

Linguistic Rule Based Systems and its Applications To Solve Regression

Problems, International Journal of Computer Technology & Applications, vol.

8, no. 2, pp. 94-117, 2017.

Documents

gust.edu.vngust.edu.vn/media/27/uftai-ve-tai-day27282.pdf · 2020. 1. 31. · BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN