Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
Nguyễn Tuấn Anh
NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ
LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN
NGỮ VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội – Năm 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
Nguyễn Tuấn Anh
NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ
LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN
NGỮ VÀ ỨNG DỤNG
Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC
Mã sỗ: 62.46.01.10
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TSKH. Nguyễn Cát Hồ
2. TS. Trần Thái Sơn
Hà Nội – Năm 2020
1
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được
viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa
vào luận án. Các kết quả trong luận án là trung thực và chưa từng được công bố trong
bất kỳ công trình nào khác.
Tác giả
Nguyễn Tuấn Anh
2
LỜI CẢM ƠN
Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TSKH. Nguyễn
Cát Hồ và TS. Trần Thái Sơn. Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết
ơn sâu sắc nhất tới hai thầy.
Tác giả gửi lời cảm ơn chân thành tới Ban lãnh đạo Học viện Khoa học và
Công nghệ, Viện Công nghệ thông tin, khoa Công nghệ thông tin và truyền thông đã
tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án.
Xin cảm ơn Ban giám hiệu trường Đại học Công nghệ thông tin và Truyền
thông - ĐHTN, Ban chủ nhiệm khoa Công nghệ thông tin đã quan tâm giúp đỡ, tạo
điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu.
Cảm ơn các đồng nghiệp thuộc Khoa Công nghệ thông tin - Trường Đại học
Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các anh chị trong nhóm
nghiên cứu đại số gia tử đã động viên, khích lệ trao đổi những kiến thức và kinh
nghiệm trong quá trình hoàn thành luận án.
Cuối cùng, tác giả xin chân thành cảm ơn bố mẹ, chị em, đặc biệt là vợ và các
con, những người luôn dành cho tác giả những tình cảm và chia sẻ những lúc khó
khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu.
Luận án cũng là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành viên
trong gia đình.
3
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.......................................... 5
DANH MỤC HÌNH BẢNG BIỂU ........................................................................... 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................. 7
MỞ ĐẦU .................................................................................................................... 9
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ ...................................................... 17
1.1. Tập mờ và các phép toán trên tập mờ ........................................................ 17
1.1.1. Tập mờ (fuzzy set) ................................................................................... 17
1.1.2. Biến ngôn ngữ .......................................................................................... 18
1.1.3. Phân hoạch mờ ......................................................................................... 19
1.2. Đại số gia tử ................................................................................................... 21
1.2.1. Khái niệm Đại số gia tử ........................................................................... 21
1.2.2. Một số tính chất của ĐSGT tuyến tính .................................................... 22
1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ ............................................. 23
1.2.4. Khoảng mờ .............................................................................................. 24
1.2.5. Độ đo tính mờ của các giá trị ngôn ngữ .................................................. 25
1.3. Giải thuật di truyền ...................................................................................... 27
1.4. Bài toán khai phá luật kết hợp .................................................................... 29
1.4.1. Một số khái niệm cơ bản.......................................................................... 29
1.4.2. Bài toán khai phá luật kết hợp mờ ........................................................... 31
1.5. Một số hướng nghiên cứu về luật kết hợp .................................................. 34
1.6. Kết luận chương 1 ........................................................................................ 37
CHƯƠNG 2. KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP CẬN
SỬ DỤNG ĐẠI SỐ GIA TỬ .................................................................................. 38
2.1. Đặt vấn đề ...................................................................................................... 38
2.2. Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT ............................. 39
2.2.1. Mờ hóa cơ sở dữ liệu giao dịch ............................................................... 39
2.2.2. Quan hệ khoảng cách giao dịch ............................................................... 41
2.2.3. Xây dựng bảng định lượng ...................................................................... 42
2.3. Nén cơ sở dữ liệu giao dịch .......................................................................... 43
2.4. Thuật toán trích xuất luật kết hợp mờ ....................................................... 46
4
2.5. Kết quả thử nghiệm ...................................................................................... 48
2.5.1. Thử nghiệm với CSDL FAM95............................................................... 48
2.5.2. Thử nghiệm với CSDL STULONG ........................................................ 51
2.6. Kết luận chương 2 ........................................................................................ 54
CHƯƠNG 3. PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN BIỂU
DIỄN THỂ HẠT CỦA ĐSGT ................................................................................ 56
3.1. Phân hoạch cho miền giá trị của thuộc tính ............................................... 56
3.1.1. Đặt vấn đề ................................................................................................ 56
3.1.2. Rời rạc hóa thuộc tính định lượng ........................................................... 57
3.1.3. Phân chia miền giá trị của thuộc tính theo cách tiếp cận lý thuyết tập mờ
........................................................................................................................... 60
3.2. Phương pháp phân hoạch mờ bằng biểu diễn thể hạt với ĐSGT ............ 63
3.2.1. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt .......... 64
3.2.2. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt ............ 66
3.3. Phương pháp tối ưu tham số mờ ĐSGT cho bài toán khai phá luật kết
hợp ......................................................................................................................... 70
3.3.1. Mô hình giải thuật di truyền CHC ........................................................... 71
3.3.2. Mã hóa tập các MF .................................................................................. 72
3.3.3. Đánh giá nhiễm sắc thể ............................................................................ 73
3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp ................... 75
3.5. Kết quả thử nghiệm ...................................................................................... 77
3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm ................................................. 77
3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn
thể hạt ................................................................................................................. 78
3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa
thể hạt ................................................................................................................. 93
3.6. Kết luận chương 3 ........................................................................................ 97
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................ 99
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN
ÁN ........................................................................................................................... 101
TÀI LIỆU THAM KHẢO .................................................................................... 102
5
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Các ký hiệu
𝒜𝒳 Đại số gia tử tuyến tính
𝒜𝒳∗ Đại số gia tử tuyến tính đầy đủ
𝜇(ℎ) Độ đo tính mờ của gia tử h
𝑓𝑚(𝑥) Độ đo tính mờ của gia tử x
𝑣(𝑥) Hàm định lượng của giá trị ngôn ngữ của biến x
𝜇𝐴(𝑥) Hàm xác định độ thuộc của giá trị x vào tập mờ A
𝑙(𝑥) Độ dài của từ ngôn ngữ x
ℑ𝑓𝑚 Khoảng tính mờ của giá trị ngôn ngữ
𝑋𝑘 Tập các hạng từ có độ dài đúng bằng k
𝑋(𝑘) Tập các hạng từ có độ dài ≤ 𝑘
Các từ viết tắt
AR Luật kết hợp (association rule)
DB, CSDL Cơ sở dữ liệu
ĐLNN Định lượng ngữ nghĩa
ĐSGT Đại số gia tử
FRBS Fuzzy Rule-based Systen
GA Giải thuật di truyền (Genetic Algorithms)
KB Knowledge Base
MF Hàm thuộc (Membership function)
RB Fuzzy-based
SQM Semantically Quantifying Mapping
Min Supp Độ hỗ trợ tối thiểu
6
DANH MỤC HÌNH BẢNG BIỂU
Bảng 2.1: Cơ sở dữ liệu ví dụ ................................................................................... 41
Bảng 2.2: Mờ hóa dữ liệu trong Bảng 2.1 ................................................................ 41
Bảng 2.3: Bảng định lượng của cơ sở dữ liệu Bảng 2.2 ........................................... 43
Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80% ................................. 48
Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80% .................. 49
Bảng 2.6: Luật kết hợp thu được với độ hỗ trợ 70% và độ tin cậy 80% .................. 49
Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80% ................................. 51
Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80% .... 52
Bảng 2.9: Luật kết hợp thu được với độ hỗ trợ 85% và độ tin cậy 80% .................. 52
Bảng 2.10: Luật kết hợp thu được với độ hỗ trợ 90% và độ tin cậy 80% ................ 53
Bảng 3.1: CSDL thống kế dân số của 10 gia đình .................................................... 58
Bảng 3.2: Rời rạc hóa thuộc tính định lượng ............................................................ 58
Bảng 3.3: Ví dụ rời rạc hóa thuộc tính "Tuổi" .......................................................... 59
Bảng 3.4: CSDL thử nghiệm .................................................................................... 77
Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương
pháp sử dụng biểu diễn đơn thể hạt........................................................................... 78
Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt ............................................... 79
Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật ........................................ 82
Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet ..................................................... 86
Bảng 3.9: Bảng Độ thú vị trung bình ........................................................................ 90
Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với
phương pháp sử dụng biểu diễn đa thể hạt ................................................................ 94
Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp ......................................... 94
Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp ..................................... 95
7
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già ....... 19
Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt ......................................... 20
Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt ........................................... 20
Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH ................................. 25
Hình 1.5: Độ đo tính mờ của biến TRUTH .............................................................. 26
Hình 1.6: Lưu đồ giải thuật di truyền ....................................................................... 28
Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT ............................................... 40
Hình 2.2: Tổng quan về thuật toán nén CSDL giao dịch .......................................... 43
Hình 2.3: Thời gian thực hiện với CSDL nén và CSDL không nén ......................... 50
Hình 2.4: Thời gian thực hiện với CSDL nén ........................................................... 50
Hình 2.5: Thời gian thực hiện với CSDL nén và CSDL không nén ......................... 54
Hình 3.1: Xây dựng phần hoạch miền xác định của thuộc tính theo cách tiếp cận
ĐSGT ........................................................................................................................ 65
Hình 3.2: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đơn thể hạt .... 65
Hình 3.3: Cấu trúc hạt thể nhiều mức ....................................................................... 67
Hình 3.4: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đa thể hạt ...... 69
Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính và khai
phái luật kết hợp ........................................................................................................ 70
Hình 3.6: Mô hình giải thuật di truyền CHC ............................................................ 72
Hình 3.7: Tập các MF cho mục Ij ...................................................................... 74
Hình 3.8: Hai tập hàm thuộc phân bố không tốt ................................................ 75
Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp ........... 80
Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp .................................... 81
Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp ....................... 81
Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp ..................................... 82
Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp .................................... 83
8
Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của
Herrera sử dụng lý thuyết tập mờ .............................................................................. 85
Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đơn thể hạt và ĐSGT ................................................................................. 86
Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution .... 88
Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong ...... 88
Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball .. 89
Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake ........ 89
Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock .......... 90
Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution .. 91
Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong .... 92
Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball 92
Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake ...... 92
Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock ........ 93
Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp ................................. 95
Hình 3.27: So sánh số lượng tập phổ biến và Min Supp .......................................... 95
Hình 3.28: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đa thể hạt và ĐSGT ................................................................................... 97
9
MỞ ĐẦU
Cùng với sự phát triển mạnh mẽ của Công nghệ thông tin, đặc biệt là các hệ
thống thông tin quản lý giai đoạn vừa qua, xuất hiện rất nhiều các kho thông tin hay
CSDL lớn hoặc rất lớn. Để khai thác thông tin ẩn trong các kho dữ liệu kích cỡ lớn
như vậy nhằm phục vụ cho các nhu cầu quản lý cũng như cho các hoạt động khoa
học khác nhau (như trí tuệ nhân tạo,..), hướng nghiên cứu khai phá dữ liệu, phát hiện
tri thức đã ra đời thu hút sự quan tâm của các nhà tin học cũng như các chuyên gia
trong nhiều lĩnh vực khác nhau như y tế, giáo dục,… và phát triển mạnh mẽ trong
thời gian gần đây. Vài thí dụ có thể thấy:
- Phát hiện những mối quan hệ dữ liệu, các luật kết hợp trong các kho dữ liệu
lớn như các CSDL, các kho dữ liệu giao dịch bán hàng trong siêu thị, các kho dữ liệu
phản ảnh một phạm vi nào đó của hoạt động kinh tế - xã hội.
- Giải quyết vấn đề trích rút thông tin trong tập dữ liệu lớn dạng các câu tóm tắt
ngôn ngữ (Linguistic summaries).
Bài toán khai thác luật kết hợp (Association rule mining) là hướng nghiên cứu
quan trọng và sớm được nghiên cứu phát triển trong hướng nghiên cứu khai phá dữ
liệu. Giai đoạn đầu, các nghiên cứu trước đây được giới hạn trong phạm vi “bài toán
luật kết hợp cổ điển”, tức là chỉ làm việc với các kho dữ liệu có giá trị nhị phân (0 và
1), sau đó mở rộng ra dữ liệu nằm trong trường số thực. Trong những năm gần đây
nhiều giải thuật dùng cho những công việc đặc thù đã được phát triển theo nhiều
hướng khác nhau nhưng chủ yếu xoay quanh hai hướng chính:
(i) Cải tiến tốc độ trung bình các thuật toán khai phá luật kết hợp, vì thông
thường đây là bài toán có độ phức tạp hàm mũ do phải quét CSDL nhiều lần.
(ii) Nghiên cứu sâu hơn về ý nghĩa của các luật kết hợp vì ta thấy không phải
luật kết hợp nào khai phá được cũng có ý nghĩa đối vời người sử dụng.
Có rất nhiều thuật toán đã được đề xuất để tìm kiếm luật kết hợp từ CSDL có
thuộc tính định lượng. Dạng khai phá luật kết hợp đầu tiên được đề xuất là luật kết
hợp nhị phân dựa trên dữ liệu basket đã được Agrawal và cộng sự đề xuất [21]. Ở đây
CSDL là một bảng các giao dịch tại một siêu thị trong ngày chẳng hạn với các cột là
các mục (hàng hóa) và các dòng là danh sách người mua. Nếu người A mua hàng ở
10
các mục x, y, z,… thì tại đó, CSDL nhận giá trị 1, còn lại là nhận giá trị 0. Như vậy,
bài toán khai phá dữ liệu ban đầu làm việc với các giá trị nhị phân.
Một luật kết hợp có dạng R: "𝑁ế𝑢 𝑋 𝑡ℎì 𝑌", trong đó X, Y là tập các mục,
𝑋, 𝑌 ⊆I và X ∩Y = ∅, X được gọi là tiên đề, Y được gọi là hệ quả của luật. Hai độ do
quan trọng và thường được sử dụng trong bài toán khai phá luật kết hợp là: Độ hỗ trợ
(support) và Độ tin cậy (confidence).
Với CSDL nhị phân chỉ quan tâm là một mặt hàng có xuất hiện trong giao dịch
hay không mà không quan tâm đến số lượng mặt hàng trong mỗi giao dịch. Trong
thực tế CSDL thương bao gồm có cả các thuộc tính định lượng, các thuật toán khai
phá luật kết hợp với dữ liệu nhi phân không thể áp dụng với CSDL dạng này. Để có
thể xử lý dữ liệu kiểu này, phương pháp thường được sử dụng là chia miền giá trị của
các thuộc tính định lượng đó thành các khoảng, sau đó chuyển CSDL thành CSDL
mới để có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân [8]. Luật kết hợp
này có dạng: Nếu Tuổi ∈ [1, 25] thì Thu nhập ∈ [2 triệu, 3 triệu]. Với phương pháp
rời rạc dữ liệu này đã giải quyết được bài toán chuyển từ CSDL giao dịch với dữ liệu
số về dữ liệu giao dịch nhị phân, tuy nhiên với kết quả này cũng chưa thỏa mãn các
nhà nghiên cứu. Một cách tự nhiên, điều này dẫn đến việc đề xuất và nghiên cứu các
luật kết hợp mờ, ở đó người ta phân chia miền xác định của thuộc tính bằng các tập
mờ.
Trong [29-31, 57], thuật toán khai phá luật kết hợp mờ đã được đề xuất. Luật
kết hợp mờ có dạng: “Nếu X là A Thì Y là B”. “X là A” gọi là tiền (tiên) đề, “Y là B”
gọi là kết luận của luật. 𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑝}, Y= {𝑦1, 𝑦2, … , 𝑦𝑞} là tập mục là tập con
của tập thuộc tính I của CSDL. 𝐴 = {𝑓𝑥1 , 𝑓𝑥2 , … , 𝑓𝑥𝑝}, B= {𝑓𝑦1 , 𝑓𝑦2 , … , 𝑓𝑦𝑞} là các tập
mờ tương ứng của các thuộc tính X, Y.
Để khai phá luật kết hợp mờ với CSDL có các thuộc tính định lượng, đầu tiên
phải phân hoạch miền giá trị của các thuộc tính thành các miền mờ (mỗi miền mờ
gắn với một nhãn ngôn ngữ). Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi
là một tập mờ và ứng với một hàm thuộc (Membership Function -MF) nhằm xác định
độ “thuộc” của giá trị biến vào tập mờ đã cho. Hàm thuộc xác định độ thuộc của một
đối tượng vào mỗi tập mờ đã được định nghĩa trước cho các thuộc tính định lượng.
Khi đó, mỗi giá trị của một thuộc tính trong CSDL sẽ ứng với một tập các giá trị của
11
các hàm thuộc ứng với các tập mờ của thuộc tính đó và ta sẽ xử lý tập giá trị độ thuộc
này thay cho xử lý bản thân giá trị đó của CSDL.
Thuật toán khai phá luật kết hợp mờ đề xuất trong [30], thuật toán khai phá
luật kết hợp mờ theo trình tự sau: người sử dụng hoặc chuyên gia phải cung cấp thuật
toán cùng với các tập mờ cho các thuộc tính định lượng và các hàm thuộc. Các hàm
thuộc và tập mờ được cung cấp dựa vào kinh nghiệm của các chuyên gia, có thể không
phù hợp với luật kết hợp mờ của CSDL. Để có được các luật kết hợp chất lượng, một
trong các hướng nghiên cứu đực các tác giả đề xuất là dựa vào CSDL giao dịch đầu
vào trích chọn ra các hàm thuộc.
Trong các nghiên cứu về khai phá tri thức, bài toán phân chia miền xác định
các thuộc tính định lượng của dữ liệu ngày càng nhận được sự quan tâm rộng rãi.
Phân chia miền xác định của thuộc tính là bước khởi đầu quan trọng cho cả một quá
trình xử lý thông tin về sau cho hầu hết các bài toán khai phá tri thức như: khai phá
luật kết hợp, phân loại, nhận dạng, hồi quy [15, 16, 28, 52, 67],...
Trong các năm gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây
dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên
công đoạn tiếp theo. Nếu không có một hệ các MF được xây dựng tốt thì cũng sẽ
không thể trích xuất các luật kết hợp tốt được. Nếu ta có một sự phân chia mờ hợp lý
(theo một số tiêu chuẩn xác định), các tri thức khai phá được về sau cũng sẽ là các tri
thức phản ánh đúng đắn hơn các quy luật ẩn trong kho thông tin. Ngược lại, nếu ban
đầu không có sự phân chia mờ hợp lý, tri thức khai phá được có thể sẽ mang nặng
tính chủ quan, áp đặt, không đúng với bản chất sự việc. Đây thật ra là bài toán không
đơn giản dù cho bề ngoài của sự việc không cho thấy rõ điều đó. Bài toán phức tạp
trước hết vì liên quan đến nhận thức mang tính cảm tính của cá nhân, phụ thuộc nhiều
vào ngữ cảnh, chẳng hạn trong miền thuộc tính “khoảng cách” thì khoảng cách bao
nhiêu gọi là “xa”, là “tương đối gần”,... Thứ nữa, việc phân chia mờ cũng phụ thuộc
rất nhiều vào dữ liệu đầu vào mà ta có được. Một số nghiên cứu có giả thiết về hàm
phân bố xác suất của dữ liệu hoặc các giả thiết khác. Tuy nhiên dữ liệu thì rất đa dạng,
các giả thiết không phải lúc nào cũng thỏa mãn và khối lượng thông tin thì vô cùng
lớn, đòi hỏi phải có các phương pháp tin cậy nhưng không quá phức tạp để có thể xử
lý thông tin trong thời gian chấp nhận được.
12
Phương pháp tiếp cận theo lý thuyết tập mờ cho ta một cách xử lý dữ liệu khá
mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ điển. Tuy vậy, vẫn còn
nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, việc gắn nhãn
ngôn ngữ vào các miền mờ thường dựa vào trực quan của con người, làm sao xây
dựng được các MF nhanh chóng, phù hợp và cách xử lý các MF này thế nào để giữ
được ngữ nghĩa gắn với chúng,... Rất nhiều thuật toán khai phá luật kết hợp mờ đã
được đề xuất [27, 31, 57, 59, 61, 65] với các phương pháp này thường định nghĩa
trước các hàm thuộc, điều này khó trong thực tế và thương mang ý chủ quan của con
người
Một số công bố được các nhà nghiên cứu đề xuất phương pháp tìm kiếm hàm
thuộc và ứng dụng trong bài toán khai phá luật kết hợp từ CSDL có các thuộc tính
định lượng: Tzung-Pei Hong và cộng sự (2004) [83], (2008) [42], (2016) [46], (2018)
[60]; Herrera và cộng sự (2009) [53], (2015) [22]; Harikesh Bahadur Yadav và cộng
sự (2015) [14]; Aashna Agarwal và cộng sự (2016) [7]; Hemant Kumar Soni và cộng
sự (2016) [38]; Harihar Kalia và cộng sự (2016)[74]; Umesh Kumar Patel và cộng sự
(2016) [76]; Umit Can và cộng sự (2017) [9], Archana Gupta và cộng sự (2019) [75].
Ý tưởng chính của các phương pháp sử dụng giải thuật GA để tìm kiếm trong CSDL
các hàm thuộc từ CSDL sau đó áp dụng hàm thuộc tìm kiếm được để khai phá luật
kết hợp. Hướng nghiên cứu này đã cho phép xây dựng tập các hàm thuộc tốt hơn,
không phải dựa hoàn toàn trên cách nhìn chủ quan của các chuyên gia. Tuy vậy, do
tập các hàm thuộc tương ứng với các tập mờ con dùng để phân chia miền xác định
của thuộc tính có điểm xuất phát ban đầu chưa thực sự tốt nên kết quả thu được qua
giải thuật di truyền chưa thật sự tối ưu (chẳng hạn như độ chồng lấn còn cao, tính
đáng quan tâm, hay ngữ nghĩa của các luật thu được chưa thật sự đáp ứng yêu cầu –
mà ta sẽ thấy qua phân tích các kết quả thử nghiệm về sau).
Để khắc phục một số hạn chế của hướng tiếp cận dựa trên lý tuyết tập mờ,
N.C.Ho và Wechler đã đề xuất hướng tiếp cận tính toán đựa trên ngôn ngữ gọi là
ĐSGT [19, 49]. Với cấu trúc của ĐSGT cho phép ngữ nghĩa tính toán của từ được
định nghĩa dựa trên thứ tự ngữ nghĩa vốn có của các từ của biến, các miền của từ của
các biến thiết lập một cấu trúc dựa trên thứ tự là đủ để giải các bài toán thực tế. Việc
gán ngữ nghĩa tính toán cho các từ của một biến bằng các tập mờ được xem như làm
một ánh xạ. Với phương pháp này, chỉ cần một bộ độ đo tính mờ của các từ của một
13
biến là đủ để xác định các đặc tính định lượng khác nhau như: giá trị định lượng ngữ
nghĩa, các khoảng mờ,… Với các tiếp cận sử dụng ĐSGT cho phép dễ dàng phân
hoạch miền giá trị của các thuộc tính thành các miền mờ dựa vào khoảng tính mờ và
giá trị định lượng ngữ nghĩa của các từ. Từ đó, có dễ dàng xây dựng được các hàm
thuộc đựa trên hoạch đã có. Các hàm thuộc này được xây dựng dựa trên một cấu trúc
ĐSGT vì vậy các hàm thuộc có sự ràng buộc với nhau và gắn với một nhãn ngôn ngữ.
Các phân hoạch dựa trên các miền mờ con theo cách tiếp cận ĐSGT còn là một phân
hoạch mạnh, có nghĩa một giá trị bất kỳ của miền xác định thuộc tính đều có tổng các
độ thuộc vào các hàm thuộc phân chia miền xác định của thuộc tính đó bằng 1. Để
khắc phục nhược điểm của lý thuyết tập mờ, một số giải pháp đã ứng dụng ĐSGT
vào giải quyết bài toán khai phá luật kết hợp mờ [2, 3]. Nguyễn Công Hào và cộng
sự (2012) [2] xem miền trị Dom(A) của thuộc tính mờ là một cấu trúc ĐGST. Với
mỗi x ∈ Dom(A) sẽ tương ứng với mỗi phần tử y trong ĐSGT (sử dụng hàm ngược
trong ĐSGT). Phương pháp này đơn giản nhưng việc ứng mỗi giá trị của Dom(A) với
chỉ một phần tử của ĐSGT có thể gây mất mát thông tin. Nguyễn Nam Tiến và cộng
sự (2012) [3] giải quyết được hạn chế đó bằng cách xác định khoảng cách của x với
giá trị định lượng ngữ nghĩa của hai phần tử gần x nhất về hai phía, còn các phần tử
khác của ĐSGT bằng 0. Như vậy với mỗi giá trị x chúng ta lưu một cặp giá trị thay
vì trong [2] chỉ lưu một giá trị.
Bên cạnh hướng nghiên cứu tìm ra các luật kết hợp có ý nghĩa hơn, các nhà
nghiên cứu cũng đề xuất nhiều giải pháp nhằm tăng tốc độ khai phá luật kết hợp: luật
kết hợp song song, nén dữ liệu nên cây FP-Tree,… Jia-Yu Dai và cộng sự (2008) [18]
đề xuất giải pháp nén CSDL nhị phân, giải pháp là gộp các giao dịch nhị phân tạo
thành giao dịch mới giúp giảm kích thước CSDL giao dịch, Chien-Min Lin (2013)
[5] đề xuất giải pháp nén CSDL giao dịch lên cây FP-tree, Chun-Wei Lin và cộng sự
(2009) [34] đề xuất giải pháp nén CSDL giao dịch mờ lên cây FP-Tree.
Với các hướng nghiên cứu về khai phá luật kết hợp mờ nếu trên, đa phần các
nhà nghiên cứu sử dụng biểu diễn các tập mờ dạng đơn thể hạt. Trong một số năm
gần đây nhiều nhà nghiên cứu đã nghiên cứu và sử dụng các hàm thuộc dạng đa thể
hạt cho các bài toán trong khai phá dữ liệu [37, 66-68, 82, 84].
Đây là một lĩnh vực nghiên cứu ứng dụng rộng lớn. Nội dung nghiên cứu của
luận án có tiếp cận cả hai hướng nghiên cứu (là nghiên cứu giảm thời gian tính toán
14
và tìm hiểu xây dựng các luật có ngữ nghĩa đáng quan tâm của các luật mờ) nhưng
được giới hạn trong các hướng nhỏ:
- Tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng luật mờ,
như luật kết hợp mờ với thông tin ngôn ngữ (luật dạng ngôn ngữ) từ CSDL số nhằm
phát hiện các quan hệ dữ liệu không dễ tiên lượng, nhưng có ích trong công việc quản
lý, hay các tri thức luật mờ sử dụng trong lập luận,...
- Đề xuất giải pháp nén dữ liệu giao dịch mờ nhằm tăng tốc độ khai phá luật kết
hợp.
Trong luận án sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ để
nghiên cứu một số vấn đề về khai phá luật kết hợp vì những lý do sau:
(i) Luật kết hợp mờ được nghiên cứu còn một số nhược điểm kể cả trong việc
xây dựng thuật toán nhằm tăng tốc độ xử lý cũng như trong bài toán phân hoạch miền
xác định của thuộc tính thành các miền mờ nhằm đưa ra các luật kết hợp có ý nghĩa.
Trong khi đó, ĐSGT dựa trên một cấu trúc toán học rõ ràng hơn, do đó việc xây dựng
tập các hàm thuộc xác định các miền mờ con dùng để phân chia miền xác định trở
nên ít mang tính chủ quan hơn và ngữ nghĩa của luật sẽ trở nên dễ chấp nhận hơn.
(ii) Với biểu diễn dữ liệu khác nhau, ĐSGT cho một cách tiếp cận thống nhất
đơn giản mà có hiệu quả cao trong xử lý.
Để nghiên cứu phát triển phương pháp, thuật toán phát hiện tri thức luật như
vậy cần những nội dung nghiên cứu sau:
- Nghiên cứu các phương pháp biểu thị ngữ nghĩa các khái niệm mờ (các từ
ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) hoặc các phương pháp toán học khác
sao cho nó biểu thị ngữ nghĩa các khái niệm phù hợp nhất. Việc nghiên cứu này đòi
hỏi nghiên cứu nắm vững một cách hệ thống thêm các kiến thức về lý thuyết tập mờ
và ĐSGT, những cơ sở lý thuyết liên quan đến biểu thị ngữ nghĩa của các khái niệm
mờ trong ngôn ngữ tự nhiên.
- Một trong những ứng dụng quan trọng của tri thức luật là nó thiết lập cơ sở tri
thức cho lập luận mờ hay lập luận xấp xỉ. Vì vậy, phương pháp luận phát hiện tri thức
luật cũng gắn với phương pháp lập luận mờ: một hệ tri thức luật mờ là tốt, phù hợp
nếu cơ sở tri thức luật được phát hiện tạo được cơ sở cho lập luận hiệu quả. Vì vậy
các phương pháp lập luận mờ cũng là một nội dung nghiên cứu của đề tài. Nội dung
15
nghiên cứu này bao gồm nghiên cứu các phương pháp lập luận dựa trên lý thuyết tập
mờ kết hợp với phương pháp dựa trên ĐSGT.
- Nghiên cứu các phương pháp khai phá tri thức nói chung và các luật mờ nói
riêng.
- Nghiên cứu các cách biểu diễn dữ liệu khác nhau của thông tin để có thể khai
phá luật kết hợp một cách đa dạng, mang nhiều ý nghĩa. Cụ thể các biểu diễn dữ liệu
đa thể hạt (Multi-granularity Representation of Data) được sử dụng, phù hợp với sự
chú ý ngày càng gia tăng của hướng nghiên cứu này.
Kết quả của luận án:
- Đề xuất phương pháp khai phá luật kết hợp mờ dựa trên tiếp cận sử dụng ĐSGT
và giải pháp nén CSDL giao dịch.
- Đề xuất phương pháp tìm kiếm hàm thuộc cho mỗi thuộc tính định lượng trong
CSDL bằng phương pháp sử dụng lý thuyết ĐSGT và giải thuật GA. Các hàm thuộc
trong phương pháp này được xây dựng dựa trên biểu diễn dữ liệu đơn thể hạt và đa
thể hạt.
Bố cục luận án bao gồm: Phần mở đầu, 3 chương, phần kết luận và tài liệu
tham khảo. Kết quả chính của luận án tập trung ở chương 2, và 3. Cụ thể:
Chương 1: Trình bày những kiến thức cơ sở cần thiết làm nền tảng trong quá
trình nghiên cứu và những đề xuất mới của luận án, Các khái niệm của lý thuyết tập
mờ như: tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ.
Trình bày những nội dung cơ bản của lý thuýet ĐSGT như: khái niệm ĐSGT, ĐSGT
tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ, hàm định lượng ngữ nghĩa. Trình
bày tóm tắt về về bài toán khai phá luật kết hợp và một số khái niệm cơ bản liên quan
đến bài toán khai phá luật kết hợp.
Chương 2: Phát triển thuật toán theo hướng tiếp cận ĐSGT cho bài toán khai
phá luật kết hợp mờ. Thay vì cách tiếp cận như truyền thống là sử dụng lý thuyết tập
mờ, luận án sử ĐSGT để mờ hoá CSDL giao dịch, mỗi một thuộc tính định lượng sẽ
sử dụng một cấu trúc ĐSGT. Để giảm thời gian khai phá luật kết hợp, chương này đề
xuất giải pháp nén CSDL giao dịch mờ nhằm giảm kích thước CSDL. Định nghĩa
quan hệ và khoảng cách giữa các giao dịch được đề xuất, từ đó các giao dịch có
khoảng cách gần nhau sẽ được gộp lại với nhau. Do kích thước CSDL thu được nhỏ
hơn kích thước CSDL ban đầu, giúp cho thời gian khai phá giảm.
16
Chương 3: Việc phân chia miền giá trị của các thuộc tính định lượng có ý
nghĩa quan trọng và ảnh hưởng đến ý nghĩa của các luật kết hợp trong bài toán khai
phá luật kết hợp mờ. Trong chương này, luận án sử dụng lý thuyết ĐSGT, mỗi thuộc
tính định lượng sử dụng một ĐSGT. Dựa vào giá trị định lượng ngữ nghĩa của các
phần tử ĐSGT và khoảng tính mờ để xây dựng các hàm thuộc cho các thuộc tính định
lượng. Chúng ta sử dụng biểu diễn đơn thể hạt và đa thể hạt để xây dựng các hàm
thuộc cho các thuộc tính, các hàm thuộc có dạng hình tam giác. Nhằm mục đích thu
được các luật kết hợp có ý nghĩa, luận án sử dụng giải thuật GA để tìm ra các tham
số của ĐSGT. Với cách tiếp cận này, các luật kết hợp được khai phá sẽ phản ánh
phong phú và đa dạng hơn tri thức ẩn chứa trong kho thông tin được khai phá, từ
những tri thức có tính khái quát cao cho đến những tri thức mang tính riêng biệt, chi
tiết hơn.
17
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ
1.1. Tập mờ và các phép toán trên tập mờ
Lý thuyết tập mờ được Zadeh thiết lập lần đầu năm 1965 trong [40]. Khái niệm
tập mờ là một mở rộng của lý thuyết tập hợp cổ điển và được dùng trong lôgic mờ.
Trong lý thuyết tập hợp cổ điển, quan hệ thành viên của các phần tử trong một tập
hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử hoặc
thuộc hoặc không thuộc về tập hợp. Mở rộng ra trong lý thuyết tập mờ, ngữ nghĩa
của mỗi từ mờ được biểu diễn bằng một hàm từ tập vũ trụ U vào đoạn [0, 1] và hàm
đó gọi là tập mờ trên U. Với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều có thể
thuộc về nó với mực độ thuộc được đo bởi một giá trị trong đoạn [0, 1].
1.1.1. Tập mờ (fuzzy set)
Định nghĩa 1.1: [40] Cho U là vũ trụ các đối tượng. Tập mờ A trên U là tập
các cặp có thứ tự (x, μA(x)), với μA(x) là hàm từ U vào [0, 1] gán cho mỗi phần tử x
thuộc U giá trị μA(x) phản ảnh mức độ thuộc của x thuộc vào tập mờ A.
Nếu 𝜇𝐴(𝑥) = 0 thì ta nói x hoàn toàn không thuộc tập A, ngoài ra nếu 𝜇𝐴(𝑥) =
1 thì ta nói x thuộc hoàn toàn vào A. Trong Định nghĩa 1.1, hàm 𝜇 còn được gọi là
hàm thuộc (membership function).
Khi xây dựng các hàm thuộc của tập mờ A nào đó, một yêu cầu đặt ra là giá
trị của nó phải biến thiên từ 0 đến 1. Trong các ứng dụng lý thuyết tập mờ ta thường
sử dụng một số dạng hàm thuộc dưới đây cho tập mờ A:
Hàm thuộc dạng tam giác: 𝜇𝐴(𝑥) = 𝑚𝑎𝑥 (𝑚𝑖𝑛 (𝑥−𝑎
𝑏−𝑎,𝑐−𝑥
𝑐−𝑏) , 0). Trong đó a, b,
c lần lượt là chân bên trái, đỉnh và chân bên phải của tam giác.
Hàm thuộc dạng hình thang: 𝜇𝐴(𝑥) = 𝑚𝑎𝑥 (𝑚𝑖𝑛 (𝑥−𝑎
𝑏−𝑎,𝑑−𝑥
𝑑−𝑐, 1) , 0). Trong đó
a, d lần lượt là đỉnh dưới bên trái, bên phải, b, c lần lượt là đỉnh trên bên trái, bên phải
của hình thang.
Hàm thuộc Gauss: 𝜇𝐴(𝑥) = 𝑒−(𝑏−𝑥)2
2𝑐2 . Trong đó c là độ rộng và b là vị trí đỉnh
của hàm.
Trong các dạng hàm thuộc của các tập mờ ở trên, hàm thuộc dạng tam giác
được sử dụng nhiều nhất do nó đơn giản và dễ hiểu với người dùng.
18
Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được
mở rộng cho các tập mờ [1, 35, 41]. Theo đó, các phép toán như t-norm, t-conorm,
negation và phép kép theo,... trong logic mờ được đề xuất, nghiên cứu chi tiết cung
cấp cho các mô hình ứng dụng giải các bài toán thực tế.
1.1.2. Biến ngôn ngữ
Biến ngôn ngữ là một biến có thể gán các từ trong ngôn ngữ cho giá trị của nó.
Các từ được đặc trưng bởi định nghĩa tập mờ trong miền xác định mà ở đó biến được
định nghĩa. Các biến ngôn ngữ cho phép biểu diễn một miền các giá trị số dưới dạng
thuật ngữ miêu tả đơn giản của hệ mờ. Ví dụ: tuổi của con người có thể xem đây là
biến ngôn ngữ có tên gọi TUỔI và nó nhận các giá trị ngôn ngữ như: “già”, “rất già”,
“trung bình”, “trẻ”, ”rất trẻ”,... Tương ứng với mỗi hàm thuộc sẽ được gán một giá
trị ngôn ngữ. Giả sử lấy giới hạn của tuổi thông thường trong khoảng [1, 120] và giả
sử rằng các giá trị ngôn ngữ được sinh ra bởi một tập các luật. Khi đó, một cách hình
thức, chúng ta có định nghĩa của biến ngôn ngữ sau đây:
Định nghĩa 1.2: [13] Biến ngôn ngữ là một bộ gồm năm thành phần (X,T(X),
U, R, M), trong đó X là tên biến, 𝑇(𝑋) là tập các giá trị ngôn ngữ của biến X, U là
không gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến
mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn
ngữ cho tập 𝑇(𝑋), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong 𝑇(𝑋) với
một tập mờ trên U.
Ví dụ 1.1: Từ định nghĩa trên, nếu biến ngôn ngữ X là biến TUỔI, biến cơ sở
của u có miền xác định là 𝑈 = [1,120] tính theo tuổi. Tập các giá trị ngôn ngữ tương
ứng của biến ngôn ngữ là 𝑇(𝑇𝑈Ổ𝐼) = {𝑇𝑟ẻ, 𝑇𝑟𝑢𝑛𝑔 𝑛𝑖ê𝑛, 𝐺𝑖à}. R là một qui tắc để
sinh ra các giá trị này. M là luật gán ngữ nghĩa sao cho mỗi một giá trị ngôn ngữ sẽ
được gán với một tập mờ. Chẳng hạn, đối với giá trị nguyên thuỷ “già”, 𝑀(𝐺𝑖à) =
{(𝑢, 𝜇𝐺𝑖à(𝑢))| 𝑢 ∈ [1,120]}, được gán như sau:
𝜇𝐺𝑖à(𝑢) = {
0 𝑢 ≤ 40𝑢 − 40
12040 < 𝑢 ≤ 55
1 55 ≤ 𝑢
19
Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già
1.1.3. Phân hoạch mờ
Chúng ta có định nghĩa phân hoạch mờ như sau:
Định nghĩa 1.3: [36] Cho m điểm cố định 𝑝1, 𝑝2, … , 𝑝𝑚 thuộc tập 𝑈 =
[𝑎, 𝑏] ⊂ 𝑅, 𝑝1 = 𝑎, 𝑝𝑚 = 𝑏 là không gian tham chiếu của biến cơ sở 𝑢 của biến
ngôn ngữ 𝑋. Khi đó một tập 𝑇 gồm m tập mờ 𝐴1, 𝐴2, … , 𝐴𝑚 định nghĩa trên 𝑈 (với
hàm thuộc tương ứng là 𝜇𝐴1 , 𝜇𝐴2,..., 𝜇𝐴𝑚) được gọi là một phân hoạch mờ của 𝑈 nếu
các điều kiện sau thoả mãn, ∀𝑘 = 1, … ,𝑚:
1) 𝜇𝐴𝑘(𝑝𝑘) (𝑝𝑘 thuộc về phần được gọi là lõi của 𝐴𝑘);
2) Nếu x ∉ [𝑝𝑘−1, 𝑝𝑘+1] thì 𝜇𝐴𝑘(𝑥) = 0 (trong đó 𝑝0 = 𝑝1 = 𝑎 và 𝑝𝑝+1 =
𝑝𝑝 = 𝑏);
3) 𝜇𝐴𝑘(𝑥) là liên tục;
4) 𝜇𝐴𝑘(𝑥) đơn điệu tăng trên [𝑝𝑘−1, 𝑝𝑘];
5) ∀𝑥 ∈ 𝑈, ∃𝑘, sao cho 𝜇𝐴𝑘(𝑥) > 0;
Nếu phân hoạch mờ thoả mãn thêm điều kiện 6) dưới đây thì được gọi là phân
hoạch mờ mạnh.
6) ∀𝑥𝜖𝑈,∑ 𝜇𝐴𝑘(𝑥) = 1𝑚𝑘=1 ;
Nếu phân hoạch mờ thoả mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi
là phân hoạch đều.
7) Với 𝑘 ≠ 𝑚 thì ℎ𝑘 = 𝑝𝑘+1 − 𝑝𝑘= hằng số
8) Các tập mờ 𝜇𝐴𝑘(𝑥) là hàm đối xứng
9) Các tập mờ 𝜇𝐴𝑘(𝑥) có cùng một dạng hình học
Mỗi phân hoạch mờ theo định nghĩa Định nghĩa 1.3 còn được gọi là một thể
hạt (granularity), một phân hoạch mờ gồm một thể hạt gọi là phân hoạch mờ đơn thể
20
hạt (single granularity), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ
đa thể hạt (multi granularity).
Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt
Để thiết kế các phân hoạch mờ, chúng ta có thể tiếp cận theo hai hướng: lý
thuyết tập mờ và tiếp cận theo lý thuyết ĐSGT [19, 49]. Theo tiếp cận lý thuyết tập
mờ việc thiết kế phân hoạch mờ là đi xác định các tập mờ cho mỗi phân hoạch rồi
gắn cho nó một nhãn ngôn ngữ. Quá trình thiết kế tập mờ không xuất phát từ ngữ
nghĩa của từ ngôn ngữ và không có ràng buộc liên kết giữa nhãn ngôn ngữ và tập mờ.
Theo tiếp cận lý thuyết ĐSGT khắc phục được một số nhước điểm của lý thuyết tập
mờ, việc thiết kế phân hoạch mờ là đi xác định các từ ngôn ngữ và ngữ nghĩa của từ
sử dụng trong phân hoạch.
Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt
Quá trình này được thực hiện dựa trên ngữ nghĩa của miền ngôn ngữ và dựa
trên hệ hình thức hóa của ĐSGT. Phương pháp thiết kế phân hoạch sử dụng ĐSGT
phù hợp với cấu trúc vốn có của ngôn ngữ tự nhiên.
21
Hình 1.2 là một cấu trúc phân hoạch mờ dạng đơn thể hạt, Hình 1.3 là một cấu
trúc phân hoạch mờ dạng đa thể hạt.
Thiết kế phân hoạch miền giá trị của các thuộc tính sử dụng biểu diễn dạng đa
thể hạt có ưu điểm là các từ có ngữ nghĩa từ khái quát đến đặc tả. Vì vậy nó phù hợp
với ngữ nghĩa vốn có của từ trong thế thế giới thực hơn.
1.2. Đại số gia tử
Để hiểu ý nghĩa của ĐSGT ta hãy lấy biến số 𝑥𝑁 nhận giá trị số thực trên một
khoảng [a, b], định ý biến tốc độ chẳng hạn. Nó mô phỏng một biến của thế giới thực
𝑥𝑅 (Reality). Con người cũng có thể mô tả biến 𝑥𝑅 bằng một biến ngôn ngữ XL sử
dụng các giá trị ngôn ngữ. Vì miền của biến 𝑥𝑁, Dom(𝑥𝑁) có thứ tự tuyến tính, nên
thực tế ta thấy miền ngôn ngữ của XL, Dom(XL), cũng có thức tự tuyến tính và, dó đó,
nó là một cấu trúc toán học. ĐSGT là một lý thuyết nhằm phát hiện và làm rõ cấu
trúc toán học, cụ thể là cấu trúc đại số của miền ngôn ngữ Dom(XL), trong đó các gia
tử như very, rather,… đóng vai trò là các phép tính một ngôi, chẳng hạn “very fast”,
“very rather slow”,…
1.2.1. Khái niệm Đại số gia tử
Định nghĩa 1.4: [19, 49] Một ĐSGT được ký hiệu là bộ 4 thành phần được ký
hiệu 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤) trong đó G là tập các phần tử sinh, H là tập các gia tử (hedge)
còn " ≤ " là quan hệ cảm sinh ngữ nghĩa trên X. Giả thiết trong G có chứa các phần
tử hằng 0, W, 1 với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hoà
(neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ 𝑥 ∈ 𝑋 là một hạng từ (term) trong
ĐSGT.
Tập H được chia thành hai tập con rời nhau, ký hiệu là H− và H+, trong đó H−
là tập gia tử âm (các gia tử làm giảm ngữ nghĩa của các phần tử sinh). H+ là tập các
gia tử dương (các gia tử làm tăng ngữ nghĩa của các phần tử sinh). Không mất tính
tổng quát, ta luôn giả thiết rằng H− = {h−1 < h−2 < ⋯ < h−q} và H+ =
{h1 < h2 < ⋯ < hp}.
Khi tác động gia tử h ∈ H vào phần tử x ∈ X, thì thu được phần tử ký hiệu hx.
Với mỗi x ∈ X, ký hiệu H(x) là tập tất cả các hạng từ u ∈ X được sinh từ ngôn ngữ x
bằng cách áp dụng các gia tử trong H và viết u = hn…h1x với hn,..., h1 ∈ H, n ≥ 1.
22
Nếu tập X và H là các tâp sắp xếp thứ tự tuyến tính, khi đó AX = (X, G, H,≤)
gọi là ĐSGT tuyến tính. Và nếu được trang bị thêm hai gia tử giới hạn là 𝜎 và 𝜙 với
ngữ nghĩa là cận trên đúng bà cận dưới đúng của tập H(x) khi tác động lên x, thì ta
được ĐSGT tuyến tính đầy đủ, ký hiệu AX∗ = (X, G, H, σ, ϕ,≤). Lưu ý rằng
hn…h1u được gọi là một biểu diễn chính tắc của một hạng từ x đối với u nếu
x = hn…h1u và hi…h1u ≠ hi−1…h1u với i nguyên và i ≤ n. Ta gọi độ dài của một
hạng từ 𝑥 là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm
1, kí hiệu l(x).
Ví dụ 1.2: Cho biến ngôn ngữ TRUTH, có G = {0, FALSE,W, TRUE, 1}, H− =
{Possible, Little} và H+ = {More, Very}. Khi đó giá trị của các ngôn ngữ được sắp
xếp thứ tự như sau: Very false < More false < false <Possible false <Little false< true
< More true < Verry true.
1.2.2. Một số tính chất của ĐSGT tuyến tính
Định lý 1.1: [19, 49] Cho tập H− và H+ là các tập có sắp thứ tự tuyến tính của
ĐSGT 𝐴𝑋 = (X, G, H,≤). Khi đó ta có các khẳng định sau:
i) Với mỗi 𝑢 ∈ 𝑋 thì 𝐻(𝑢) là tập sắp thứ tự tuyến tính.
ii) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X
cũng là tập sắp thứ tự tuyến tính. Hơn nữa nếu 𝑢 < 𝑣, và 𝑢, 𝑣 là độc lập với nhau, tức
là 𝑢 ∉ 𝐻(𝑣) và 𝑣 ∉ 𝐻(𝑢), thì 𝐻(𝑢) ≤ 𝐻(𝑣).
Định lý dưới đây xem xét sự so sánh của hai hạng từ trong niền ngôn ngữ của
biến X. Trong đó I là gia tử đơn vị, khi tác động lên một hạng từ không sinh ngữ
nghĩa mới.
Định lý 1.2: [19, 49] Cho 𝑥 = ℎ𝑛…ℎ1𝑢 và 𝑦 = 𝑘𝑛…𝑘1𝑢 là hai biểu diễn
chính tắc của 𝑥 và 𝑦 đối với 𝑢. Khi đó tồn tại chỉ số 𝑗 ≤ 𝑚𝑖𝑛{ 𝑛,𝑚 } + 1 sao cho
ℎ𝑗′ = 𝑘𝑗′ với mọi 𝑗′ < 𝑗 (ở đây nếu 𝑗 = 𝑚𝑖𝑛{𝑛,𝑚} thì hoặc ℎ𝑗 = 𝐼), ℎ𝑗 là gia tử đơn
vị 𝐼, với 𝑗 = 𝑛 + 1 ≤ 𝑚 hoặc 𝑘𝑗 = 𝐼 với 𝑗 = 𝑚 + 1 ≤ 𝑛 và
i) 𝑥 < 𝑦 khi và chỉ khi ℎ𝑗𝑥𝑗 < 𝑘𝑗𝑥𝑗, trong đó 𝑥𝑗 = ℎ𝑗−1ℎ1𝑢.
ii) 𝑥 = 𝑦 khi và chỉ khi m = n và ℎ𝑗𝑥𝑗 = 𝑘𝑗𝑥𝑗
iii) x và y là không so sánh được với nhau khi và chỉ khi ℎ𝑗𝑥𝑗 và 𝑘𝑗𝑥𝑗 là không
so sánh được với nhau.
23
1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ
Theo phương pháp tiếp cận tập mờ, các gái trị định lượng của mỗi tập mờ là
giá trị khử mờ của hàm thuộc tương ứng. Vì các giá trị ngôn ngữ có thứ tự theo ngữ
nghĩa của nó nên trong ĐSGT đã thiết lập một hàm định lượng ngữ nghĩa của các từ
với các giá trị nằm trong đoạn [0,1], các gái trị tương ứng với các từ đảm bảo thứ tự
này.
Định nghĩa 1.5: [19, 49] Cho AX = (X, G, H,≤) là một ĐSGT tuyến tính. Ánh
xạ 𝑣𝔵: 𝑋 → [0,1] được gọi là một hàm định lượng ngữ nghĩa của AX nếu:
(i) 𝑣𝔵 là ánh ạ 1-1 từ tập X vào đoạn [0,1] và bảo toàn thứ tự trên X, tức là
∀𝑥, 𝑦 ∈ 𝑋, 𝑥 < 𝑦 ⇒ 𝑣𝔵(𝑥) < 𝑣𝔵(𝑦) và 𝔳𝔵(0) = 0, 𝔳𝔵(1) = 1.
(ii) 𝑣(𝑋) liên tục: trù mật trong [0,1], nghĩa là ∀(𝑎, 𝑏) ≠ ∅ và (𝑎, 𝑏) ⊆ [0,1],
(𝑎, 𝑏) ∩ 𝑣𝔵(𝑋) ≠ ∅.
Điều kiện (𝑖) là bắt buộc tối thiểu đối với bất kỳ phương pháp định lượng nào,
còn điều kiện (𝑖𝑖) đảm bảo tính trù mật của H(G) trong X. Dựa trên những ràng buộc
này, các tác giả trong [25] đã xây dựng một phương pháp định lượng ngữ nghĩa của
các hạng từ trong ĐSGT. Trước hết chúng ta xét định nghĩa về dấu của các hạng từ
sau:
Định nghĩa 1.6: [19, 49] Một hàm dấu 𝑆𝑖𝑔𝑛: 𝑋 {−1,0,1} là một ánh xạ
được định nghĩa đệ qui như sau, trong đó ℎ, ℎ′ 𝐻 và 𝑐 {𝒄−, 𝒄+}:
(1) 𝑆𝑖𝑔𝑛(𝑐−) = −1, 𝑆𝑖𝑔𝑛(𝑐+) = 1;
(2) 𝑆𝑖𝑔𝑛(ℎ𝑐) = −𝑆𝑖𝑔𝑛(𝑐) nếu h âm đối với c; 𝑆𝑖𝑔𝑛(ℎ𝑐) = 𝑆𝑖𝑔𝑛(𝑐) nếu h
dương đối với c;
(3) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = −𝑆𝑖𝑔𝑛(ℎ𝑥), nếu ℎ′ℎ𝑥 ℎ𝑥 và ℎ′ âm đối với ℎ;
𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 𝑆𝑖𝑔𝑛(ℎ𝑥), nếu ℎ′ℎ𝑥 ℎ𝑥 và ℎ′ dương đối với ℎ;
(4) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 0, nếu ℎ′ℎ𝑥 = ℎ𝑥.
Dựa trên hàm dấu này, chúng ta có tiêu chuẩn để so sánh ℎ𝑥 và 𝑥.
Mệnh đề 1.1: [19, 49] Với bất kỳ ℎ và 𝑥, nếu 𝑆𝑖𝑔𝑛(ℎ𝑥) = 1 thì ℎ𝑥 > 𝑥; nếu
𝑆𝑖𝑔𝑛(ℎ𝑥) = -1 thì ℎ𝑥 < 𝑥.
Định nghĩa 1.7: [19, 49] Cho AX là một ĐSGT tuyến tính đầy đủ và 𝑓𝑚 là
một độ đo tính mờ trên X. Ta nói ánh xạ 𝔳𝔵: 𝑋 [0,1] được cảm sinh bởi độ đo tính
mờ 𝑓𝑚 nếu được định nghĩa bằng đệ qui như sau:
24
(1) 𝑣𝔵(𝑊) = = 𝑓𝑚(𝑐−), 𝑣𝔵(𝑐−) = – . 𝑓𝑚(𝑐−) = . 𝑓𝑚(𝑐−),
𝑣(𝑐+) = + . 𝑓𝑚(𝑐+);
(2) 𝑣𝔵(ℎ𝑗𝑥) = 𝑣𝔵(𝑥) + 𝑆𝑖𝑔𝑛(ℎ𝑗𝑥) {∑ 𝜇(ℎ𝑖)𝑓𝑚(𝑥) −𝑖−𝑠𝑖𝑔𝑛(𝑗)𝑖=𝑠𝑖𝑔𝑛(𝑗)
𝜔(ℎ𝑗𝑥)𝜇(ℎ𝑗)𝑓𝑚(𝑥)};
Với mọi j, −𝑞 ≤ 𝑗 ≤ 𝑝 và 𝑗 0, trong đó 𝜔(ℎ𝑗𝑥) =1
2[1 +
𝑆𝑖𝑔𝑛(ℎ𝑗𝑥) 𝑆𝑖𝑔𝑛(ℎ𝑝ℎ𝑗𝑥) (𝛽 − 𝛼)] ∈ {𝛼, 𝛽}
Với định nghĩa này, các tác giả trong [25] đã chứng minh nó thỏa mãn các yêu
cầu của một hàm định lượng ngữ nghĩa và đảm bảo tính trù mật của nó đối với các
hạng từ của AX trong đoạn [0,1].
Ví dụ 1.3: Xét ĐSGT 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙,≤) là một ĐSGT tuyến tính đầy
đủ của biến ngôn ngữ TUỔI với 𝐻 = {𝑉, 𝐿} và 𝐺 = {𝑦𝑜𝑢𝑛𝑔, 𝑜𝑙𝑑}. Với các tham số
được như sau: 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 35: 80 = 0.4375; 𝑓𝑚(𝑜𝑙𝑑) = 1 – 𝑓𝑚(𝑜𝑙𝑑) =
0.5625; Độ đo tính mờ của gia tử được cho là: 𝜇(𝐿) = 0.5; 𝜇(𝑉) = 0.5; Vì vậy, 𝑞 =
𝑝 = 1 và 𝛼 = 𝛽 = 0.5. Ta có thể tính được giá trị định lượng ngữ nghĩa của một số
hạng tử ngôn ngữ của TUỔI như sau:
Cho 𝑥 = 𝑦𝑜𝑢𝑛𝑔, ta có:
𝑣(𝑦𝑜𝑢𝑛𝑔) = 𝛽 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 0.5 𝑥 0.4375 = 0.21875. Với miền của
TUỔI là [0, 80], giá trị thực của trẻ là 80 𝑥 0.21875 = 17.5;
𝑣(𝑜𝑙𝑑) = 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) + 𝛼 𝑓𝑚(𝑜𝑙𝑑) = 0.4375 + 0.5 ∗ 0.5625 = 0.6875
và giá trị thực của già là 57.5;
𝑣(𝑉 𝑦𝑜𝑢𝑛𝑔) = 0.109375, giá trị thực của V young là 8.75
𝑣(𝐿 𝑦𝑜𝑢𝑛𝑔) = 0.328125, giá trị thực của L young là 26.25
𝑣(𝐿 𝑜𝑙𝑑) = 0.578125, giá trị thực của L old là 46.25
𝑣(𝑉 𝑜𝑙𝑑) = 0.859375, giá trị thực của V old là 68.75
1.2.4. Khoảng mờ
Khoảng tính mờ (fuzziness interval) của các khái niệm mờ là một khái niệm
rất quan trọng làm cơ sở cho việc nghiên cứu và xây dựng các mô hình ứng dụng.
Trong ĐSGT, dựa trên độ đo tính mờ 𝑓𝑚, chúng ta sẽ định nghĩa khoảng tính mờ của
các hạng từ. Gọi Itv([0, 1]) là họ các đoạn con của đoạn [0,1], ký hiệu || là độ dài
của đoạn "".
25
Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH
Định nghĩa 1.8: [25] Khoảng tính mờ của các hạng từ 𝑥 ∈ 𝑿, ký hiệu ℑ𝑓𝑚(𝑥),
là một đoạn con của đoạn [0,1], ℑ𝑓𝑚(𝑥) ∈ 𝐼𝑡𝑣([0,1]). Nếu nó có độ dài bằng độ đo
tính mờ, |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(𝑥), và được xác định bằng qui nạp theo độ dài của x như
sau:
(i) Với độ dài của x bằng 1 (𝑙(𝑥) = 1), tức là 𝑥 ∈ {𝑐−, 𝑐+}, khi đó |ℑ𝑓𝑚(𝑐−)| =
𝑓𝑚(𝑐−), |ℑ𝑓𝑚(𝑐+)| = 𝑓𝑚(𝑐+), và ℑ𝑓𝑚(𝑐
−) ≤ ℑ𝑓𝑚(𝑐+);
(ii) Giả sử 𝑥 có độ dài 𝑛 (𝑙(𝑥) = 𝑛) và khoảng tính mờ ℑ𝑓𝑚(𝑥) đã được định
nghĩa với |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(𝑥). Khi đó tập các khoảng tính mờ {|ℑ𝑓𝑚(ℎ𝑗𝑥)| : − 𝑞 ≤
𝑗 ≤ 𝑝 𝑣à 𝑗 ≠ 0} ⊂ 𝐼𝑡𝑣([0,1]) được xây dựng sao cho nó là một phân hoạch của
ℑ𝑓𝑚(𝑥), và thoả mãn |ℑ𝑓𝑚(𝑥)| = 𝑓𝑚(ℎ𝑗𝑥) và có thứ tự tuyến tính tương ứng với
thứ tự của tập {ℎ−𝑞𝑥, ℎ−𝑞+1𝑥,… , ℎ𝑝𝑥} tức là nếu ℎ−𝑞𝑥 > ℎ−𝑞+1𝑥 > ⋯ > ℎ𝑝𝑥 thì
ℑ𝑓𝑚(ℎ−𝑞𝑥) > ℑ𝑓𝑚(ℎ−𝑞+1𝑥) > ⋯ > ℑ𝑓𝑚(ℎ𝑝𝑥) và ngược lại (xem Hình 1.4). Dễ
dạng thấy rằng hệ phân hoạch như vậy luôn tồn tại dựa vào tính chất 𝑖) trong Mệnh
đề 1.2.
Trường hợp độ dài của 𝑥 bằng 𝑘, 𝑙(𝑥) = 𝑘, ta có ký hiệu ℑ𝑘(𝑥) thay cho
ℑ𝑓𝑚(𝑥), khi đó ta nói khoảng cách tính mờ của 𝑥 có độ sâu 𝑘 hay khoảng tính mờ
mức 𝑘.
1.2.5. Độ đo tính mờ của các giá trị ngôn ngữ
Khái niệm độ đo tính mờ của giá trị ngôn ngữ là một khái niệm trừu tượng
không dễ dàng để xác định bằng trực giác và có nhiều phương pháp tiếp cận khác để
xác định khái niệm này. Trong lý thuyết tập mờ, các phương pháp tiếp cận chủ yếu
u(True) u(LTr) u(PTr) u(MTr) u(VTr)
2(LTr) 2(PTr) 2(MTr) 2(VTr)
3(VLTr)
3(MLTr)
3(PLTr)
3(LLTr)
3(LPTr) 3(MPTr) 3(LMTr) 3(MMTr
)
3(LVTr) 3(MVTr)
3(PPTr) 3(VPTr) 3(PMTr) 3(VMTr) 3(PVTr) 3(VVTr)
26
là dựa trên hình dạng của tập mờ. Tuy nhiên, trong ĐSGT các tác giả đã đưa ra một
phương pháp xác định độ đo tính mờ một cách hợ lý: “tính mờ của một hạng từ 𝑥
được hiểu như là ngữ nghĩa của nó vẫn có thể được thay đổi khi tác động vào nó bằng
gia tử khác” [19, 25, 49]. Do đó, tập các hạng từ sinh ra từ 𝑥 bằng các gia tử sẽ thể
hiện cho tính mờ của x và do đó, 𝐻(𝑥) có thể sử dụng như là một mô hình biểu thị
tính mờ của 𝑥 và kích thước tập 𝐻(𝑥) được xem như độ đo tính mờ của 𝑥. Ta có định
nghĩa sau về độ đo tính mờ.
Định nghĩa 1.9: [19, 25, 49] Cho 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙, ≤) là một ĐSGT
tuyến tính đầy đủ. Ánh xạ 𝑓𝑚: 𝑋 → [0,1] được gọi là một độ đo tính mờ của các hạng
từ trong 𝑋 nếu:
(i) 𝑓𝑚 là đầy đủ, tức là 𝑓𝑚(𝑐−) + 𝑓𝑚(𝑐+) = 1 và ∑ 𝑓𝑚(ℎ𝑢) = 𝑓𝑚(𝑢)ℎ∈𝐻 ,
∀𝑢 ∈ 𝑋;
(ii) 𝑓𝑚(𝑥) = 0, với các x thoả 𝐻(𝑥) = {𝑥} và 𝑓𝑚(0) = 𝑓𝑚(𝑊) = 𝑓𝑚(1) =
0;
(iii) ∀𝑥, 𝑦 ∈ 𝑋, ∀ℎ ∈ 𝐻, ký hiệu 𝜇(ℎ) =𝑓𝑚(ℎ𝑥)
𝑓𝑚(𝑥)=
𝑓𝑚(ℎ𝑦)
𝑓𝑚(𝑦), tỷ số này không phụ
thuộc vào x và y, và nó được gọi là độ đo tính mờ của các giá tử.
Trong đó, 𝑐− và 𝑐+ là phần tử sinh âm và phần tử sinh dương, điều kiện (𝑖)
thể hiện tính đầy đủ của các phần tử sinh và các gia tử cho việc biểu diễn ngữ nghĩa
của miền thực đối với các biến, (𝑖𝑖) thể hiện tính rõ của các hạng từ và (𝑖𝑖𝑖) có thể
được chấp nhận vì chúng ta đã chấp nhận giả thiết rằng các gia tử là độc lập với ngữ
cảnh và vì vậy, khi áp dụng một gia tử ℎ lên các hạng từ thì hiểu quả tác động làm
thay đổi ngữ nghĩa của các hạng đó là như nhau.
Hình 1.5: Độ đo tính mờ của biến TRUTH
27
Hình 1.5: minh hoạ rõ hơn cho khái niệm độ đo tính mờ của biến ngôn ngữ
TRUTH.
Các tính chất của độ đo tính mờ của các hạng từ và gia tử được thể hiện qua
mệnh đề sau:
Mệnh đề 1.2: [19, 25, 49] Với độ đo tính mờ 𝑓𝑚 và 𝜇 đã được định nghĩa
trong Định nghĩa 1.9, ta có:
(i) 𝑓𝑚(𝑐−) + 𝑓𝑚(𝑐+) = 1 và ∑ 𝑓𝑚(ℎ𝑥) = 𝑓𝑚(𝑥)ℎ∈𝐻 ;
(ii) ∑ 𝜇(ℎ𝑗) = 𝛼−1𝑗=−𝑞 , ∑ 𝜇(ℎ𝑗) = 𝛽
𝑝𝑗=1 , với 𝛼, 𝛽 > 0 và 𝛼 + 𝛽 = 1;
(iii) ∑ 𝑓𝑚(𝑥) = 1𝑥∈𝑋𝑘, trong đó 𝑋𝑘 là tập các hạng từ có độ dài đúng k;
(iv) 𝑓𝑚(ℎ𝑥) = 𝜇(ℎ). 𝑓𝑚(𝑥), và ∀𝑥 ∈ 𝑋, 𝑓𝑚(𝛿𝑥) = 𝑓𝑚(𝜙𝑥) = 0;
(v) Cho 𝑓𝑚(𝑐−), 𝑓𝑚(𝑐+) và 𝜇(ℎ) với ∀ℎ ∈ 𝐻, khi đó với 𝑥 = ℎ𝑛…ℎ1c, ∀𝑐 ∈
{𝑐−, 𝑐+}, dễ dạng tính được độ đo tính mờ của x như sau: 𝑓𝑚(𝑥) =
𝜇(ℎ𝑛)𝜇(ℎ1)𝑓𝑚(𝑐).
Ví dụ 1.4: Cho 𝐴𝑋∗ = (𝑋, 𝐺, 𝐻, 𝜎, 𝜙,≤) là một ĐSGT tuyến tính đầy đủ của
biến ngôn ngữ TUỔI với 𝐻 = {𝑉, 𝐿} và 𝐺 = {𝑦𝑜𝑢𝑛𝑔, 𝑜𝑙𝑑}. Bây giờ chúng ta sẽ tính
độ đo tính mờ cho các phần tử của 𝐴𝑋∗ mà độ dài không quá 2. Thông thường, tuổi
của con người từ 0 đến 35 được gọi là trẻ, từ 36 đến 80 được gọi là già, ta có các tham
số được định nghĩa như sau: 𝑓𝑚(𝑦𝑜𝑢𝑛𝑔) = 35: 80 = 0.4375; 𝑓𝑚(𝑜𝑙𝑑) =
1 – 𝑓𝑚(𝑜𝑙𝑑) = 0.5625; Độ đo tính mờ của gia tử được cho là: 𝜇(𝐿) = 0.6; 𝜇(𝑉) =
0.4; Theo công thức 𝑓𝑚(ℎ𝑥) = 𝜇(ℎ). 𝑓𝑚(𝑥), ta tính độ đo tính mờ của các hạng từ
như sau:
V young young L young W L old old V old
0.2625 0.4375 0.2625 0 0.1750 0.5625 0.225
1.3. Giải thuật di truyền
Giải thuật di truyền (GA-Genetic Algorithm) là kỹ thuật phỏng theo quá trình
thích nghi tiến hóa của các quần thể sinh học dựa trên học thuyết Darwin [44]. GA là
phương pháp tìm kiếm tối ưu ngẫu nhiên bằng cách mô phỏng theo sự tiến hóa của
con người hay của sinh vật. GA đã bước đầu được áp dụng thành công trong các
trường hợp, mà việc mô tả toán học cho bài toán gặp rất nhiều khó khăn. Ngày nay,
GA đã và đang được ứng dụng để giải quyết trong một số ngành như tin sinh học,
khoa học máy tính, trí tuệ nhân tạo, tài chính và một số ngành khác.
28
Hình 1.6: Lưu đồ giải thuật di truyền
Giải thuật di truyền cơ bản gồm các bước sau:
Bước 1: Khởi tạo một quần thể ban đầu gồm các chuỗi nhiễm sắc thể.
Bước 2: Xác định giá trị hàm mục tiêu cho từng nhiễm sắc thể tương ứng trong
quần thể.
Bước 3: Tạo quần thể mới bằng cách lại ghép tréo (crossover) từ các cá thể
hiện tại có cọn lọc (selection), đồng thời tạo ra các đột biến (mutation) trong quần thể
mới theo một xác suất nhất định.
Bước 4: Xác định hàm mục tiêu cho các nhiễm sắc thể mới. Các cá thể trong
quần thể mới sinh ra được thay thế cho các cá thể cũ trong quần thể cũ bằng cách loại
bớt các nhiễm sắc thể có độ thích nghi thấp.
Bước 5: Kiểm tra thỏa mãn điều kiện dừng. Nếu điều kiện đúng, lấy ra nhiễm
sắc thể tốt nhất, giải thuật dừng lại; ngược lại, quay về bước 3.
Đúng
Sai
Khởi tạo quần thể
Mã hóa các biến
Đánh giá độ thích nghi
Chọn lọc
Lai ghép
Đột biến
Thỏa điều
kiện dừng
Kết quả
Bắt đầu
Kết thúc
29
Trong luận án sử dụng giải thuật di truyền theo mô hình CHC [10]. Các cá thể
của quần thể hiện tại khởi nguồn cho quần thể thế hệ kế tiếp bằng các phép chọn lọc
(Population-based Selection). Từ N cá thể cha mẹ và con cái tương ứng để chọn N cá
thể tốt nhất để sản sinh thế hệ kế tiếp. Mô hình CHC có sử dụng cơ chế tránh lai tại
cận huyết và khởi tạo lại quần thể để kích thích sự đa dạng của quần thể thay vì phép
toán đột biến. Cơ chế tránh lai tạo cận huyết sử dụng trong phép toán lai tạo, cá thể
bố mẹ sẽ được lại tạo nếu như khoảng cách hamming giữa hai cá thể này nhỏ hơn
một ngưỡng cho trước.
1.4. Bài toán khai phá luật kết hợp
1.4.1. Một số khái niệm cơ bản
Cho 𝐼 = {𝐼1, 𝐼2, . . , 𝐼𝑚} là tập hợp của m thuộc tính nhị phân gọi là các mục.
𝐷 = {𝑡1, 𝑡2, … , 𝑡𝑛} là tập các giao dịch gọi là cơ sở dữ liệu giao dịch. Mỗi giao dịch
trong D chứa tập con T các mục trong I (𝑇 ⊆ 𝐼), các bản ghi đều có chỉ số riêng.
Một luật kết hợp là một mệnh đề kéo theo có dạng 𝑋 → 𝑌, trong đó 𝑋, 𝑌 ⊆ 𝐼, thỏa
mãn điều kiện 𝑋 ∩ 𝑌 = ∅ Các tập hợp X và Y được gọi là các tập mục (itemset). Tập
X được gọi là tiên đề, tập Y được gọi là hệ quả của luật [21].
Định nghĩa 1.10: Luật kết hợp
Một luật kết hợp là một mệnh đề có dạng 𝑋 → 𝑌, trong đó 𝑋, 𝑌 𝐼 trong đó X
và Y được gọi là các tập mục (itemsets), thỏa mãn điều kiện 𝑋 ∩ 𝑌 = ∅. Tập X gọi là
nguyên nhân, tập Y gọi là hệ quả.
Độ hỗ trợ (support) và độ tin cậy (confidence) là hai độ đo quan trọng của luật
kết hợp được định nghĩa như phần dưới đây.
Cho tập mục X (𝑋 ⊆ 𝐼), ta định nghĩa độ hỗ trợ của tập mục X trong CSDL D
như sau:
Định nghĩa 1.11: [46] Độ hỗ trợ của tập mục X:
Đỗ hỗ trợ của tập mục X là tỷ lệ giữa số lượng các bản ghi trong D chứa tập
mục X với số bản ghi trong D.
𝑆𝑢𝑝𝑝(𝑋) =
|𝑋|
|𝐷| (1.1)
Định nghĩa 1.12: [46] Độ hỗ trợ của luật 𝑋 → 𝑌:
Độ hỗ trợ của một luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi chứa
tập hợp 𝑋 ∪ 𝑌, so với tổng số các bản ghi trong D.
30
𝑆𝑢𝑝𝑝(𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) =|𝑋∪𝑌|
|𝐷| (1.2)
Định nghĩa 1.13: [46] Độ tin cậy của luật 𝑋 → 𝑌:
Độ tin cậy của một luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi trong
D chứa 𝑋 ∪ 𝑌 với số bản ghi trong D có chứa tập hợp X.
𝑐𝑜𝑛𝑓(𝑋 → 𝑌) = 𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)
𝑆𝑢𝑝𝑝(𝑋) (1.3)
Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật
có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng độ hỗ trợ và độ tin cậy do người sử dụng
xác định trước. Các ngưỡng của Độ hỗ trợ và Độ tin cậy được ký hiệu là 𝑚𝑖𝑛𝑠𝑢𝑝 và
𝑚𝑖𝑛𝑐𝑜𝑛𝑓.
Ngoài các độ đo quan trọng là Support và Confidence thường dùng trong khai
phá luật kết hợp, có thể có những độ đo khác để đánh giá luật khai phá được như:
Lift, Leverage và Conviction. Về cơ bản, ý nghĩa của luật kết hợp ta khai phá được
vẫn chưa có những tiêu chí đánh giá rõ ràng. Ngoài hai độ đo Độ hỗ trợ và Độ tin
cậy, trong luận án này sử dụng các độ đo mang tính Eristic như các công trình (Hong
và cộng sự (2004, 2008) [42, 83], Herrera (2009) [53]) dùng để đánh giá như độ chồng
lấn, độ bao phủ,… Các độ đo này sẽ được trình bày cụ thể ở Chương 3.
Định nghĩa 1.14: [79] Độ đo Lift
Độ đo lift của luật kết hợp 𝑋 → 𝑌 là tỷ lệ giữa số lượng các bản ghi trong D
chứa 𝑋 ∪ 𝑌 với tích số lượng bản ghi chứa X và Số lượng bản ghi chứa Y trong D.
𝐿𝑖𝑓𝑡(𝑋 → 𝑌) =
𝐶𝑜𝑛𝑓(𝑋 → 𝑌)
𝑆𝑢𝑝𝑝(𝑌)=
𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)
𝑆𝑢𝑝𝑝(𝑋) ∗ 𝑆𝑢𝑝𝑝(𝑌) (1.4)
Độ thú vị của mỗi luật được tính theo công thức [71]:
𝐼𝑛𝑡𝑒𝑟𝑒𝑠𝑡(𝑋 → 𝑌)
=𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)
𝑆𝑢𝑝𝑝(𝑋)∗𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)
𝑆𝑢𝑝𝑝(𝑌) ∗ (1 −
𝑆𝑢𝑝𝑝(𝑋 ∪ 𝑌)
𝑁)
(1.5)
Định nghĩa 1.15: Tập mục thường xuyên
Tập hợp X được gọi là tập mục thường xuyên (Frenquent itemset) nếu có
𝑆𝑢𝑝𝑝(𝑋) 𝑚𝑖𝑛𝑠𝑢𝑝, với 𝑚𝑖𝑛𝑠𝑢𝑝 là ngưỡng độ hỗ trợ cho trước. Kí hiệu các tập này
là FI.
31
Tính chất 1.1: Giả sử 𝐴, 𝐵 ⊆ 𝐼 là hai tập mục với 𝐴 ⊆ 𝐵 thì 𝑆𝑢𝑝𝑝(𝐴) ≥
𝑆𝑢𝑝𝑝(𝐵).
Như vậy, những bản ghi nào chứa tập mục B thì cũng chứa tập mục A
Tính chất 1.2: Giả sử A, B là hai tập mục, 𝐴, 𝐵 ⊆ 𝐼, nếu B là tập mục thường
xuyên và 𝐴 ⊆ 𝐵 thì A cũng là tập mục thường xuyên.
Thật vậy, nếu B là tập mục thường xuyên thì 𝑆𝑢𝑝𝑝(𝐵) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝, mọi tập
mục A là tập con của tập mục B đều là tập mục thường xuyên trong cơ sở dữ liệu D
vì 𝑆𝑢𝑝𝑝(𝐴) ≥ 𝑆𝑢𝑝𝑝(𝐵) (Tính chất 1.1)
Tính chất 1.3: Giả sử A, B là hai tập mục, 𝐴 ⊆ 𝐵 và A là tập mục không
thường xuyên thì B cũng là tập mục không thường xuyên
Định nghĩa 1.16: Tập mục đóng
Tập mục X (𝑋 ⊆ 𝐼) được gọi là đóng nếu không tồn tại tập mục cha Y (𝑌 ⊆ 𝐼)
có cùng độ hỗ trợ với X.
𝑋 ⊆ 𝐼, X được gọi là đóng nếu ∀ 𝑌 ⊆ 𝐼 và 𝑋 ⊂ 𝑌: supp(X) < > supp(Y)
Ký hiệu tập phổ biến đóng là FCI.
Định nghĩa 1.17: Tập mục phổ biến lớn nhất
Tập mục X (𝑋 ⊆ 𝐼) là là tập mục phổ biến lớn nhất nếu không tồn tại tập cha
Y (𝑌 ⊆ 𝐼) nào trong I là một tập mục phổ biến. Ký hiệu tập tất cả các tập mục phổ
biến lớn nhất là MFI. Dễ thấy 𝑀𝐹𝐼 ⊆ 𝐹𝐶𝐼 ⊆ 𝐹𝐼.
1.4.2. Bài toán khai phá luật kết hợp mờ
Cho 𝐷𝑇 = {𝑡1, 𝑡2, … , 𝑡𝑛} là CSDL giao dịch, n là tổng số bản ghi trong D.
Cho 𝐼 = {𝑖1, 𝑖2, … , 𝑖𝑚} là các mục, với mỗi mục 𝑖𝑗 (1 ≤ 𝑗 ≤ 𝑚) là thuộc tính hạng
mục hoặc thuộc tính định lượng. Một tập thuộc tính mờ là một cặp ⟨𝑍, 𝐶⟩ với Z tương
ứng là tập các thuộc tính zj và C tương ứng là tập các tập mờ 𝑐𝑗 [27].
Nếu luật kết hợp mờ 𝑋 𝑖𝑠 𝐴 ⇒ 𝑌 𝑖𝑠 𝐵 gọi là tin cậy nếu thảo mãn độ hỗ trợ
mờ 𝐹(𝑍,𝐶) và độ tin cậy mờ 𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)), với 𝑍 = 𝑋 ∪ 𝑌, 𝐶 = 𝐴 ∪ 𝐵.
Độ hỗ trợ mờ của tập mục ⟨𝑍, 𝐶⟩ ký hiệu là 𝑓𝑠(⟨𝑍, 𝐶⟩) được xác định theo
công thức [27]:
𝑓𝑠(⟨𝑍, 𝐶⟩) =∑ ∏ (𝑡𝑖[(𝑥𝑗 , 𝑎𝑗)])
𝑚𝑗=1
𝑛𝑖=1
𝑛 (1.6)
Trong đó m là số lương tập mục trong tập mục (𝑍, 𝐶).
32
Độ tin cậy mờ được xác định theo công thức sau [27]:
𝐹𝐶((𝑋,𝐴),(𝑌,𝐵)) = 𝑓𝑠(𝑍,𝐶)
𝑓𝑠(< 𝑋,𝐴 >) (1.7)
Thuật toán khai phá luật kết hợp mờ dựa trên thuật toán Apriori:
Thuật toán khai phá luật kết hợp mờ được chia làm hai pha như sau:
Pha 1: Tìm tất cả các tập thuộc tính mờ phổ biến dạng ⟨𝑍, 𝐶⟩ có độ hỗ trợ lớn
hơn độ hỗ trợ cực tiểu của người dùng nhập vào:
𝑓𝑠(⟨𝑍, 𝐶⟩) ≥ 𝑓𝑚𝑖𝑛𝑠𝑢𝑝
Pha 2: Sinh các luật kết hợp mờ tin cậy từ các tập phổ biến đã tìm thấy ở pha
thứ nhất. Pha này đơn giản và tốn kém ít thời gian hơn so với pha trên. Nếu ⟨𝑍, 𝐶⟩ là
một tập thuộc tính mờ phổ biến thì luật kết hợp được sinh ra từ X có dạng:
Z′is C′ fc→ Z\Z′is C\C′
Với Z' là tập con khác rỗng của Z, Z\Z' là hiệu của hai tập hợp, C' là tập con
khác rỗng của C và là tập các tập mờ tương ứng với các thuộc tính trong Z', C\C' là
hiệu hai tập hợp, 𝑓𝑐 là độ tin cậy của luật thỏa mãn: 𝑓𝑐 ≥ 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓.
Thuật toán:
Đầu vào: CSDL D, Độ hỗ trợ tối thiểu 𝑓𝑚𝑖𝑛𝑠𝑢𝑝, Độ tin cậy tối thiểu
𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓.
Đầu ra: Tập các luật kết hợp mờ.
Các ký hiệu:
Ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ
33
Ký hiệu Ý nghĩa
D CSDL (dạng quan hệ hoặc giao dịch)
I Tập các mục (thuộc tính) trong D
T Tập các giao dịch (hoặc bản ghi) trong D
𝐷𝑓 CSDL mờ (được tính toán từ CSDL ban đầu thông qua hàm thuộc của các
tập mờ tương ứng với từng thuộc tính)
𝐼𝑓 Tập các mục (thuộc tính) trong 𝐷𝑓, mỗi mục hay thuộc tính đều được gắn
với một tập mờ. Mỗi tập mờ f đều có môt ngưỡng 𝑤𝑓
𝐶𝑘 Tập các tập mục (thuộc tính) có kích thước k
𝐹𝑘 Tập các tập mục (thuộc tính) phổ biến có kích thước k
F Tập tất cả các tập mục (thuộc tính) phổ biến
fminsup Độ hỗ trợ tối thiểu
fminconf Độ tin cậy tối thiểu
Thuật toán khai phá luật kết hợp mờ:
1 BEGIN
2 (𝐷𝑓, 𝐼𝑓, 𝑇𝑓) = Transform(D, I, T);
3 𝐹1 = Counting(𝐷𝑓, 𝐼𝑓, 𝑇𝑓, fminsup);
4 k=2
5 while (Fk−1 ≠ ∅)
6 {
7 Ck = Join(Fk − 1);
8 𝐶𝑘 = 𝑃𝑟𝑢𝑛𝑒(𝐶𝑘);
9 Fk = Checking(Ck, Dk, fminsup);
10 F = F ∪ Fk;
11 k = k + 1;
12 }
13 GenerateRules(F, 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓);
14 END
34
Trong thuật toán sử dụng một số chương trình con sau đây:
- Chương trình con (DF, IF, TF) = Transform(D, I, T): hàm này thực hiện
chuyển đổi từ CSDL D ban đầu sang CSDL mờ 𝐷𝐹 .
- Chương trình con F1 = Counting(DF, IF, TF, 𝑓𝑚𝑖𝑛𝑠𝑢𝑝): hàm này sinh ra F1
là tập tất cả các tập phổ biến 1-ItemSet có lực lượng bằng 1.
- Chương trình con Ck = Join(Fk−1): hàm này thực hiện việc sinh ra tập các
tập thuộc tính mờ ứng cử viên có lực lượng k từ tập các tập thuộc tính mờ phổ biến
lực lượng k-1 là Fk−1.
- Chương trình con Ck = Prune(Ck): chương trình con này sử dụng tính chất
"mọi tập con khác rỗng của tập phổ biến cũng là tập phổ biến và mọi tập chứa tập
không phổ biến đều là tập không phổ biến" (downward closure property) để cắt tỉa
những tập thuộc tính nào trong Ck có tập con lực lượng k-1 không thuộc tập các tập
thuộc tính phổ biến Fk−1.
- Chương trình con Fk = Checking(Ck, Df, 𝑓𝑚𝑖𝑛𝑠𝑢𝑝): chương trình con này
duyệt qua CSDL 𝐷𝑓 để cập nhật độ hỗ trợ cho các tập thuộc tính trong Ck. Sau khi
duyệt xong, Checking sẽ chỉ chọn những tập phổ biến (có độ hỗ trợ lớn hơn hoặc
bằng fminsup) để đưa vào trong Fk.
- Chương trình còn GenerateRules(F, 𝑓𝑚𝑖𝑛𝑐𝑜𝑛𝑓): sinh luật kết hợp mờ tin
cậy từ tập các tập phổ biến F.
1.5. Một số hướng nghiên cứu về luật kết hợp
Kể từ khi được R. Agrawal đề xuất vào năm 1994 [21], lĩnh vực khai phá luật
kết hợp đến nay đã được nghiên cứu và phát triển theo nhiều hướng khác nhau. Có
những đề xuất nhằm vào cải tiến tốc độ thuật toán, có những đề xuất nhằm tìm kiếm
luật có ý nghĩa hơn,… Đã có nhiều kết nghiên cứu đã được các tác giả trong và ngoài
nước công bố về khai phá luật kết hợp, các nghiên cứu tập trung vào hai hướng:
(1) Tăng tốc độ quá trình tìm kiếm tập phổ biến từ CSDL;
(2) Bài toán phân chia mờ miền xác định các thuộc tính định lượng của dữ liệu
nhằm tìm kiếm các luật kết hợp có ý nghĩa hơn.
Sau đây là một số hướng nghiên cứu chính về khai phá luật kết hợp:
- Luật kết hợp nhị phân (binary association): là hướng nghiên cứu đầu tiên của
luật kết hợp. Hầu hết các nghiên cứu ở thời kỳ đầu về luật kết hợp đều liên quan đến
luật kết hợp nhị phân [21]. Trong dạng luật kết hợp này, các mục (thuộc tính) chỉ
35
được quan tâm là có hay không xuất hiện trong giao dịch của CSDL chứ không quan
tâm về "mức độ" xuất hiện. Thuật toán tiêu biểu nhất khai phá dạng luật này là thuật
toán Apriori được R. Agrawal đề xuất vào năm 1994 [21]. Đây là dạng luật đơn giản
và như sau này ta biết các dạng luật khác cũng có thể chuyển về dạng luật này bằng
một số phương pháp như rời rạc hóa, mờ hóa,… Một ví dụ về dạng luật này: "Nếu
mua Bánh mì và Sữa Thì sẽ mua Bơ”, với độ hỗ trợ 50% và độ tin cậy 70%".
- Luật kết hợp có thuộc tính định lượng và thuộc tính hạng mục (quantitative
and categorical association rule): các thuộc tính của các CSDL thực tế có kiểu rất đa
dạng (nhị phân - binary, số - quantitative, hạng mục - categorical,...). Đối với loại
này, ta không chỉ quan tâm tới sự có mặt hay không của các mục trong giao dịch mà
còn quan tâm tới định lượng của từng mục trong luật.
Để khai phá luật kết hợp dạng này, ta cần phải chuyển đổi dữ liệu về dạng nhị
phân hay còn gọi là rời rạc hoá dữ liệu để có thể áp dụng các thuật toán khai phá luật
kết hợp nhị phân. Để chuyển các thuộc tính số về thuộc tính nhị phân, ta cần chia
miền giá trị của thuộc tính thành các khoảng. Việc phân chia này là rất quan trọng và
nó ảnh hưởng đến quá trình khai phá dữ liệu. Để phát hiện luật kết hợp với các thuộc
tính dạng này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc hóa nhằm
chuyển dạng luật này về dạng nhị phân để có thể áp dụng các thuật toán đã có.
- Luật kết hợp mờ (fuzzy association rule): với những hạn chế còn gặp phải
trong quá trình rời rạc hóa các thuộc tính định lượng (quantitative attributes), các nhà
nghiên cứu đã đề xuất luật kết hợp mờ nhằm khắc phục những hạn chế, và chuyển
luật kết hợp về một dạng tự nhiên hơn, gần gũi hơn với người sử dụng. Với thuộc tính
định lượng chúng ta gặp phải vấn đề “điểm biên gãy” khi rời rạc hoá dữ liệu. Với
dạng luật kết hợp mờ giúp ta làm trơn các “điểm biên gãy” đã đem lại hiệu quả đáng
kể. Khai phá luật kết hợp mờ là phát hiện các luật kết hợp sử dụng khái niệm tập mờ
đối với các thuộc tính định lượng. Khi khai phá chúng ta cần phải định nghĩa trước
các tập mờ cho các thuộc tính trước khi áp dụng các giải thuật cụ thể để khai phá dữ
liệu.
- Luật kết hợp nhiều mức (multi-level association rules): ngoài các dạng luật
trên, các nhà nghiên cứu còn đề xuất một hướng nghiên cứu nữa về luật kết hợp là
luật kết hợp nhiều mức. Với cách tiếp cận này, người ta sẽ tìm kiếm thêm những luật
có dạng "Nếu mua máy tính và máy in Thì sẽ mua lưu điện" thay vì chỉ những luật
36
quá cụ thể như "Nếu mua máy tính Sony Vaio và mua máy in Canon Thì sẽ mua lưu
điện". Dạng luật đầu là dạng luật tổng quát hóa của dạng luật sau.
- Luật kết hợp với thuộc tính được đánh trọng số (association rule with
weighted items): Với luật kết hợp thông thường, các mục trong CSDL sẽ có vai trò
như nhau trong CSDL. Tuy nhiênt trong thực tế, các thuộc tính trong CSDL có vai
trò khác nhau. Có một số thuộc tính được chú trọng và lúc đó ta nói những thuộc tính
đó có mức độ quan trọng cao hơn các thuộc tính khác. Đây là một hướng nghiên cứu
rất thú vị và đã được một số nhà nghiên cứu đề xuất cách giải quyết bài toán này. Với
luật kết hợp có thuộc tính được đánh trọng số, chúng ta sẽ khai phá được những luật
mang rất nhiều ý nghĩa, thậm chí là những luật "hiếm".
- Khai phá luật kết hợp song song (parallel mining of association rules):
Do kích thước dữ liệu ngày càng lớn, nhằm mục đích tăng tốc độ khai phá luật
kết hợp các nhà nghiên cứu tập trung vào nghiên cứu các giải pháp song song hóa và
xử lý phân. Có rất nhiều thuật toán song song khác nhau đã được đề xuất, chúng có
thể phụ thuộc hoặc độc lập với nền tảng phần cứng.
- Luật kết hợp tiếp cận theo hướng nén CSDL giao dịch: Các thuật toán sử
dụng cách nén dữ liệu trong CSDL nhị phân cung cấp một giải pháp tốt có thể giảm
yêu cầu không gian lưu trữ và thời gian xử lý dữ liệu. Jia - Yu Dai đã đề xuất thuật
toán gọi là M2TQT [18]. Ý tưởng cơ bản của thuật toán này là: gộp các giao dịch có
quan hệ gần nhau để tạo thành giao dịch mới, kết quả thu được là tạo ra CSDL mới
có kích thước nhỏ hơn, có thể giảm thời gian xử lý dữ liệu, giảm không gian lưu trữ.
Tuy nhiên thuật toán M2TQT chỉ thực hiện với CSDL nhị phân. Với hướng nghiên
cứu này, trong luận án đề xuất sử dụng ĐSGT để mờ hóa các thuộc tính mờ. Từ CSDL
mờ, tiến hành gộp các giao dịch có quan hệ gần nhau để tạo thành CSDL mới có kích
thước nhỏ hơn, làm tăng hiệu quả khi khai phá dữ liệu.
- Tìm kiếm hàm thuộc tối ưu cho bài toán khai phá luật kết hợp mờ: Trong các
nghiên cứu trước kia, thông thường các nghiên cứu chỉ tập trung vào công đoạn trích
xuất luật kết hợp, mặc nhiên công nhận đã có sẵn các hàm thuộc phân chia miền xác
định các thuộc tính. Gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây
dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên
công đoạn tiếp theo. Nếu không có một hệ các MF được xây dựng tốt thì cũng sẽ
không thể trích xuất các luật kết hợp tốt được. Tuy nhiên, các nghiên cứu liên quan
37
đến xây dựng các tập MF dành cho trích xuất luật kết hợp vẫn rất ít, đa số các bài báo
liên quan đến vấn đề này thuộc hướng phân loại tự động hay hồi quy [16, 28, 51].
Một số kết quả các nhà nghiên cứu đã công bố về hướng nghiên cứu này: [6, 7, 9, 14,
22, 23, 38, 39, 42, 43, 45, 46, 48, 50, 53, 60, 64, 69, 70, 74-78].
Trong các hướng nghiên cứu trên, luận án tập trung vào hai hướng chính:
- Nhằm mục đính giảm thời gian khai phá luật kết hợp, đề xuất giải pháp nén
cơ sở dữ liệu giao dịch và khai phá luật kết hợp từ CSDL nén.
- Để khai phá các luật kết hợp dưới dạng ngôn ngữ tự nhiên gần gũi với con
người, luận án đề xuất giải pháp sử dụng ĐSGT. Bên cạnh đó, để có được các luật
kết hợp có ý nghĩa hơn, giải thuật GA được sử dụng để tìm kiếm tham số tối ưu cho
ĐSGT.
1.6. Kết luận chương 1
Trong chương này, luận án đã tóm tắt những kiến thực cơ sở làm nền tảng
phục vụ trong quá trình nghiên cứu. Nó bao gồm những nội dung chính sau:
- Lý thuyết tập mờ bao gồm các khái niệm tập mờ, phương pháp xây dựng tập
mờ, biến ngôn ngữ, phân hoạch mờ,...
- Hệ thống lý thuyết về ĐSGT với những khái niện nền tảng như: ĐSGT,
ĐSGT tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ của gia tử, phần tử sinh,
phương pháp xác định giá trị định lượng của từ ngôn ngữ, khoảng tính mờ,...
- Một số khái niệm cơ bản về luật kết hợp, luật kết hợp mờ và một số hướng
nghiên cứu về khai phá luật kết hợp mờ.
Với những kiến thức cơ sở đã được trình bày trong chương trình là nền tảng
đủ để thực hiện các mục tiêu đã đặt ra của luận án.
38
CHƯƠNG 2. KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP
CẬN SỬ DỤNG ĐẠI SỐ GIA TỬ
Bài toán khai phá luật kết hợp mờ được nhiều tác giả quan tâm nghiên cứu và
tiếp cận theo nhiều hướng khác nhau. Các nhà nghiên cứu đã đề xuất nhiều giải pháp
khác nhau nhằm tăng tốc độ khai phá luật cũng như là làm thế nào nào để tìm ra được
các luật hữu ích từ CSDL. Trong chương này luận án đề xuất ứng dụng ĐSGT và đề
xuất giải pháp nén CSDL giao dịch mờ nhằm tạo ra CSDL giao dịch mới có kích
thước nhỏ hơn. Phương pháp đề xuất giúp tìm ra các luật kết hợp mờ dạng ngôn ngữ
gần gũi với con người và giảm thời gian khai phá luật kết hợp.
2.1. Đặt vấn đề
Khai phá luật kết hợp đã được triển khai nghiên cứu và mang lại nhiều kết quả
tốt [3, 56, 62, 73]. Các tác giả đã đưa ra nhiều giải pháp để giảm thời gian thực hiện
khai phá luật như: giải pháp khai phá luật kết hợp song song, sử dụng các giải pháp
nén giao dịch với CSDL nhị phân,... Tuy vậy, trong lĩnh vực này, đến nay vẫn còn
nhiều vấn đề đặt ra cần phải tiếp tục nghiên cứu giải quyết.
Gần đây, các thuật toán sử dụng cách nén dữ liệu trong CSDL nhị phân cung
cấp một giải pháp tốt có thể giảm yêu cầu không gian lưu trữ và thời gian xử lý dữ
liệu. Jia - Yu Dai (2008) đã đề xuất thuật toán nén CSDL giao dịch nhị phân gọi là
M2TQT [18]. Ý tưởng cơ bản của thuật toán này là: gộp các giao dịch có quan hệ gần
nhau để tạo thành giao dịch mới, kết quả thu được là tạo ra CSDL mới có kích thước
nhỏ hơn, có thể giảm thời gian xử lý dữ liệu, giảm không gian lưu trữ. Thuật toán
M2TQT được đánh giá là tốt hơn các phương pháp đã đề xuất trước đây. Tuy nhiên
thuật toán M2TQT chỉ thực hiện với CSDL nhị phân.
Việc xử lý dữ liệu mờ để khai phá dữ liệu trong các luật kết hợp mờ chủ yếu
dựa trên lý thuyết tập mờ như trong [62, 73]. Tuy nhiên, theo cách sử dụng tập mờ có
nhiều yếu tố ảnh hưởng đến độ chính xác như cách xác định tập mờ, phụ thuộc nhiều
vào ý kiến của chuyên gia.
Để khắc phục các nhược điểm của lý thuyết tập mờ, các giải pháp được đề xuất
trong [2, 3] đã ứng dụng ĐSGT vào giải quyết bài toán khai phá luật kết hợp mờ. Các
tác giả trong [2] xem miền trị Dom(A) của thuộc tính mờ là một ĐGST. Với mỗi x ∈
39
Dom(A) sẽ tương ứng với mỗi phần tử y trong ĐSGT (sử dụng hàm ngược trong
ĐSGT). Phương pháp này đơn giản nhưng việc ứng mỗi giá trị của Dom(A) với chỉ
một phần tử của ĐSGT có thể gây mất mát thông tin. Phương pháp trong [3] giải
quyết được hạn chế đó bằng cách xác định khoảng cách của x với giá trị định lượng
ngữ nghĩa của hai phần tử gần x nhất về hai phía, còn các phần tử khác của ĐSGT
bằng 0. Như vậy với mỗi giá trị x chúng ta lưu một cặp giá trị thay vì trong [2] chỉ
lưu một giá trị.
Nhằm nâng cao hiệu quả khai phá luật kết hợp, luận án đề xuất phương pháp
khai phá luật kết hợp mờ theo cách tiếp cận ĐSGT, sử dụng cách nén dữ liệu cho một
CSDL bất kỳ (không nhất thiết là nhị phân). Với cách tiếp cận này, các giao dịch gần
nhau được gộp lại để tạo thành giao dịch mới, làm giảm kích thước (chiều ngang) của
CSDL đầu vào. Thử nghiệm cho thấy, cách tiếp cận này cho kết quả tốt hơn các cách
tiếp cận đã có.
Nội dung chương này, luận án trình bày cách thức mờ hóa các thuộc tính mờ
theo hướng tiếp cận ĐSGT, thuật toán nén CSDL mờ, và thuật toán khai phá luật kết
hợp mờ với CSDL nén.
2.2. Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT
2.2.1. Mờ hóa cơ sở dữ liệu giao dịch
Với bài toán khai phá luật kết hợp mờ sử dụng lý thuyết tập mờ, chúng ta các
phải xây dựng các hàm thuộc cho mỗi thuộc tính. Sau đó, dựa vào hàm thuộc đã xây
dựng để tính độ thuộc của các giá trị và các miền mờ tương ứng. Luận án đề xuất mỗi
thuộc tính định lượng sẽ sử dụng một cấu trúc ĐSGT. Dựa vào giá trị định lượng ngữ
nghĩa của các phần tử của ĐSGT, chúng ta xây dựng lên các phân hoạch mờ để tính
độ thuộc của các phần tử trong CSDL đến các miền mờ.
Trong Hình 2.1 là một ví dụ sử dụng ĐSGT AX = (X, G, H, <=), G =
{𝐶−,𝑊, 𝐶+}, 𝐻 = 𝐻− ∪ 𝐻+, 𝐻− = {𝐿}, 𝐻+ = {𝑉}. Ta có các tham số sau:
𝑓𝑚(𝐶−) = 0.5; 𝑓𝑚(𝐶+) = 0.5; Độ đo tính mờ của gia tử được cho là: 𝜇(𝑉𝑒𝑟𝑦) =
0.5; 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = 0.5; Dựa vào giá trị định lượng ngữ nghĩa của các phần tử ĐSGT,
chúng ta có bốn khoảng tính mờ các phần tử: 𝑉𝐶−, 𝐿𝐶−, L𝐶+, 𝑉𝐶+.
40
Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT
Bước 1: Chuẩn hóa các giá trị của các thuộc tính mờ về đoạn [0,1].
Bước 2: Xét các miền mờ 𝑠𝑗 của thuộc tính 𝑥𝑖 là các phần tử của ĐSGT
𝐴𝑋𝑖 . Khi đó, một giá trị bất kỳ djxi của 𝑥𝑖 đều nằm giữa hai giá trị định lượng ngữ
nghĩa nào đó của hai phần tử của 𝐴𝑋𝑖. Khoảng cách trên đoạn [0,1] giữa djxi và giá
trị định lượng ngữ nghĩa của hai phần tử gần djxi nhất về hai phía có thể dùng để xác
định độ gần gũi của djxi vào hai miền mờ (hai phần tử của ĐSGT). Độ gần gũi giữa
djxi với các phần tử khác của ĐSGT được xác định bằng 0. Để xác định độ thuộc cuối
cùng, ta phải chuẩn hóa (chuyển về giá trị trong đoạn [0,1] rồi lấy 1 trừ khoảng cách
đã chuẩn hóa đó). Ta sẽ có, ứng với mỗi giá trị djxi là một cặp độ thuộc.
Như vậy để tính độ thuộc djxi của thuộc tính 𝑥𝑖 vào miền mờ 𝑠𝑗:
𝜇𝑠𝑗(djxi) = 1 − | 𝑣(𝑠𝑗) − dj
xi |, với 𝑣(𝑠𝑗) là giá trị định lượng ngữ nghĩa của
phần tử 𝑠𝑗.
Ví dụ 2.1: Cho CSDL như trong Bảng 2.1 gồm có hai thuộc tính A và B. ĐSGT
sử dụng cho hai thuộc tính này có cấu trúc giống nhau: 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤), 𝐶− =
{𝐿𝑜𝑤}, 𝐶+ = {𝐻𝑖𝑔ℎ𝑡}, 𝐻− = {𝐿𝑒𝑎𝑠𝑡}, 𝐶+ = {𝑉𝑒𝑟𝑦}, các tham số như sau:
𝑓𝑚(𝐿𝑜𝑤) = 𝑓𝑚(𝐻𝑖𝑔ℎ𝑡) = 0.5, 𝜇(𝑉𝑒𝑟𝑦) = 𝜇(Least) = 0.5, 𝐷𝑜𝑚(𝐴, 𝐵) =
[0, 100]. Khi đó ta tính được các giá trị định lượng ngữ nghĩa: v(Very Low) = 0.125,
v(Least Low) = 0.375, v(Least Height) = 0.625, v(Very Height) = 0.875.
Đối với thuộc tính A: Dom(A) = [0, 100], giá trị của thuộc tính A trong miền
[0, 1] như sau: {0.34, 0.41, 0.45}. Đối với thuộc tính B: Dom(A) = [0, 100], giá trị
của thuộc tính A trong miền [0, 1] như sau: {0.4, 0.48, 0.32}.
41
Bảng 2.1: Cơ sở dữ liệu ví dụ
TID A B
𝑇1 30 40
𝑇2 41 48
𝑇3 45 32
Với giá trị A = 0.3: Do giá trị v(Very Low) <0.3< v(Least Low), ta chỉ cần
tính khoảng cách giữa 0.3 với hai miền mờ tương ứng là Very Low và Least Low,
còn các miền mờ Least Height, Very Height có giá trị bằng 0. Khoảng cách giữa 0.3
và miền mờ Very Low: 1-abs(0.3 - 0.125) = 0.825. Khoảng cách giữa 0.3 và miền
mờ Least Low: 1-abs(0.3 - 0.375) = 0.925. Với giá trị A = 0.41: Do giá trị v(Least
Low) <0.41< v(Least Height), ta chỉ cần tính khoảng cách giữa 0.41 với hai miền mờ
tương ứng là Very Low và Least Low, còn các miền mờ Least Height, Very Height
có giá trị bằng 0. Khoảng cách giữa 0.41 và miền mờ Least Low: 1-abs(0.41 - 0.375)
= 0. 965. Khoảng cách giữa 0.4 và miền mờ Least Height: 1-abs(0.41 - 0.625) = 0.
785. Với cách tính tương tự chúng ta có các giá trị được mờ hóa như trong Bảng 2.2.
Ký hiệu: A1, B1: Very Low; A2, B2: Least Low; A3, B3: Least Heigh, A4,
B4: Very Heigh;
Bảng 2.2: Mờ hóa dữ liệu trong Bảng 2.1
TID A B
A1 A2 A3 A4 B1 B2 B3 B4
𝑇1 0.825 0.925 0 0 0 0.975 0.775 0
𝑇2 0 0.965 0.785 0 0 0.895 0.855 0
𝑇3 0 0.925 0.825 0 0.805 0.945 0 0
2.2.2. Quan hệ khoảng cách giao dịch
Jia-Yu Dai và công sự [18] đã đề xuất phương pháp tính khoảng cách giữa các
giao dịch trong CSDL nhị phân. Dựa vào khoảng cách giữa các giao dịch, có thể gộp
các giao dịch có khoảng cách gần nhau để tạo ra nhóm giao dịch, kết quả là thu được
CSDL mới có kích thước nhỏ hơn.
Quan hệ giao dịch và quan hệ khoảng cách giao dịch cho các giao dịch trong
CSDL mờ được định nghĩa như sau:
42
a) Quan hệ giao dịch: Hai giao dịch 𝑇1, 𝑇2 được gọi là có quan hệ với nhau
nếu 𝑇1 hoặc là tập con của 𝑇2 hoặc 𝑇1là tập cha của 𝑇2.
b) Quan hệ khoảng cách giao dịch: Khoảng cách giữa hai giao dịch là số các
mục (item) khác nhau.
Trong bảng Bảng 2.2 khoảng cách giữa giao dịch 𝑇1 và 𝑇2 là 𝐷𝑇1−𝑇2 = 2,
khoảng cách giữa hai giao dịch 𝑇2 và 𝑇3 là 𝐷𝑇1−𝑇3 = 4.
2.2.3. Xây dựng bảng định lượng
Để giảm số lượng tập ứng cử được tạo ra, cần phải có thêm thông tin để loại
bớt các tập không phải là tập phổ biến. Bảng định lượng được xây dựng để lưu các
thông tin này khi mỗi giao dịch được xử lý. Các mục xuất hiện trong giao dịch cần
sắp xếp theo thứ tự từ điển. Bắt đầu từ các mục bên trái và gọi đó là tiền tố của mục.
Sau đó tính chiều dài của giao dịch đầu vào là n, ghi số lượng các mục xuất hiện trong
giao dịch vào các mục tùy theo độ dài của giao dịch: L𝑛, Ln−1, . . . , L1. Bảng định lượng
bao gồm những mục trong đó mỗi Li chứa một tiền tố mục và giá trị hỗ trợ của mục
đó.
Ví dụ 2.2: Xây dựng bảng định lượng cho CSDl giao dịch trong Bảng 2.2. Với
giao dịch TID = T1 có giá trị là {A1 = 0.825; A2 = 0.925; B2 = 0.975; B3 = 0.775},
không tính các mục có giá trị bằng 0. Giao dịch T1 có chiều dài n = 4, với tiền tố A1,
giá trị từ L1 đến L4 tăng lên 0.825 (khởi tạo là 0), vì vậy A1 = 0.825 xuất hiện trong
mỗi Li, với i = 1,..,4. Với tiền tố A2, giá trị từ L1 đến L3 tăng lên 0.925 (khởi tạo là
0), Vì vậy A2 = 0.925 xuất hiện trong mỗi TLi, với i = 1,…,3. Với tiền tố B2, giá trị
từ L1,L2 tăng lên B2 = 0.975 (khởi tạo là 0). Với tiền tố B3, giá trị L1 tăng lên B3 =
0.775.
Với giao dịch TID = T2 có giá trị là {A2 = 0.965; A3 = 0.785; B2 = 0.895; B3
= 0.855}, giá trị A2 trong L1, L2, L3 tăng lên là A2 = 1.89 (0.925 + 0.965), giá trị A2
trong L4 là A2 = 0.965. Với tiền tố A3 = 0.785 trong L1, L2, L3. Với tiền tố B2 =
0.895 trong L1, L2. Với tiền tố B3 = 0.855 trong L1.
Với giao dịch TID = T3 {A2 = 0.925; A3 = 0.825; B1 = 0.805; B2 = 0.945; }.
Với tiền tốt A2, giá trị L4 tăng lên A2 = 1.89, trong L1, L2, L3 giá trị A2 = 2.815;
Với tiền tố A3: trong L1, L2, L3 giá trị của A3 = 1.61; Với tiền tố B1, trong L1, L2
giá trị B1 = 0.805; Với tiền tố B2, trong L1 giá trị B2 = 2.815.
43
Bảng 2.3 là bảng định lượng được xây dựng từ CSDL trong Bảng 2.2. Với
bảng định lượng, chúng ta có thể dễ dàng loại bớt các tập ứng cử viên có độ hỗ trợ
nhỏ hơn so với sự hỗ trợ tối thiểu.
Bảng 2.3: Bảng định lượng của cơ sở dữ liệu Bảng 2.2
L4 L3 L2 L1
A1 = 0.825 A1 = 0.825 A1 = 0.825 A1 = 0.825
A2 = 1.89 A2 = 2.815 A2 = 2.815 A2 = 2.815
A3 = 1.61 A3 = 1.61 A3 = 1.61
B1 = 0.805 B1 = 0.805
B2 = 1.87 B2 = 2.815
B3 = 1.63
2.3. Nén cơ sở dữ liệu giao dịch
Với d là khoảng cách quan hệ được khởi tạo bằng 1. Dựa vào khoảng cách
giữa các giao dịch, chúng ta gộp các giao dịch có khoảng cách nhỏ hơn hoặc bằng d
để tạo thành nhóm giao dịch mới và đưa vào khối gồm các giao dịch được trộn với
nhau.
Hình 2.2: Tổng quan về thuật toán nén CSDL giao dịch
CSDL
Tiền
xử
lý d
ữ liệu
Mờ hóa CSDL giao dịch
Gộp các giao dịch
Khai p
há d
ữ liệu
Thuật toán
Khai phá luật kết hợp mờ
từ CSDL nén
Tập luật kết hợp mờ
44
Trong Hình 2.2: CSDL gồm các thuộc tính định lượng, phần Tiền xử lý dữ
liệu: Thực hiện chuẩn hoá dữ liệu về đoạn [0,1], độ thuộc của giá trị của các thuộc
tính được tính toán như trình trình bày trong mục 2.2, sau đó từ CSDL mờ thu được
chúng ta gộp các giao dịch gần nhau vào với nhau tạo ra CSDL mới gọi là CSDL nén.
Chi tiết thuật toán nén được trình bày chi tiết trong Thuật toán 1. Để tìm ra các luật
kết hợp từ CSDL nén luận án đề xuất cải tiến thuật toán Apriori mờ và chi tiết như
Thuật toán 2.
Thuật toán 1: Thuật toán nén giao dịch
Đầu vào: Cơ sở dữ liệu giao dịch mờ D
Đầu ra: Cơ sở dữ liệu nén
Ký hiệu các tham số của thuật toán như sau:
𝑀𝐿 = {𝑀𝐿𝑘}: 𝑀𝐿𝑘 các nhóm giao dịch có độ dài bằng k (độ dài của giao dịch
là số mục trong giao dịch)
𝐿 = {𝐿𝑘}: 𝐿𝑘 các giao dịch có độ dài k
𝑇𝑖: Giao dịch thứ i trong CSDL mờ
| 𝑇𝑖 |: Độ dài của giao dịch 𝑇𝑖
Nội dung thuật toán:
Bước 1: Mỗi lần đọc một giao dịch 𝑇𝑖 từ CSDL mờ
Bước 2: Tính độ dài của giao dịch 𝑇𝑖: n
Bước 3: Dựa vào giao dịch đầu vào để xây dựng bảng định lượng.
Bước 4: Tính toán khoảng cách giữa giao dịch Ti với các nhóm giao dịch trong
khối MLn−1, MLn, MLn+1. Nếu tồn tại một nhóm giao dịch trong các khối MLn−1,
MLn, MLn+1 có khoảng cách với giao dịch Ti nhỏ hơn hoặc bằng d. Chúng ta tiến
hành gộp giao dịch Ti với nhóm giao dịch trong khối tương ứng, ta thu được nhóm
giao dịch mới và đưa vào khối có độ dài tương ứng, và xóa nhóm giao dịch cũ trong
khối.
Ví dụ 2.3: Cho d = 1 và hai giao dịch {B = 0.23; C = 0.55; D = 0.75} và
{C = 0.82; D = 0.94}. Do khoảng cách giữa hai giao dịch này bằng 1, chúng được
gộp thành một nhóm giao dịch {B = 0.23; C = 1.37; D = 1.69}. Nhóm giao dịch
này có độ dài bằng 3, vì vậy đưa nhóm giao dịch này vào khối 𝑀𝐿3. Dấu “ = ” được
sử dụng để chỉ tổng độ thuộc của các mục trong nhóm giao dịch. Với giao dịch
{B = 0.4; C = 0.5}, khoảng cách giữa {B = 0.23; C = 1.37; D = 1.69} và
45
{B = 0.4; C = 0.5} là 1. Vì vậy giao dịch {B = 0.4; C = 0.5} được gộp với
nhóm giao dịch {B = 0.23; C = 1.37; G = 1.69} tạo thành nhóm giao dịch mới.
Cuối cùng, nhóm giao dịch trở thành {B = 0.63; C = 1.87; G = 1.69}. Xóa nhóm
giao dịch {B = 0.23; C = 1.37; G = 1.69} trong khối 𝑀𝐿3 và thêm nhóm giao
dịch {B = 0.63; C = 1.87; G = 1.69} vào khối 𝑀𝐿3.
Bước 5: Nếu giao dịch 𝑇𝑖 không được gộp với các nhóm giao dịch trong khối
MLn−1, MLn, MLn+1. Tính toán khoảng cách giữa giao dịch 𝑇𝑖 và các giao dịch trong
khối 𝐿𝑛−1, 𝐿𝑛, 𝐿𝑛+1. Nếu tồn tại giao dịch 𝑇𝑗 sao cho 𝐷𝑇𝑖−𝑇𝑗 ≤ 𝑑, gộp giao dịch 𝑇𝑖 với
giao dịch 𝑇𝑗 để tạo thành nhóm giao dịch và thêm nhóm giao dịch này vào khối tương
ứng (tùy thuộc vào độ dài của nhóm giao dịch được tạo ra), và xóa giao dịch 𝑇𝑗 trong
khối: 𝐿𝑛−1, 𝐿𝑛, 𝐿𝑛+1. Nếu không tìm được giao dịch thỏa mãn khoảng cách d, thêm
giao dịch 𝑇𝑖 vào khối 𝐿𝑛.
Bước 6: Lặp lại 5 bước trên cho đến khi giao dịch cuối cùng trong CSDL giao
dịch được xử lý.
Bước 7: Mỗi lần đọc một giao dịch 𝑇𝑖 trong khối 𝐿 = {𝐿𝑘}
Bước 8: Tính độ dài của giao dịch 𝑇𝑖: n
Bước 9: Tính toán khoảng cách giữa giao dịch 𝑇𝑖 với các nhóm giao dịch trong
các khối MLn−1, MLn, MLn+1. Nếu tồn tại một nhóm giao dịch có khoảng cách nhỏ
hơn hoặc bằng d, tiến hành gộp giao dịch 𝑇𝑖 với nhóm giao dịch tìm được để tạo thành
nhóm giao dịch mới. Tùy thuộc vào độ dài của nhóm giao dịch mới, sẽ thêm nhóm
giao dịch mới này vào khối tương ứng: MLn−1, MLn, MLn+1, xóa nhóm giao dịch cũ
trong khối: MLn−1, MLn, MLn+1, và xóa giao dịch 𝑇𝑖 trong khối 𝐿𝑛.
Bước 10: Lặp lại bước 7, bước 8, bước 9 cho đến khi giao dịch cuối cùng trong
𝐿 = {𝐿𝑘 } được xử lý.
Kết quả thu được CSDL nén gồm các giao dịch trong các khối 𝐿 = {𝐿𝑘 },
𝑀𝐿 = {𝑀𝐿𝑘 }, và bảng định lượng.
Bước tiếp theo sau khi đã nén CSDL, có thể dùng một thuật toán khai phá luật
kết hợp mờ nào đó để khai phá các luật kết hợp mờ của CSDL đã nén. Ở đây, luận án
sử dụng thuật toán khai phá luật kết hợp mờ theo hướng tiếp cận của ĐSGT. Điểm
khác biệt ở đây là sử dụng lý thuyết ĐSGT để xây dựng độ thuộc của một giá trị thuộc
tính.
46
2.4. Thuật toán trích xuất luật kết hợp mờ
Thuật toán 2: Khai phá dữ liệu mờ theo hướng tiếp cận ĐSGT
Ký hiệu các tham số của thuật toán khai phá luật kết hợp mờ theo hướng tiếp
cận ĐSGT
N: Tổng số giao dịch trong CSDL
M: Tổng số thuộc tính
𝐴𝑗: Thuộc tính thứ j, 1 ≤ 𝑗 ≤ 𝑚 (thuộc tính định lượng hoặc thuộc tính hạng
mục)
|𝐴𝑗|: Số nhãn gia tử của thuộc tính Aj
𝑅𝑗𝑘: Nhãn gia tử j của thuộc tính Aj, 1 ≤ 𝑘 ≤ |Aj|
𝐷(𝑖): Dữ liệu giao dịch thứ i, 1 ≤ 𝑖 ≤ 𝑁
𝑣𝑗(𝑘)
: Giá trị phần tử thứ k của Aj trong D(i)
𝑓𝑗𝑘
(𝑖): Giá trị độ thuộc của 𝑣j
(k) với nhãn gia tử Rjk, 0 ≤ 𝑓𝑗𝑘
(𝑖) ≤ 1
𝑆𝑢𝑝(𝑅𝑗𝑘): Độ hỗ trợ của Rjk
Sup: Giá trị hỗ trợ của mỗi tập mục phổ biến
Conf: Độ tin cậy của mỗi tập mục phổ biến
Min_sup: Độ hỗ trợ tối thiểu cho trước
Min_conf: Độ tin tin cậy cho trước
𝐶𝑟: Tập các tập mục có khả năng với r thuộc tính (tập mục), 1 ≤ 𝑟 ≤ 𝑚
𝐿𝑟: Tập các tập mục phổ biến thỏa mãn với r nhãn gia tử (tập mục) 1 ≤ 𝑟 ≤
𝑚.
Thuật toán khai phá dữ liệu dựa trên ĐSGT cho các giá trị định lượng được
thực hiện như sau:
Input:
- CSDL giao tác D
- Các ĐSGT cho các thuộc tính mờ
- Độ hỗ trợ 𝑀𝑖𝑛_𝑠𝑢𝑝 và độ tin cậy 𝑀𝑖𝑛_𝑐𝑜𝑛𝑓
Output: Luật kết hợp mờ
Bước 1: Chuyển các giá trị định lượng 𝑣𝑗(𝑘)
của giao dịch 𝐴𝑗 trong 𝐷(𝑖)
, với i
từ 1 tới N. Với 𝑣𝑗(𝑘)
, nếu 𝑣𝑗(𝑘)
nằm ở ngoài 1 trong 2 đầu mút (2 nhãn gia tử cực đại
47
và cực tiểu) thì 𝑣𝑗(𝑘)
chỉ có 1 nhãn gia tử ứng với đầu mút đó. Ngược lại 𝑣𝑗(𝑘)
được
biểu diễn bởi 2 nhãn gia tử liên tiếp có đoạn giá trị nhỏ nhất trên trường giá trị của
𝑣𝑗(𝑘)
, mỗi nhãn ứng với 1 giá trị biểu diễn độ thuộc 𝑓𝑗𝑘(𝑖)
(j = 1, 2) của 𝑣𝑗(𝑘)
với nhãn gia
tử đó. Độ thuộc này được tính là khoảng cách của 𝑣𝑗(𝑘)
tới giá trị biểu diễn cho nhãn
gia tử tương ứng.
Bước 2: Thực hiện thuật toán nén giao dịch (Thuật toán 1) với CSDL được
mờ hóa ở Bước 1. Kết thúc bước này, chúng ta thu được CSDL giao dịch nén và bảng
định lượng.
Chúng ta sử dụng thuật toán giống như Apriori với CSDL nén để sinh ra các
tập phổ biến.
Bước 3: Dựa vào giá trị trong TL1 của bảng định lượng, giá trị trong TL1 là độ
hỗ trợ của các 𝑅𝑗𝑘. Nếu 𝑆𝑢𝑝(𝑅𝑗𝑘) ≥ min_𝑠𝑢𝑝 thì đưa Rjk vào L1.
Bước 4: Nếu L1 ≠ ∅, tiếp tục bước sau, nếu L1 = ∅ thì kết thúc thuật toán.
Bước 5: Thuật toán xây dựng tập mục phổ biến mức r từ các tập mục phổ biến
mức r - 1 bằng cách chọn 2 tập mục phổ biến mức r - 1 chỉ khác nhau duy nhất một
mục, hợp 2 tập mục này ta được tập mục ứng viên 𝐶𝑟. Trước khi sử dụng CSDL nén
để tính độ hỗ trợ của các tập mục trong 𝐶𝑟, dựa vào giá trị của TLr trong bảng định
lượng chúng ta có thể loại bớt một số ứng cử viên mà không cần phải duyệt CSDL
nén.
Bước 6: Duyệt CSDL nén, tính độ hỗ trợ của mỗi tập mục trong 𝐶𝑟. Nếu tập
mục nào có độ hỗ trợ thỏa mãn độ hỗ trợ tối thiểu thì đưa vào 𝐿𝑟.
Bước 7: Thực hiện theo các bước con sau đây lặp lại cho các tập mục phổ biến
mức lớn hơn được sinh ra tiếp theo dạng (r+1) tập mục phổ biến S với mục
(𝑠1, 𝑠2, … , 𝑠𝑡 , … , 𝑠𝑟+1) trong 𝐶𝑟+1, 1 ≤ 𝑡 ≤ 𝑟 + 1.
(a) Tính giá trị hỗ trợ sup(S) của S trong giao dịch
(b) Nếu 𝑆𝑢𝑝(𝑆) ≥ 𝑀𝑖𝑛_𝑠𝑢𝑝, thì đưa S vào 𝐿𝑟+1
Bước 8: Nếu Lr+1 là rỗng, thì thực hiện bước tiếp theo, ngược lại, đặt 𝑟 =
𝑟 + 1, thực hiện lại bước 6 và 7.
Bước 9: Đưa ra các luật kết hợp từ các tập mục phổ biến vừa thu được.
48
2.5. Kết quả thử nghiệm
Kết quả thử nghiệm được thực hiện với hai thuật toán: thuật toán đề xuất và
thuật toán trong [31] bằng ngôn ngữ lập trình C# và chạy thử nghiệm trên máy tính
có cấu hình như sau: Intel(R) Core i5 CPU, RAM 8GB.
Trong chương này, luận án sử dụng hai CSDL để thử nghiệm: FAM95 và
STULONG:
- Dữ liệu thử nghiệm STULONG gồm 5 thuộc tính có giá trị là các số nguyên
A1, A2, A3, A4, A5. Miền giá trị tương ứng của các thuộc tính là: [-1, 199], [-1, 133],
[90, 225], [50, 145], [-1, 530]. CSDL này gồm 1417 bản ghi.
- Dữ liệu thử nghiệm FAM95 là số liệu điều tra dân số Mỹ năm 1995. Luận
án lựa chọn 5 thuộc tính để thử nghiệm gồm: Age, Hours, IncFam, IncHead, Sex. Với
Age là tuổi của người dân, Hours là số giờ làm việc trong tuần, IncFam: thu nhập của
gia đình, IncHead là thu nhập của người đứng đầu gia đình, Sex giới tính của chủ gia
đình. Các thuộc tính: Age, Hours, IncFam, IncHead là các thuộc tính mờ, thuộc tính
Sex nhận các giá trị 0 (nữ) hoặc 1 (nam). CSDL FAM95 gồm 63565 bản ghi.
2.5.1. Thử nghiệm với CSDL FAM95
Trong Bảng 2.4 thống kê số lượng luật kết hợp thu được của ba phương pháp:
phương pháp sử dụng: CSDL không nén, CSDL nén, và CSDL nén và Bảng định
lượng. Với độ hỗ trợ 20%, 30% số lượng luật kết hợp của phương pháp luận án đề
xuất có khác so với phương pháp sử dụng thuật toán Apriori, với độ hỗ trợ tử 40%
đến 70% thì số lượng luật kết hợp thu được của ba phương pháp là giống nhau.
Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80%
Độ hỗ trợ
(%) CSDL không nén CSDL nén
CSDL nén, và Bảng định
lượng
20 238 255 255
30 98 94 94
40 34 34 34
50 18 18 18
60 6 6 2
70 2 2 2
49
Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80%
STT Luật kết hợp Đỗ hỗ
trợ
Độ tin
cậy
CSDL không nén
1 { VL_INCHEAD } ==> { VL_INCFAM } 92% 97%
2 { VL_INCFAM } ==> { VL_INCHEAD } 92% 98%
3 { LY_AGE } ==> { VL_INCHEAD } 69% 98%
4 { LY_AGE } ==> { VL_INCFAM } 70% 99%
5 { VL_INCHEAD, LY_AGE } ==> { VL_INCFAM } 69% 99%
6 { VL_INCFAM, LY_AGE } ==> { VL_INCHEAD } 69% 99%
CSDL giao dịch nén, không Bảng định lượng
1 { VL_INCHEAD } ==> { VL_INCFAM } 91% 98%
2 { VL_INCFAM } ==> { VL_INCHEAD } 91% 99%
3 { LY_AGE } ==> { VL_INCHEAD } 69% 99%
4 { LY_AGE } ==> { VL_INCFAM } 69% 100%
5 { VL_INCHEAD, LY_AGE } ==> { VL_INCFAM } 69% 100%
6 { VL_INCFAM, LY_AGE } ==> { VL_INCHEAD } 69% 99%
CSDL giao dịch nén, và Bảng định lượng
1 { VL_INCHEAD } ==> { VL_INCFAM } 91% 98%
2 { VL_INCFAM } ==> { VL_INCHEAD } 91% 99%
3 { LY_AGE } ==> { VL_INCHEAD } 69% 99%
4 { LY_AGE } ==> { VL_INCFAM } 69% 100%
5 { LY_AGE, VL_INCHEAD } ==> { VL_INCFAM } 69% 100%
6 { LY_AGE, VL_INCFAM } ==> { VL_INCHEAD } 69% 99%
Bảng 2.6: Luật kết hợp thu được với độ hỗ trợ 70% và độ tin cậy 80%
STT Luật kết hợp Đỗ hỗ trợ Độ tin cậy
CSDL không nén
1 { VL_INCHEAD } ==> { VL_INCFAM } 92% 97%
2 { VL_INCFAM } ==> { VL_INCHEAD } 92% 98%
CSDL giao dịch nén, không Bảng định lượng
1 { VL_INCHEAD } ==> { VL_INCFAM } 91% 98%
2 { VL_INCFAM } ==> { VL_INCHEAD } 91% 99%
CSDL giao dịch nén, và Bảng định lượng
1 { VL_INCHEAD } ==> { VL_INCFAM } 91% 98%
2 { VL_INCFAM } ==> { VL_INCHEAD } 91% 99%
50
Trong Bảng 2.5, Bảng 2.6 cho thấy số lượng luật kết hợp thu được của ba thử
nghiệm (với CSDL không nén, CSDL nén không sử dụng bảng định lượng, CSDL
nén sử dụng bảng định lượng) có số lượng giống nhau. Trong Bảng 2.5 so sánh tương
ứng từng luật của ba phương pháp cho thấy độ hỗ trợ và độ tin cậy của mỗi luật có
khác nhau nhưng không đáng kể.
Hình 2.3: Thời gian thực hiện với CSDL nén và CSDL không nén
Hình 2.4: Thời gian thực hiện với CSDL nén
0
200
400
600
800
1000
1200
1400
1600
10% 20% 30% 40% 50% 60% 70% 80%
TIM
E (
SE
CO
ND
)
MINIMUM SUPPORT
CSDL không nén CSDL nén
0
50
100
150
200
250
300
4% 5% 10% 15% 20% 25% 30%
TIM
E (
SE
CO
ND
)
MINIMUM SUPPORT
Không sử dụng bảng định lượng Sử dụng bảng định lượng
51
Trong Hình 2.3 so sánh thời gian thực thuật toán Apriori mờ với CSDL không
nén và thời gian thực hiện với CSDL nén nhưng không sử dụng bảng định lượng.
Trong Hình 2.4 so sánh thời gian thực hiện thuật toán cùng với CSDL nén có
sử dụng bảng định lượng và CSDL nén không sử dụng bảng định lượng.
Thời gian dùng để nén CSDL trên là 135 giây, số giao dịch thu được sau khi
nén là 2402 giao dịch. Kết quả thử nghiệm với độ tin cậy là 60%, luận án thử nghiệm
với hai thuật toán: Luật kết hợp theo cách tiếp cận của ĐSGT [2] và thuật toán luận
án đề xuất là nén CSDL mờ theo hướng tiếp cận ĐSGT. Kết quả thử nghiệm cho thấy
phương pháp đề xuất nén CSDL cho kết quả nhanh hơn với phương pháp đề xuất
trong [2] và giá trị của các tập phổ biến tìm được giống với khi chúng ta sử dụng
CSDL không nén.
2.5.2. Thử nghiệm với CSDL STULONG
Trong Bảng 2.7 thống kê số lượng luật kết hợp thu được của ba phương pháp:
phương pháp sử dụng: CSDL không nén, CSDL nén, và CSDL nén và Bảng định
lượng.
Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80%
Độ hỗ trợ (%) CSDL không nén CSDL nén CSDL nén,
và Bảng định lượng
5% 7822 8188 8185
10% 5076 5532 5527
20% 2149 2528 2528
30% 1096 1348 1318
40% 587 599 599
50% 248 287 287
60% 107 155 155
70% 75 75 75
80% 23 35 35
Nhận xét: số lượng luật kết hợp thu được của phương pháp luận án đề xuất sử
dụng CSDL nén có sử dụng bảng định lương và không sử dụng bảng định lượng cơ
bản là giống nhau.
52
Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80%
Độ hỗ trợ (%) CSDL không nén CSDL nén CSDL nén,
và Bảng định lượng
5% 669 41.4 41.4
10% 580 26.4 26.3
20% 187 8.3 8.3
30% 72 3.6 3.5
40% 26 1.1 1.1
50% 8 0.4 0.4
60% 3 0.2 0.2
70% 1 0.1 0.1
Trong Bảng 2.9, Bảng 2.10 cho thấy số lượng luật kết hợp thu được của ba thử
nghiệm (với CSDL không nén, CSDL nén không sử dụng bảng định lượng, CSDL
nén sử dụng bảng định lượng) có số lượng luật kết hợp giống nhau. Trong Bảng 2.9,
Bảng 2.10 so sánh tương ứng từng luật của ba phương pháp cho thấy độ hỗ trợ và độ
tin cậy của mỗi luật có khác nhau nhưng không đáng kể.
Bảng 2.9: Luật kết hợp thu được với độ hỗ trợ 85% và độ tin cậy 80%
STT Luật kết hợp Đỗ hỗ
trợ
Độ tin
cậy
CSDL không nén
1 { LL_A5 } ==> { LH_A2 } 86 % 97 %
2 { LH_A2 } ==> { LL_A5 } 86 % 93 %
3 { LL_A5 } ==> { VH_A1 } 88 % 99 %
4 { VH_A1 } ==> { LL_A5 } 88 % 91 %
5 { LH_A2 } ==> { VH_A1 } 92 % 99 %
6 { VH_A1 } ==> { LH_A2 } 92 % 95 %
7 { LL_A5, VH_A1 } ==> { LH_A2 } 85 % 97 %
8 { LH_A2, VH_A1 } ==> { LL_A5 } 85 % 93 %
9 { LH_A2, LL_A5 } ==> { VH_A1 } 85 % 100 %
CSDL giao dịch nén, không Bảng định lượng
1 { LL_A5 } ==> { LH_A2 } 88 % 99 %
2 { LH_A2 } ==> { LL_A5 } 88 % 95 %
3 { LL_A5 } ==> { VH_A1 } 88 % 100 %
53
4 { VH_A1 } ==> { LL_A5 } 88 % 91 %
5 { LH_A2 } ==> { VH_A1 } 92 % 100 %
6 { VH_A1 } ==> { LH_A2 } 92 % 95 %
7 { LL_A5, VH_A1 } ==> { LH_A2 } 87 % 99 %
8 { LH_A2, VH_A1 } ==> { LL_A5 } 87 % 95 %
9 { LH_A2, LL_A5 } ==> { VH_A1 } 87 % 100 %
CSDL giao dịch nén, và Bảng định lượng
1 { B3 } ==> { A4 } 92 % 100 %
2 { A4 } ==> { B3 } 92 % 95 %
3 { E2 } ==> { A4 } 88 % 100 %
4 { A4 } ==> { E2 } 88 % 91 %
5 { E2 } ==> { B3 } 88 % 99 %
6 { B3 } ==> { E2 } 88 % 95 %
7 { B3, E2 } ==> { A4 } 87 % 100 %
8 { A4, E2 } ==> { B3 } 87 % 99 %
9 { A4, B3 } ==> { E2 } 87 % 95 %
Bảng 2.10: Luật kết hợp thu được với độ hỗ trợ 90% và độ tin cậy 80%
STT Luật kết hợp Đỗ hỗ
trợ
Độ tin
cậy
CSDL không nén
1 { LH_A2 } ==> { VH_A1 } 92 % 99 %
2 { VH_A1 } ==> { LH_A2 } 92 % 95 %
CSDL giao dịch nén, không Bảng định lượng
1 { LH_A2 } ==> { VH_A1 } 92 % 100 %
2 { VH_A1 } ==> { LH_A2 } 92 % 95 %
CSDL giao dịch nén, và Bảng định lượng
1 { B3 } ==> { A4 } 92 % 100 %
2 { A4 } ==> { B3 } 92 % 95 %
54
Trong Hình 2.3 so sánh thời gian thực thuật toán Apriori mờ với CSDL không
nén và thời gian thực hiện với CSDL nén nhưng không sử dụng bảng định lượng.
Hình 2.5: Thời gian thực hiện với CSDL nén và CSDL không nén
Trong Hình 2.5 so sánh thời gian thực hiện thuật toán cùng với CSDL nén có
sử dụng bảng định lượng và CSDL nén không sử dụng bảng định lượng. Kết quả thử
nghiệm với độ tin cậy là 80%, luận án thử nghiệm với hai thuật toán: Luật kết hợp
theo cách tiếp cận của ĐSGT [2] và thuật toán luận án đề xuất là nén CSDL mờ theo
hướng tiếp cận ĐSGT. Kết quả thử nghiệm cho thấy phương pháp đề xuất nén CSDL
cho kết quả nhanh hơn với phương pháp đề xuất trong [2] và giá trị của các tập phổ
biến tìm được giống với khi chúng ta sử dụng CSDL không nén.
2.6. Kết luận chương 2
Trong chương này luận án nghiên cứu ĐSGT và phát triển thuật toán nén
CSDL giao dịch sử dụng cho bài toán khai phá luật kết hợp mờ. Với cách tiếp cận
này, các giao dịch gần nhau được gộp lại để tạo thành giao dịch mới, làm giảm kích
thước của CSDL đầu vào. Thuật toán nén CSDL giao dịch được thử nghiệm trên
CSDL: FAM95 và STULONG. Kết quả thử nghiệm với 2 CSDL cho thấy phương
pháp đề xuất nén CSDL cho kết quả nhanh hơn với phương pháp đề xuất trong [2] và
giá trị của các tập phổ biến tìm được giống với khi chúng ta sử dụng CSDL không
nén. Nội dung của chương này được công bố trong các công trình [i, ii].
0
100
200
300
400
500
600
700
800
5% 10% 20% 30% 40% 50% 60% 70% 80%
TIM
E (
SE
CO
ND
)
MINIMUM SUPPORT
CSDL không nén CSDL nén không sử dụng bảng định lượng
55
Trong chương này, luận án sử dụng ĐSGT với các biểu diễn đơn thể hạt cho
các thuộc tính với tham số giống nhau. Để nâng cao hiệu quả khai phá luật kết hợp
và để tìm ra các luật có ý nghĩa hơn, trong chương 3 luận án nghiên cứu và đề xuất
phương pháp tối ưu các tham số mờ cho phù hợp với từng thuộc tính với biểu diễn
đơn thể hạt và đa thể hạt.
56
CHƯƠNG 3. PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN
BIỂU DIỄN THỂ HẠT CỦA ĐSGT
Mục tiêu chính của khai phá luật kết hợp là tìm ra các mối liên hệ giữa các tập
mục trong CSDL. Trong bài toán khai phá luật kết hợp mờ sử dụng lý thuyết tập mờ
cho các thuộc tính định lượng. Việc thiết kế phân hoạch mờ trên miền thuộc tính cho
bài toán khai phá luật kết hợp có vài trò hết sức quan trọng đối kết quả của các luật
kết hợp mờ thu được.
Trong chương này, luận án trình bày một số cách phân chia miền mờ và đề
xuất phương pháp phân chia miền mờ bằng cách sử dụng lý thuyết ĐSGT dựa trên
biểu diễn đơn thể hạt và đa thể hạt. ĐSGT cho phép mô hình hoá và thiết kế các từ
ngôn ngữ cùng với ngữ nghĩa dựa trên tập mờ. Luận án đề xuất thuật toán tối ưu các
hàm thuộc được xây dựng dựa trên lý thuyết ĐSGT cho bài toán khai phá luật kết
hợp mờ. Các kết quả thử nghiệm cho thấy kết quả của các phương pháp đề xuất có
một số ưu việt hơn một số phương pháp đã đề xuất trước đây.
3.1. Phân hoạch cho miền giá trị của thuộc tính
3.1.1. Đặt vấn đề
Bài toán phân chia miền xác định các thuộc tính định lượng của một tập dữ
liệu đầu vào như sau: Cho miền xác định của một thuộc tính (ở đây chỉ xét thuộc tính
định lượng). Mỗi thuộc tính định lượng có một miền xác định (hoặc miền giá trị) là
miền trên trục số thực bao gồm các giá trị mà thuộc tính định lượng đó có thể nhận.
Thí dụ tuổi có thể nhận các giá trị từ 0 đến 120. Yêu cầu là phải phân chia miền thuộc
tính ra thành các hạt và mỗi hạt có nhãn ngôn ngữ biểu thị bằng tập mờ.
Việc phân chia này là cần thiết vì sử dụng tập mờ với nhãn ngôn ngữ phù hợp
với cách con người sử dụng ngôn ngữ và để tương tác với người dùng. Việc phân chia
có thể là rời rạc nhưng xu hướng chung là phân chia thành các miền có giao nhau rõ
hay mờ vì nó mang tính hợp lý hơn. Chẳng hạn, với thuộc tính “khoảng cách”, việc
phân chia rời rạc có thể là [0 km, 50 km] là “gần”; [51km, 100 km] là “trung bình”;
[100 km, 200 km] là “xa”, nhưng như vậy thì khoảng cách 50km và 51 km rất gần
nhau nhưng lại thuộc hai nhãn khoảng cách khác nhau không thật hợp lý. Với phân
57
chia mờ, ta coi các nhãn “gần”, “trung bình”, “xa” là các tập mờ, khi đó một giá trị x
bất kỳ thuộc miền giá trị của thuộc tính “khoảng cách” sẽ chuyển đổi thành tập các
độ thuộc 𝜇𝐺ầ𝑛(𝑥), 𝜇𝑇𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ(𝑥), 𝜇𝑋𝑎(𝑥) và ta sẽ xử lý trên tập độ thuộc của x vào các
tập mờ thay vì xử lý trực tiếp giá trị x. Khi đó, việc xử lý sẽ có chi phí lớn hơn nhưng
rõ ràng là mang tính mềm dẻo hơn nhiều.
Trong cách tiếp cận lý thuyết tập mờ, các tác giả phân chia miền giá trị của
thuộc tính thành các tập mờ, và điều chỉnh tham số của các tập mờ. Việc gán nhãn
ngôn ngữ vào các tập mờ dựa trên trực giác của người thiết kế. ĐSGT xuất phát từ
khung nhận thức ngôn ngữ để từ đó thiết kế các từ ngôn ngữ cùng với ngữ nghĩa dựa
trên tập mờ của chúng.
3.1.2. Rời rạc hóa thuộc tính định lượng
Khai phá luật kết hợp với thuộc tính định lượng và thuộc tính hạng mục là một
trong những hướng tiếp cận quan trọng trong lĩnh vực khai phá luật kết hợp. Dạng
luật này được đề xuất nghiên cứu lần đầu tiên được R. Agrawal (1993) đề xuất trong
[54].
Bảng dữ liệu trong Bảng 3.1 minh họa một CSDL bao gồm các thuộc tính nhị
phân (binary), thuộc tính định lượng (quantitative), và thuộc tính hạng mục
(categorical). Trong CSDL này, thuộc tính Tuổi, Thu nhập là các thuộc tính định
lượng (quantitative), Số con là các thuộc tính hạng mục (categorical), còn các thuộc
tính còn lại như Giới tính là các thuộc tính nhị phân. Thực ra thuộc tính nhị phân cũng
là một trường hợp đặc biệt của thuộc tính hạng mục.
Các thuật toán khai phá luật kết hợp nhị phân chỉ có thể áp dụng trên những
CSDL quan hệ chỉ có thuộc tính nhị phân. Chúng không thể áp dụng trực tiếp với các
CSDL có thuộc tính định lượng và thuộc tính hạng mục như trong CSDL ở Bảng 3.1.
Muốn thực hiện được điều này, R. J. Miller (1997) đề xuất trong [8] phải tiến
hành rời rạc hóa dữ liệu cho các thuộc tính định lượng để chuyển chúng về thuộc tính
nhị phân. Mặc dù các thuật toán được đề xuất trong [65] có thể giải quyết trọn vẹn
bài toán này, tuy vậy kết quả tìm được vẫn chưa làm thỏa mãn những nhà nghiên cứu.
Vấn đề không phải ở thuật toán mà là cách thức rời rạc hóa dữ liệu được áp dụng.
Mục này sẽ trình bày một vài phương pháp rời rạc hóa, đồng thời đánh giá xem chúng
có những ưu và nhược điểm gì.
58
Có 2 cách phân chia miền xác định thuộc tính thành các miền con rõ và mờ.
Cách phân chia thành các miền con rõ có thể thấy qua ví dụ sau:
Nếu A là thuộc tính định lượng rời rạc (quantitative & discrete) hoặc là thuộc
tính hạng mục (categorical) với miền giá trị hữu hạn dạng {v1, v2, … , vk} và k đủ bé
thì ta sẽ biến đổi thuộc tính này thành k thuộc tính nhị phân dạng A_V1, A_V2, … A_Vk.
Giá trị của một bản ghi tại trường A_Vi bằng 1 nếu giá trị của bản ghi đó của thuộc
tính A ban đầu bằng 𝑣𝑖, trong các trường hợp còn lại giá trị của A_Vi sẽ là 0.
Bảng 3.1: CSDL thống kế dân số của 10 gia đình
STT Tuổi Giới tính Thu nhập Số con
1 48 Nữ 17546 1
2 40 Nam 30085 3
3 51 Nữ 16575 0
4 23 Nữ 20375 3
5 57 Nữ 50576 0
6 57 Nữ 37869 2
7 22 Nam 8877 0
8 58 Nam 24946 0
9 37 Nam 25304 2
10 54 Nam 24212 2
Dữ liệu trong Bảng 3.1 có 3 thuộc tính kiểu số, đó là "Tuổi", "Thu nhập", và
"Số con". Đối với thuộc tính "Số con", vì phạm vi giá của nó chỉ có thể là 0, 1, 2 và
3 cho nên ta có thể giữ lại các giá trị của thuộc tính này.
Bảng 3.2: Rời rạc hóa thuộc tính định lượng
Số con (0, 1, 2, 3) ===>
Sau khi rời
rạc hóa
Số con_1 Số con_2 Số con_3
3 0 0 1
1 1 0 0
2 0 1 0
Nếu A là thuộc tính định lượng liên tục (quantitative & continuous) hoặc A là
thuộc tính định lượng rời rạc hay thuộc tính hạng mục với miền giá trị dạng
{v1, v2, … , vp} (p lớn) thì ta sẽ ánh xạ thành q thuộc tính nhị phân <
𝐴: start1. . end1 >, < 𝐴: start2. . end2 >, …, < 𝐴: startq. . endq >. Giá trị của một
59
bản ghi tại trường < 𝐴: starti. . endi > sẽ bằng 1 nếu giá trị của bản ghi đó tại thuộc
tính A ban đầu năm trong khoảng [starti. . endi], ngược lại nó sẽ nhận giá trị 0. Thuộc
tính Tuổi, và Thu nhập trong CSDL ở Bảng 3.1 là những thuộc tính dạng này. Ví dụ
ta chia thuộc tính Tuổi thành các thuộc tính nhị phân ở hai bảng sau:
Bảng 3.3: Ví dụ rời rạc hóa thuộc tính "Tuổi"
Tuổi
Sau khi rời
rạc hóa
Tuổi: 1-29 Tuổi: 30-59 Tuổi: 60-120
74 0 0 1
29 1 0 0
30 0 1 0
59 0 1 0
60 0 0 1
Rời rạc hóa theo khoảng cũng nảy sinh một vấn đề về ngữ nghĩa. Ví dụ rời rạc
hóa thuộc tính Tuổi trong Bảng 3.3 cho thấy rằng 29 và 30 chỉ cách nhau một tuổi lại
thuộc về hai khoảng khác nhau. Nếu ta cho khoảng [1..29] là trẻ, [30..59] là trung
niên, còn [60..150] là già thì 59 tuổi được xem là trung niên trong khi 60 tuổi lại được
xem là già. Đây là điều rất thiếu tự nhiên và không "thuận" với cách tư duy của con
người bởi trong thực tế tuổi 60 chỉ "già hơn" tuổi 59 chút ít.
Phương pháp rời rạc hóa trên gặp phải vấn đề "điểm biên gãy" [27] (sharp
boundary problem). Nhằm khắc phục "Điểm biên gãy", Gyenesei và cộng sự [27] đã
đề xuất một cách phân khoảng mới sao cho các khoảng liền kề có một phần "gối" lên
nhau (overlap) ở phần đường biên giữa chúng. Cách phân khoảng này giải quyết được
vấn đề trên, nhưng lại gặp phải một vấn đề mới là khi đó tổng độ hỗ trợ của các
khoảng lớn hơn 100% và một số giá trị (nằm ở lân cận biên) được "coi trọng" hơn so
với các giá trị khác của thuộc tính - điều này là rất thiếu tự nhiên và có phần mâu
thuẫn.
Với những vấn đề nảy sinh ở trên, người ta đã đề xuất một dạng luật mới: luật
kết hợp mờ [23, 31, 57, 59]. Luật kết hợp mờ đã khắc phục được các vấn đề phân
khoảng như đã nêu trên. Các luật kết hợp mờ dạng này đem lại một dạng luật tự nhiên
hơn về mặt ngữ nghĩa và gần gũi với con người hơn.
Trong bài toán khai phá luật kết hợp mờ, chúng ta cần phải phần chia miền giá
trị của các thuộc tính thành các miền mờ, với mỗi miền mờ này thường gắn với một
60
hàm thuộc và nhãn ngôn ngữ. Cách phân chia miền xác định thành các miền con mờ
có nhiều ưu điểm hơn và sẽ là cách mà luận án sử dụng nên sẽ được trình bày kỹ ở
mục 3.1.3.
3.1.3. Phân chia miền giá trị của thuộc tính theo cách tiếp cận lý thuyết tập mờ
Một số phương pháp phân chia miền mờ phổ biến được sử dụng trong thời
gian gần đây:
a) Phân chia đều miền giá trị thuộc tính
Trong phương pháp này, ta chọn một số cố định các miền cần chia và chia một
mục thành các miền đều nhau. Phương pháp này đơn giản và có lẽ là tốt khi ta không
có thông tin nào khác, nhưng hiển nhiên là không đáp ứng tính đa dạng của dữ liệu.
b) Phân chia theo phương pháp phân cụm
Các thuộc tính liên tục (thuộc tính định lượng) có thể được xử lý bằng cách sử
dụng lý thuyết tập mờ. Rất khó để xác định hàm thuộc cho các thuộc tính dựa trên
trực giác. Trong phần này, ta mô tả các bước cơ bản của việc tìm các tập mờ và các
hàm thuộc tương ứng từ CSDL cho trước.
Với mỗi thuộc tính, bước đầu tiên chuyển giá trị của thuộc tính về dạng có thể
sử dụng phân cụm. Sau đó, áp dụng phương pháp phân cụm (K-Mean) để tìm kiếm
tập mờ, chúng ta sẽ xem xét không gian tìm kiếm của một CSDL gồm n thuộc tính
(thuộc tính: số, hạng mục, nhị phân) như là không gian n chiều. Thuật toán biết đến
nhiều trong hướng phân cụm K-Mean [17]. Phương pháp này tính đến sự đa dạng của
việc phân bố dữ liệu nhưng đòi hỏi phải tiến hành thực hiện các thuật toán tốn nhiều
thời gian. Một số công trình theo hướng này đã được các nhà nghiên cứu công bố
trong [12, 23, 24, 32].
Các bước để xây dựng các tập mờ có thể nói ngắn gọn như sau:
1) Biến đối dữ liệu gốc về dạng có thể phân cụm được;
2) Tìm trong tâm của k cụm trong CSDL;
3) Sử dụng trọng tâm của các cụm, xây dựng các tập mờ cho mỗi thuộc tính
định lượng;
4) Xây dựng các hàm thuộc tương ứng cho các thuộc tính định lượng.
Sau khi có được k tâm của các cụm của mỗi thuộc tính trong CSDL. Chúng ta
sử dụng các tâm này để xác định các tập mờ cho mỗi thuộc tính thành k tập mờ. Với
{𝑚1, 𝑚2, … ,𝑚𝑘} là k tâm cụm của n thuộc tính định lượng có được từ CSDL, với
61
𝑚𝑖 = {𝑎𝑖1, 𝑎𝑖2, … , 𝑎𝑖𝑛} là tâm của các cụm của thuộc tính thứ i. Chúng ta muốn xác
định các tập mờ cho thuộc tính thứ j với các giá trị số nằm trong đoạn 𝑚𝑖𝑛𝑗 đến 𝑚𝑎𝑥𝑗,
{𝑎1𝑗 , 𝑎2𝑗 , … , 𝑎𝑘𝑗} là tập các tâm của các cụm của miền mờ của thuộc tính j. k miền
mờ sẽ có phạm vi như sau: {𝑚𝑖𝑛𝑗 − 𝑎2𝑗}, {𝑎1𝑗 − 𝑎3𝑗},…, {𝑎(𝑖−1)𝑗 −
𝑎(𝑖+1)𝑗},…, {𝑚𝑖𝑛(𝑘−1)𝑗 −𝑚𝑎𝑥𝑗}.
Ví dụ 3.1: CSDL gồm có các thuộc tính định lượng (Lương có giá trị nằm
trong đoạn: 4000 đến 32000). Chúng ta có 3 trong tâm, với: 𝑚1 = 7000, 𝑚2 =
10000, 𝑚3 = 20000.
Nhãn tập mờ Phạm vị Trọng tâm
Low 4000 - 10000 7000
Medium 7000 - 20000 10000
Hight 10000 - 32000 20000
Để sinh các hàm thuộc tương ứng từ các tập mờ cho một thuộc tính định lượng
như trong [23]. Với {𝑚1, 𝑚2, … ,𝑚𝑘} là giá trị của k trọng tâm (medoids) được tìm
thấy từ CSDL có n thuộc tính, với 𝑚𝑖 = {𝑎𝑖1, 𝑎𝑖2, … , 𝑎𝑖𝑛} là medoids thứ i. Chúng ta
muốn xây dựng hàm thuộc của tập mờ cho thuộc tính thứ j với miền giá trị của thuộc
tính nằm trong đoạn từ 𝑚𝑖𝑛𝑗 đến 𝑚𝑎𝑥𝑗, {𝑎1𝑗 , 𝑎2𝑗 , … , 𝑎𝑘𝑗 , } là tập các trọng tâm của
miền mờ của thuộc tính j.
Với miền mờ có điểm trong tâm là 𝑎1𝑗, hàm thuộc được xây dựng như sau:
𝑓1𝑗(𝑥) =
{
1 𝑛ế𝑢 𝑥 ≤ 𝑎1𝑗𝑥 − 𝑎2𝑗
𝑎1𝑗 − 𝑎2𝑗𝑛ế𝑢 𝑎1𝑗 < 𝑥 < 𝑎2𝑗
0 𝑛ế𝑢 𝑥 ≥ 𝑎1𝑗
(3.1)
Với miền mờ có điểm trong tâm là 𝑎𝑘𝑗, hàm thuộc được xây dựng như sau:
𝑓1𝑗(𝑥) =
{
1 𝑛ế𝑢 𝑥 ≤ 𝑎1𝑗𝑥 − 𝑎(𝑘−1)𝑗
𝑎𝑘𝑗 − 𝑎(𝑘−1)𝑗𝑛ế𝑢 𝑎(𝑘−1)𝑗 < 𝑥 < 𝑎𝑘𝑗
0 𝑛ế𝑢 𝑥 ≥ 𝑎2𝑗
(3.2)
Với miền mờ có điểm trong tâm là 𝑎𝑖𝑗, 2 ≤ 𝑖 ≤ 𝑘 − 1 hàm thuộc được xây
dựng như sau:
62
𝑓1𝑗(𝑥) =
{
1 𝑛ế𝑢 𝑥 ≤ 𝑎1𝑗𝑥 − 𝑎(𝑖−1)𝑗
𝑎𝑖𝑗 − 𝑎(𝑖−1)𝑗𝑛ế𝑢 𝑎(𝑖−1)𝑗 < 𝑥 < 𝑎𝑖𝑗
𝑥 − 𝑎(𝑖+1)𝑗
𝑎𝑖𝑗 − 𝑎(𝑖+1)𝑗𝑛ế𝑢 𝑎𝑖𝑗 < 𝑥 < 𝑎(𝑖+1)𝑗
0 𝑛ế𝑢 𝑥 ≥ 𝑎2𝑗
(3.3)
c) Phân chia theo phương pháp ràng buộc động
Việc xác định các hạt thông tin đóng vai trò hết sức quan trọng trong các bài
toán khai phá dữ liệu mờ, các hạt thông tin này là các tập mờ. Phân chia theo rằng
buộc động có nghĩa là các miền con mờ không cố định một lần mà có thể thay đổi
phụ thuộc vào số liệu, vào kết quả phân hoạch. Tương ứng với một tập mờ là một
hàm thuộc. Các hàm thuộc thường dùng: hàm thuộc hình thang, hàm thuộc hình
chuông, và hàm thuộc dạng Gaussian. Mỗi hàm thuộc thường có các tham số để điều
chỉnh độ thuộc của các giá trị vào miền mờ. Ví dụ hàm thuộc dạng tam giác gồm có
3 tham số. Để có được các miền con mờ tốt (tối ưu xấp xỉ), có thể dùng giải thuật GA
hoặc các phương pháp khác để tối ưu các tham số của các tập con mờ dùng phân chia
miền xác định. Việc tối ưu các tham số của các hàm thuộc là một hướng nghiên cứu
trong bài toán khai phá luật kết hợp mờ. Để giải quyết nhiệm vụ này, một số nghiên
cứu sử dụng thuật toán tiến hoá nhằm tăng khả năng trong việc tối ưu và đã cụ thể
hóa các số đo cụ thể như độ chồng lấn, phủ,… của các hàm thuộc.
Cụ thể, Hong và cộng sự [55] phát triển thuật toán sử dụng GA để khai thác
dữ liệu mờ, kết quả cho thấy thuật toán có thể đưa ra được các hàm thuộc thích hợp
cho khai phá luật kết hợp mờ. Sau đó, họ tiếp tục sử dụng chiến lược chia để trị nhằm
năng cao hiệu quả [83]. Chen và cộng sự (2008) [11] đề xuất phương pháp sử dụng
thuật toán phân cụm để giảm chi phí khi đánh giá. Phương pháp đề xuất chia quần
thể thành nhiều cụm và thông qua độ hỗ trợ của một nhiễm sắc thể đại diện trong mỗi
cụm để đánh giá. Alcalá-Fdez và cộng sự [28] không sử dụng GA để tối ưu hàm
thuộc, mà sử dụng GA để lựa chọn luật kết hợp mờ. Lee và cộng sự [59] đề xuất sử
dụng GA để đánh giá trực tiếp tập các luật kết hợp mờ thay vì đánh giá tham số của
các hàm thuộc.
Hơn nữa, Chen và cộng sự [33] đề xuất thuật toán khai phá luật mờ để giải
quyết vấn đề thiết lập độ hỗ trợ tối thiểu. Ngoài việc sử dụng GA, giải thuật tối ưu
bầy đàn (PSO) và các thuật toán tiến hoá khác cũng được áp dụng để tối ưu các tham
số của hàm thuộc. Cai và cộng sự [58] đề xuất phương pháp PSO phi tuyến để khai
63
phá luật kết hợp mờ, với mỗi cá thể (particle) biểu diễn tất cả các tham số của các
hàm thuộc. Mishra và cộng sự [80] áp dụng giải thuật PSO để mã hoá gene cho mẫu
phổ biến mờ. Giải thuật PSO khởi tạo quần thể sử dụng phương pháp tăng trưởng
mẫu phổ biến để cải thiện hiệu xuất.
Bên cạnh tối ưu đơn mục tiêu, các nhà nghiên cứu cũng quan tâm đến tối ưu
đa mục tiêu trong bài toán khai phá luật kết hợp mờ [81]. Khi tối ưu các hàm thuộc
sẽ có nhiều hơn một mục tiêu sẽ được tối ưu. Qodmanan và cộng sự [72] xem xét cả
đỗ hỗ trợ và độ tin cậy, và Meng và cộng sự [20] tối ưu cả định lượng ngôn ngữ và
tính đứng đắn trong hàm mục tiêu. Minaei-Bidgoli và cộng sự [63] quan tâm đến
nhiều mục tiêu hơn bao gồm: độ hỗ trợ, độ tin cậy, tính toàn diện và độ thú vị. Họ sử
dụng phương pháp tiếp cận Michigan cho thuật toán tối ưu đa mục tiêu, với mỗi
nhiễm sắc thể biểu thị một luật kết hợp.
Theo Pulkkinen và cộng sự [16], Hong và cộng sự [83] đã cụ thể hoá bằng các
số đo cụ thể như độ chồng lến, độ phủ,… sẽ được trình bày ở phần sau:
- Số lượng các (hàm thuộc) MF mỗi biến là vừa phải.
- Các MF được phân biệt, ví dụ hai MF không đặc trưng cho cùng hoặc gần
như cùng một nhãn ngôn ngữ.
- Mỗi MF là chuẩn hóa tức là nếu nó đạt đến giá trị 1 ít nhất tại một điểm của
miền giá trị.
- Các miền mờ phủ toàn bộ miền giá trị tương ứng và ít nhất độ thuộc vào một
MF nhận giá trị β > 0 tại bất kỳ điểm nào trên miền giá trị.
Trong mục 3.2, thay vì sử dụng lý thuyết tập mờ để xây dựng các hàm thuộc,
luận án sử dụng ĐSGT để phân chia miền giá trị của các thuộc tính định lượng. Từ
đó, chúng ta xây dựng các hàm thuộc hình tam giác để phục vụ các bước tiếp theo
của khai phá luật kết hợp mờ.
3.2. Phương pháp phân hoạch mờ bằng biểu diễn thể hạt với ĐSGT
Trong phần này, luận án trình bày phương pháp phân chia miền xác định thuộc
tính định lượng theo cách tiếp cận của Đại số gia tử dựa trên biểu diễn đơn thể hạt và
đa thể hạt của dữ liệu. ĐSGT cho ta một cấu trúc toán học khá tốt xây dựng trên miền
xác định thuộc tính, giúp ta không chỉ có được phân hoạch miền xác định một cách
đơn giản mà còn cho phép gắn chặt ngữ nghĩa của miền con mờ với nhãn ngôn ngữ
mà nó biểu diễn, luôn đảm bảo thứ tự tự nhiên của các nhãn ngôn ngữ đó. Không
64
những thế, phân hoạch dựa trên ĐSGT theo cách luận án sử dụng luôn là một phân
hoạch mạnh. Với cách tiếp cận này, các luật kết hợp được khai phá sẽ phản ánh phong
phú và đa dạng hơn tri thức ẩn chứa trong kho thông tin được khai phá, từ những tri
thức có tính khái quát cao cho đến những tri thức mang tính riêng biệt, chi tiết hơn
đáp ứng tốt nhu cầu của người quản lý.
3.2.1. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt
Với một số kết quả liên quan đến khoảng tính mờ của các phần tử của ĐSGT
nêu trong mục 1.2.4, ta có thể thấy ngay một cách tính độ thuộc của một giá trị bất
kỳ trong CSDL số đã cho vào các tập mờ dùng phân chia miền mờ của mục [25, 26].
Ta thấy, trên miền xác định của mục (item) (có thể đã chuẩn hóa về đoạn [0,1], một
giá trị bất kỳ đều nằm giữa hai giá trị ĐLNN của 2 khoảng tính mờ liên tiếp hoặc
trùng với một giá trị ĐLNN của một khoảng tính mờ do tính chất tạo nên phân hoạch
miền xác định của các khoảng tính mờ. Như vậy, khoảng cách giữa giá trị 𝑥𝑖𝑗 đó tới
2 giá trị ĐLNN có thể dùng để tính độ thuộc của 𝑥𝑖𝑗 vào các tập mờ được biểu diễn
bởi các khoảng tính mờ đó (trường hợp trùng với 1 giá trị ĐLNN thì chỉ có 1 độ
thuộc): khoảng cách càng nhỏ thì độ thuộc càng lớn, nếu trùng có thể coi đạt 1. Trong
Hình 3.1, tác giả dùng các giá trị ĐLNN để phân hoạch miền xác định của thuộc tính
thành các miền mờ. Tương ứng với mỗi miền mờ dựng các tam giác là biểu diễn các
hàm thuộc của tập mờ với 1 đỉnh có tọa độ (𝜐(𝑥𝑖), 1), hai đỉnh còn lại nằm trên miền
xác định, có tọa độ tương ứng là (𝜐(𝑥𝑖−1),0), (𝜐(𝑥𝑖+1), 0), trong đó 𝜐(𝑥𝑖−1), 𝜐(𝑥𝑖),
𝜐(𝑥𝑖+1) là 3 giá trị ĐLNN liên tiếp (Hình 3.1).
Có thể thấy về thực chất hai cách xây dựng này là tương đương. Thật vậy, giả
sử ta có điểm E là một điểm tùy ý trên trục biểu diễn miền xác định của thuộc tính 𝐼𝑖.
Khi đó, theo cách thứ nhất, khoảng cách 𝐸𝜈(𝑥2) và 𝐸𝜈(𝑥3) sẽ được dùng để xác định
độ thuộc của E vào các tập mờ được biểu diễn bằng các hàm thuộc - tam giác
𝜈(𝑥1) 𝐵 𝜈(𝑥3) và 𝜈(𝑥2) 𝐶 𝜈(𝑥4), thông qua việc chuẩn hóa để độ thuộc luôn nằm
trong khoảng [0,1]. Còn theo cách thứ 2, ta có EG và EF chính là độ thuộc của E vào
2 tập mờ này. Ta có, do EG song song với 𝜈(𝑥2) 𝐵 nên 𝐸𝐺
𝜈(𝑥2)𝐵 =
𝐸 𝜈(𝑥2)
𝜈(𝑥2)𝜈(𝑥3). Tương tự
𝐸𝐹
𝑣(𝑥3)𝐶 =
𝜈(𝑥3)𝐸
𝜈(𝑥2)𝜈(𝑥3). Ngoài ra, 𝜈(𝑥2) 𝐵 = 𝜈(𝑥3) 𝐶 = 1 nên cuối cùng ta có
𝐸𝐹
𝐸𝐺=
𝐸 𝜈(𝑥3)
𝐸 𝜈(𝑥2). Từ đó dễ dàng suy ra thực chất hai cách gắn độ thuộc này là tương đương.
65
Điều đó cũng nhấn mạnh thêm cách gắn độ thuộc theo cách của ĐSGT là hợp lý về
mặt cảm nhận.
Hình 3.1: Xây dựng phần hoạch miền xác định của thuộc tính theo cách tiếp cận
ĐSGT
Cách xây dựng các hàm thuộc hay tương đương là các tập mờ để phân chia
miền xác định của thuộc tính theo cách tiếp cận ĐSGT như trên có những ưu điểm
sau:
a) Do cách xây dựng sử dụng ĐSGT có cơ sở phù hợp với ngữ nghĩa con người
cảm nhận nên về mặt cảm tính, có thể thấy các hàm thuộc được xây dựng là phản ánh
khá tốt ngữ nghĩa của tập mờ mà nó biểu diễn.
b) Dễ thấy là độ phủ của các hàm thuộc là tốt (luôn phủ kín miền xác định). Từ
đó ta thấy nếu cần tối ưu mức độ phù hợp phù hợp của MF, ta chỉ cần tối ưu mức độ
chồng lên nhau và mức độ bao phủ của các MF. Bài toán tối ưu các tham số của
ĐSGT theo độ chồng lấn và tính hữu dụng có thể giải bằng một giải thuật GA.
c) Các tham số cần quản khi xây dựng là ít (mỗi tam giác một tham số, là giá trị
ĐLNN), khi thay đổi tham số ban đầu của ĐSGT, dễ dàng xác định lại được các MF
mới và các MF vẫn giữ nguyên độ đo chồng lấn và phủ như cũ. Phương pháp này đơn
giản và hợp lý.
Hình 3.2: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đơn thể hạt
66
3.2.2. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt
Phương pháp phân chia miền mờ theo tiếp cận ĐSGT sử dụng biểu diễn đơn
thể hạt tuy có những ưu điểm như đã trình bày, vẫn còn có những hạn chế liên quan
đến ngữ nghĩa của dữ liệu. Theo lý thuyết ĐSGT, các MF mà ta tạo nên ở trên dựa
trên phân hoạch của các hạng từ có cùng độ dài. Điều đó có nghĩa các luật kết hợp
mà ta khai phá được chỉ bao gồm các hạng từ có cùng độ dài, mà điều đó làm giảm ý
nghĩa của các luật khai phá được. Ví dụ những luật kiểu như <Nếu “rất trẻ” và “chăm
chỉ” Thì “tương lai tốt”> và <Nếu “trẻ” và “khá chăm chỉ” Thì “tương lai tương
đối tốt”> là 2 luật không thể cùng xuất hiện trong tập luật khai phá được vì “trẻ” và
“rất trẻ” là 2 nhãn mờ có độ dài khác nhau. Nếu ta không quan tâm lắm đến ngữ nghĩa
dữ liệu, chỉ đơn thuần là phân chia miền xác định một cách gần như máy móc (như
phần lớn các phương pháp theo cách tiếp cận tập mờ đã làm) thì phương pháp đề xuất
sử dụng biểu diễn đơn thể hạt sử dụng ĐSGT trình bày trong mục 3.2.1 là khá tốt.
Tuy nhiên, nếu để ý đến ngữ nghĩa của dữ liệu - là điều cực kỳ quan trọng để có được
các tri thức tốt trong khai phá luật kết hợp - ta phải có một cách tiếp cận sâu hơn. Có
thể xây dựng các khoảng mờ ngữ nghĩa [47] để tạo nên các phân hoạch của các hạng
từ có độ dài khác nhau nhưng cách này không thật chuẩn tắc vì những phân hoạch tạo
ra không phải là duy nhất. Trong chương này, luận án chọn cách tiếp cận dựa trên
biểu diễn dữ liệu theo cấu trúc đa thể hạt. Với phương pháp này, nhằm nâng cao tri
thức của các luật kết hợp, các luật kết hợp thu được sẽ phong phú hơn.
Biểu diễn dữ liệu theo cấu trúc đa thể hạt nằm ở gốc rễ của khái niệm tính toán
hạt (GrC- Granular Computing) là một hướng nghiên cứu phát triển mạnh trong thập
kỷ qua [37, 67, 68, 82]. Tư tưởng của GrC là thông tin được phân chia thành các hạt
để xử lý. Việc phân chia này giúp ta không chỉ dễ xử lý hơn mà còn giúp ta nhận thức
thế giới thông tin tốt hơn vì các gói thông tin được phân chia đã mang tính khái quát
nhất định. Thông tin mà ta tiếp nhận có thể phân chia theo nhiều cách khác nhau, cho
ta các cách nhìn khác nhau về thế giới thực. Hiển nhiên là càng có các cách nhìn khác
nhau về thông tin tiếp nhận, chúng ta càng có nhiều tri thức hơn về vần đề quan tâm.
Đó là lý do cần có biểu diễn đa thể hạt cho dữ liệu.
67
Hình 3.3: Cấu trúc hạt thể nhiều mức
Về mặt tư tưởng, sử dụng biểu diễn đa thể hạt, như đã nói, cho ta cái nhìn đa
dạng hơn về thông tin đầu vào. Việc xây dựng, biểu diễn và sử dụng cấu trúc hạt
thường tuân thủ quy tắc đa mức và đa dạng (multilevel và multiview) [82]. Quy tắc
multilevel là ưu điểm do cấu trúc hạt mang lại thể hiển ở sự hiểu và biểu diễn đa mức
các hạt. Quy tắc đa dạng gắn liền vừa với sự tồn tại khách quan của dữ liệu (các hạt
thông tin) vừa với cái nhìn chủ quan của người nghiên cứu sử dụng dữ liệu, theo đó
ở mỗi mức cấu trúc hạt, thông tin có thể phân chia theo các cách khác nhau [82]. Với
tính toán hạt tuân thủ hai quy tắc nêu trên, chúng ta có cái nhìn có cấu trúc về dữ liệu,
vừa mang tính hệ thống lại vừa đơn giản hơn trong việc giải các bài toán khai phá dữ
liệu. Ngoài ra, rất quan trọng trong hướng nghiên cứu theo tiếp cận của ĐSGT của
luận án, tính toán hạt và gắn liền với nó là biểu diễn đa thể hạt dữ liệu theo các quy
tắc nêu trên thỏa mãn những đòi hỏi về tính diễn giải được theo các nghiên cứu mới
[4, 85] về ĐSGT. Các đòi hỏi đó là việc phân chia các hạt cần bảo toàn thứ tự ngôn
ngữ tự nhiên (thí dụ như “trẻ” < “già” thì khi phân chia tiếp, mọi phần của nhãn ngôn
ngữ “trẻ”, chẳng hạn “khá trẻ” phải nhỏ hơn mọi phần của “trung niên”, chẳng hạn
“khá già”, tức “khá trẻ” < “khá già” và bảo toàn quan hệ chung-riêng [85], từ tính
chung cao hơn thì giá tập mờ của nó chứa giá tập mờ của từ có tính riêng hơn; đa thể
hạt là cấu trúc có thể thỏa mãn cả hai đòi hỏi này. Một điểm nhấn quan trọng là với
68
cách tiếp cận của ĐSGT, việc chuyển sang tính toán hạt đa mức và đa dạng hoàn toàn
đơn giản mà luận án sẽ chứng tỏ ở sau.
Trong [67] các tác giả đã sử dụng tính toán hạt trên biểu diễn đa thể hạt áp
dụng cho bài toán phân loại tự động và hồi quy. Dưới đây là một ví dụ cụ thể. Trong
[37] các tác giả trình bày một ví dụ về giải bài toán phân loại các phần tử của Cone-
Torus dataset. Ở mức 1, dữ liệu được phân cụm thành các tập 2 chiều (nhờ thuật toán
Conditional Fuzzy C-Means: CFCM), mỗi chiều được phân chia bởi 3 tập mờ “thấp”,
“trung bình”, “cao”. Ở mức thứ 2, trên mỗi chiều dữ liệu lại được phân chia tiếp trong
từng tập mờ. Thí dụ, trong context cụm dữ liệu x= ”thấp” và y= “thấp”, dữ liệu tiếp
tục được phân cụm (cũng bởi thuật toán CFCM) thành các cụm nhờ các tập mờ x=
“khoảng nhỏ hơn hoặc bằng 1.1” và x= “khoảng lớn hơn hoặc bằng 3.7”, y= “khoảng
nhỏ hơn hoặc bằng 1.0”, y= “khoảng 2.6” và y=” khoảng lớn hơn hoặc bằng 4.5”.
Nhờ các phân chia mờ ở 2 mức này, các tác giả đã đưa ra được hệ luật để phân loại
dữ liệu bao gồm các luật có tính khái quát (ví dụ < IF x is LOW AND y is LOW
THEN P(class = 1) = 0.53, P(class = 2) = 0.38, P(class = 3) = 0.09>; <IF x is
MEDIUM AND y is LOW THEN P(class = 1) = 0.6, P(class = 2) = 0.11, P(class =
3) = 0.29> ) cùng với các luật có tính chi tiết (<IF x is about 1.1 or less AND y is
about 2.6 THEN P(class = 1) = 0.31, P(class = 2) = 0.38, P(class = 3) = 0.01>). Hệ
luật này, theo các tác giả có tỷ lệ phân loại đúng cao đồng thời có tính dễ hiểu
(interpretability). Nói tóm lại, sử dụng biểu diễn đa thể hạt cho ta những tri thức khai
phá mang tính khái quát cao bên cạnh những tri thức có tính đặc tả chi tiết, nâng cao
hiệu năng của phương pháp.
Đối với lý thuyết tập mờ (theo L.Zadeh), một trong những hạn chế của các
phương pháp sử dụng biểu diễn đa thể hạt là đôi khi lựa chọn các hàm thuộc không
dễ dàng vì có ít cơ sở để xác định các hàm thuộc ở các mức khác nhau, và chưa thể
xây dựng ràng buộc giữa chúng. Hầu như việc xác định này chỉ tiến hành theo kinh
nghiệm, qua ví dụ trên ta cũng có thể cảm nhận được điều đó. Đồng thời, việc tiến
hành tính toán với các mức khác nhau của dữ liệu sẽ gây sự phức tạp kéo theo chi phí
lớn hơn nhiều về thời gian cũng như bộ nhớ. Ngay những nghiên cứu gần đây [67],
trong ứng dụng xây dựng hệ luật mờ giải bài toán hồi quy, các tác giả cũng tiếp cận
phương pháp tính toán hạt cho biểu diễn đơn thể hạt, cụ thể là sử dụng thuật toán tiến
hóa để xây dựng hệ luật mờ trên cơ sở tối ưu hóa các tập MF phân chia mờ miền xác
69
định các thuộc tính theo cả số miền mờ phân chia cho mỗi thuộc tính lẫn các tiêu chí
khác đã nhắc đến ở trên. Dù thuật toán nêu ra tốt hơn các thuật toán đã có do không
cố định trước số lượng các tập mờ dùng phân chia miền giá trị thuộc tính nhưng về
mặt ngữ nghĩa, nó vẫn không cho phép xây dựng các luật có tính khái quát và chi tiết
khác nhau cùng trong một hệ luật mờ.
Ngược lại, với ĐSGT việc thiết kế phân hoạch mờ trên miền giá trị của thuộc
tính các mức khác nhau của biểu diễn đa thể hạt là dễ dàng vì nằm trong bản thân
cách xây dựng ĐSGT. Trong lý thuyết ĐSGT, với mỗi miền giá trị của thuộc tính chỉ
cần xác định bộ tham số mờ của ĐSGT là ta có thể xác định khoảng tính mờ của tất
cả các hạng từ thông qua các công thức tính toán xác định dù cho hạng từ này có độ
dài bao nhiêu (tức dù cho hạng từ này có nằm ở mức bao nhiêu trong hệ thống biểu
diễn đa thể hạt). Tính phân cấp là một trong những cách thức chính mà GrC sử dụng
cũng nằm trong cách xây dựng ĐSGT. Theo lý thuyết ĐSGT, mỗi hạng từ x có độ
dài k có thể phân hoạch thành các hạng từ ℎ𝑖𝑥 (với ℎ𝑖 là mọi gia tử của ĐSGT đang
xét) có độ dài k+1. Có thể nói, ĐSGT là công cụ hết sức thích hợp cho tính toán đa
thể hạt.
Hình 3.4: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đa thể hạt
Hình 3.4 là một ví dụ gồm 3 thể hạt được xây dựng dựa trên giá trị định lượng
nghữ nghĩa của ĐSGT. Thể hạt mức 0 gồm 3 hàm thuộc, thể hạt mức 1 gồm 4 hàm
thuộc, và thể hạt mức 2 gồm 6 hàm thuộc.
70
3.3. Phương pháp tối ưu tham số mờ ĐSGT cho bài toán khai phá luật kết hợp
Để tìm kiếm hàm thuộc tối ưu cho bài toán khai phá luật kế hợp mờ, các tác
giả trong [42, 48, 53, 83] đã sử dụng một số tiêu chí để đánh giá các hàm thuộc cho
các thuộc tính. Cụ thể, sự thích hợp (Suitabitity) của tập MF dùng để phân chia thuộc
tính ngôn ngữ 𝐼𝑞 có thể đánh giá qua 3 yếu tố: độ chồng lấn (Overlap_factor) đo độ
chồng lấn của các MF lên nhau; độ phủ (Coverge factor) đo độ bao phủ miền giá trị
của các MF này, và tính hữu dụng (usage factor).
Trong phần này, dựa vào giá trị định lượng ngữ nghĩa của ĐSGT để xây dựng
các hàm thuộc cho các thuộc tính số và áp dụng cho bài toán khai phá luật kết hợp
mờ. Thay vì tối ưu các tham số của hàm thuộc, chúng ta tối ưu các tham số mờ của
ĐSGT.
Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính và khai
phái luật kết hợp
Hình 3.5 là lược đồ tìm kiếm hàm thuộc và khai phá luật kết hợp gồm:
- Bước 1: Tìm kiếm phân hoạch mờ tối ưu: với các tham số ĐSGT của các thuộc
tính. Chúng ta có thể dễ dàng xây dựng các hàm thuộc cho các thuộc tính như trình
bày trong mục 3.2 để tính toán hàm mục tiêu. Kết thúc bước 1 chúng ta thu được tập
các tham số của các ĐSGT. Từ các tham số của các ĐSGT, chúng ta có thể dễ dàng
xây dựng các hàm thuộc ở bước 2.
Khởi tạo các
tham số
ĐSGT
Quá
trình
xử lý
CSDL giao
dịch
Tính toán
hàm mục
tiêu
Tập các
tham số
ĐSGT tối
ưu
CSDL giao
dịch
Khai
phá luật
kết hợp
mờ
Tập luật kết hợp
mờ Các tham số
ĐSGT
Tìm kiếm các phân hoạch tối ưu Khai phá luật kết hợp mờ
71
Bước 2: Khai phá luật kết hợp: Chúng ta sử dụng các tham số ĐSGT thu được
ở bước 1 để mờ hoá CSDL giao dịch và tiến hành khai phá luật kết hợp mờ. Kết thúc
bước này chúng ta thu được tập các luật kết hợp biểu thị bằng thông tin ngôn ngữ.
Trong luận án sử dụng giải thuật di truyền CHC [10] nhằm mục tiêu tối ưu hóa
tập MF theo các tiêu chí nói trên, hay chính là tìm các tham số MF của ĐSGT của
các thuộc tính.
Sau đây, luận sẽ trình bày các nội dung:
- Mô hình CHC: Mô hình giải thuật di truyền sẽ được sử dụng trong luận án để
tìm các tham số mờ của ĐSGT.
- Mã hóa tập MF: luận án đề xuất cách mã hóa các tham số mờ của ĐSGT được
sử dụng trong GA để tìm kiếm các tham số mờ của ĐSGT. Từ các tham số mờ này
có thể dễ dàng xây dựng được các MF như trình bày trong mục 3.2.
- Hàm mục tiêu (fitness function).
3.3.1. Mô hình giải thuật di truyền CHC
Luận án sử dụng giải thuật di truyền theo mô hình CHC [10] để tìm kiếm các
tham số tối ưu cho các ĐSGT. Mô hình giải thuật di truyền CHC tiếp cận theo hướng
sử dụng phép toán chọn lọc tự nhiên. Trong mô hình CHC, từ N bố mẹ và các nhiễm
sắc thể con tương ứng sẽ tạo ra N nhiễm sắc thể tốt nhất cho quần thể mới. Mô hình
CHC sử dụng phương pháp tránh lai tạo giữa các nhiễm sắc thể gần nhau và cơ chế
khởi tạo lại quần thể. Trong lược đồ mã hoá, mỗi gene sẽ được mã hoá thành Gray
Code với số bít cố định cho mỗi gene, số bít này có được dựa vào kinh nghiệm.
Ngưỡng giới hạn để khởi tạo lại quần thể được xác định như sau: L = (#Genes
BITSGENE)/4.0.
Với biến #Genes là số gene trong một nhiễm sắc thể, BITSGENE là số bít
dùng cho mỗi gene. Trong mô hình CHC, trong mỗi lần lặp nếu không tạo ra được cá
thể mới nào trong quần thể thì L sẽ giảm một lần, giá trị của L phụ thuộc vào #Genes
và BITSGENE, mỗi lần L giảm 𝜑% (được xác định bởi người dùng, thường là 10%).
Thuật toán được khởi tạo lại khi L <= 0.
Lược đồ thuật toán theo mô hình giải thuật di truyền CHC như Hình 3.6.
72
Hình 3.6: Mô hình giải thuật di truyền CHC
3.3.2. Mã hóa tập các MF
Để xây dựng các hàm thuộc cho các thuộc tính, trong luận án sử dụng ĐSGT
có cấu trúc 𝐴𝑋 = (𝑋, 𝐺, 𝐻,≤) trong đó:
- 𝐺 = {𝐶− = {𝐿𝑜𝑤} ∪ 𝐶+ = {𝐻𝑖𝑔ℎ}}
- 𝐻 = {𝐻− = {𝐿𝑖𝑡𝑡𝑙𝑒} ∪ 𝐻+ = {𝑉𝑒𝑟𝑦}}
Với:
- 𝛼 = 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒) = 1 − 𝜇(𝑉𝑒𝑟𝑦), 𝛽 = 𝜇(𝑉𝑒𝑟𝑦)
- 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 − 𝑓𝑚(𝐻𝑖𝑔ℎ).
Với cấu trúc ĐSGT trên gồm bộ bốn tham số: 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), 𝜇(𝑉𝑒𝑟𝑦), 𝑓𝑚(𝐶−),
𝑓𝑚(𝐶+). Tham số 𝛼 = 𝜇(𝑉𝑒𝑟𝑦) = 1 − 𝜇(𝐿𝑖𝑡𝑡𝑙𝑒), và 𝑤 = 𝑓𝑚(𝐿𝑜𝑤) = 1 −
𝑓𝑚(𝐻𝑖𝑔ℎ), vì vậy với mỗi ĐSGT chúng ta chỉ cần tìm hai tham số 𝛼 và 𝑤 thay vì
tìm cả bốn tham số.
Dựa vào các tham số của ĐSGT của các thuộc tính, chúng ta xây dựng các
hàm thuộc theo dạng đơn thể hạt như trình bày mục 3.2.1 hoặc biểu diễn đa thể hạt
như trình bày trong mục 3.2.2.
Chúng ta cần phải cần phải tìm kiếm các tham số mờ của các ĐSGT 𝐴𝑋𝑖 cho
n thuộc tính định lượng, mỗi ĐSGT gồm có hai tham số 𝛼𝑖 , 𝑤𝑖 (i=1,…,n). Như vậy
để biểu diễn một nhiệm sắc thể cần một mảng số thực có kích thước 2*n. Cấu trúc
một gene như sau:
Khởi tạo quần
thể và Threshold
Khởi tại lại quần
thể và Threshold
Lại tạo N cá
thể cha mẹ
Threshold <= 0
Đánh giá các cá thể
mới
Lựa chọn N cá thể
tốt nhất
Nếu không có cá
thể mới, giảm giá
trị Threshold
Sai
Đúng
73
(𝛼1, … , 𝛼𝑛, 𝑤1, … , 𝑤𝑛) (3.1)
Dựa vào kinh nghiệm các tham số mờ của các ĐSGT 𝛼𝑖 và 𝑤𝑖 sẽ nhận giá trị
nằm trong đoạn [0.2, 0.8].
3.3.3. Đánh giá nhiễm sắc thể
Để đánh giá các nhiễm sắc thể, chúng ta sử dụng hàm mục tiêu được định
nghĩa trong [42]. Hàm mục tiêu của một nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:
𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) =
∑ 𝑓𝑢𝑧𝑧y_support(x)𝑥∈𝐿1
𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) (3.2)
Với:
- 𝐿1 là tập phổ biến 1-ItemSet sử dụng tập các hàm MF trong 𝐶𝑞.
Chúng ta chỉ tính độ hỗ trợ của các 1-ItemSet để đảm bảo cân bằng giữa thời
gian thực hiện thuật toán và độ thú vị của các luật được tạo ra. Thông thường các mục
xuất hiện trong 1-ItemSet khả năng cao sẽ xuất hiện trong các tập mục k-itemset
(k>1). Vì vậy trong đánh giá chúng ta chỉ tính độ hỗ trợ của các tập mục trong 1-
ItemSet, sẽ nhanh hơn là tính độ hỗ trợ của tất cả các tập mục hoặc đánh giá toàn bộ
các luật kết hợp [83].
- 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥) độ hỗ trợ mờ của 1-ItemSet x được tính toán từ CSDL
giao dịch.
- 𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) mức độ phù hợp phù hợp của MF trong 𝐶𝑞.
Mức độ phù hợp của tập các MF trong nhiệm sắc thể 𝐶𝑞 được định nghĩa như
sau:
𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) = ∑[𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) + 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘)]
𝑛
𝑘=1
(3.3)
Với n là số lượng item, 𝑜𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ chồng lên nhau của
các MF của item 𝐼𝑘 trong nhiệm sắc thể 𝐶𝑞, và 𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟(𝐶𝑞𝑘) là mức độ
bao phủ của các MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞.
𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ các MF chồng lên nhau của item 𝐼𝑘 trong
nhiễm sắc thể 𝐶𝑞. Tỷ lệ chồng lên nhau của hai MF: 𝑅𝑖 và 𝑅𝑗 (i<j) được định nghĩa là
lấy chiều dài chồng lên nhau chia cho giá trị nhỏ nhất của right span của 𝑅𝑖 và left
74
span của 𝑅𝑗. Nếu chiều dài chồng lên nhau lớn hơn giá trị nhỏ nhất của hai giá trị
span trên thì hai MF không được tốt, cần phải xem xét lại. Overlap factor của MF đối
với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:
Overlap_factor(𝐶𝑞𝑘)
= ∑ ∑ [𝑚𝑎𝑥 (𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗)
𝑚𝑖𝑛 (𝑠𝑝𝑎𝑛𝑅𝑅𝑖 , 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 , ), 1) − 1]
𝑚
𝑗=𝑖+1
𝑚
𝑘=1
(3.4)
Với 𝑜𝑣𝑒𝑟𝑙𝑎𝑝(𝑅𝑖 , 𝑅𝑗) là chiều dài chồng lên nhau của 𝑅𝑖 và 𝑅𝑗, 𝑠𝑝𝑎𝑛𝑅𝑅𝑖 là
right span của 𝑅𝑖, 𝑠𝑝𝑎𝑛𝐿𝑅𝑗 là left span của 𝑅𝑗 và m là số hàm thuộc MF đối với item
𝐼𝑘.
𝐶𝑜𝑣𝑒𝑟𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 biểu diễn tỷ lệ bao phủ của các MF đối với item 𝐼𝑘 trong
nhiễm sắc thể 𝐶𝑞. Tỷ lệ bao phủ của MF đối với item item 𝐼𝑘 được định nghĩa là độ
bao phủ của hàm chia cho giá trị lớn nhất của item trong giao dịch. Coverage_factor
của MF đối với item 𝐼𝑘 trong nhiễm sắc thể 𝐶𝑞 được định nghĩa như sau:
Coverage_factor(𝐶𝑞𝑘) =1
𝑅𝑎𝑛𝑔(𝑅1, … , 𝑅𝑚)𝑚𝑎𝑥(𝐼𝑘)
(3.5)
Với 𝑅𝑎𝑛𝑔(𝑅1, … , 𝑅𝑚) là phạm vi bao phủ của MF và 𝑚𝑎𝑥(𝐼𝑘) giá trị lớn nhất
của 𝐼𝑘 trong giao dịch.
Hình 3.7: Tập các MF cho mục Ij
Với 𝑂𝑣𝑒𝑟𝑙𝑎𝑝_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, ta có thể loại hoặc hạn chế trường hợp (a) của Hình
3.8, khi các hàm thuộc chồng nhau quá nhiều, ít mang tính phân biệt. Với
𝑐𝑜𝑣𝑒𝑟𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟 tốt, có thể hạn chế trường hợp như (b) trên Hình 3.8, khi tồn tại
nhiều khoảng trống trên miền xác định, không rơi vào tập mờ nào (độ thuộc lớn hơn
75
0). Ngoài ra, với hi vọng thu được tập các tập mờ được phân chia tốt, 𝑢𝑠𝑎𝑔𝑒_𝑓𝑎𝑐𝑡𝑜𝑟
là số đo tổng độ hỗ trợ của các tập phổ biến 1 thuộc tính (large 1-ItemSet) được sử
dụng. Với tổng độ hỗ trợ cao, hi vọng là ta sẽ nhận được nhiều luật kết hợp, tuy không
chắc như xem xét tất cả các tập phổ biến nhưng bù lại, thời gian xử lý sẽ ít hơn vì chỉ
xét các tập phổ biến 1-ItemSet.
Hình 3.8: Hai tập hàm thuộc phân bố không tốt
Gần đây, người ta còn sử dụng khái niệm phân hoạch mờ mạnh (strong fuzzy
partition) để xây dựng tập MF [15]. Khái niệm này được định nghĩa như sau: tập các
MF tạo nên một phân hoạch mờ mạnh nếu chúng phủ kín miền giá trị thuộc tính và
tại mỗi điểm bất kỳ trên miền xác định, tổng độ thuộc của điểm này đến tất cả các
MF trong phân hoạch đạt giá trị 1. Phân hoạch mờ mạnh cũng tạo ra các MF phân bố
tương đối tốt.
Với các độ đo như vậy, có thể sử dụng giải thuật di truyền để nhận được các
tập MF tối ưu (thường là xấp xỉ), có tính đến sự cân bằng giữa mức độ tốt của hệ
thống và thời gian tính toán.
3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp
Trong phần này luận án đề xuất thuật toán để tìm kiếm phân hoạch mờ tối ưu
theo hướng sử dụng ĐSGT thay cho cách tiếp cận sử dụng lý thuyết tập mờ của các
tác giả khác [28, 69] và khai phá luật kết hợp mờ.
Thuật toán gồm hai pha:
Pha 1: Tìm kiếm phân hoạch mờ tối ưu dựa vào CSDL giao dịch đầu vào.
Pha 2: Sử dụng thuật toán khai phá luật kết hợp mờ với các hàm thuộc có được
trong Pha 1.
76
Nội dung thuật toán:
Đầu vào: T giao dịch số, tập gồm n mục (thuộc tính), mỗi mục gồm m hạng
từ ngôn ngữ, độ hỗ trợ min_𝑠𝑢𝑝𝑝, và độ tin cậy min_𝑐𝑜𝑛𝑓 và kích thước quần thể N.
Đầu ra: Tập các luật kết hợp mờ và tập hàm thuộc MF.
Nội dung thuật toán:
Pha 1: Tìm kiếm phân hoạch mờ tối ưu từ CSDL giao dịch T
Bước 1: Khởi tạo quần thể gồm N nhiễm sắc thể ngẫu nhiên.
Nhiễm sắc thể biểu diễn có dạng (𝛼1, … , 𝛼𝑛, 𝑤1, … , 𝑤𝑛). Với mỗi cặp (𝛼𝑖 , 𝑤𝑖)
là một ĐSGT, với i=1,..,n.
Bước 2: Mã hóa các hàm thuộc thành chuỗi mã hóa như trình bày ở mục 3.3.2.
Dựa vào các ĐSGT có được trong Bước 1, xây dựng các hàm thuộc cho các
thuộc tính trong CSDL gốc như trình bày trong phần 3.2. Chúng ta có thể sử dụng
biểu diễn hàm thuộc dạng Đơn thể hạt hoặc Đa thể hạt.
Bước 3: Tính toán hàm mục tiêu cho mỗi nhiễm sắc thể trong quần thể như
sau:
Bước 3.1: Mỗi giao dịch và 𝐷𝑖, với i=1…n, mỗi thuộc tính 𝐼𝑗, j=1…m biến đổi
thành giá trị số 𝑣𝑗 (𝑖)
như sau: (𝑓𝑗1(𝑖)
𝑅𝑗1+
𝑓𝑗2(𝑖)
𝑅𝑗2+⋯+
𝑓𝑗𝑙(𝑖)
𝑅𝑗𝑙 ) để biểu diễn tập hàm thuộc
của một nhiễm sắc thể.
Với 𝑅𝑗𝑘 là vùng mờ thứ k của item 𝐼𝑗, 𝑓𝑗𝑙(𝑖)
: 𝑣𝑗(𝑖)
là giá trị của hàm thuộc thứ j
của item 𝐼𝑗, l là số miền mờ.
Bước 3.2: Tính toán giá trị mỗi miền mờ:
𝑐𝑜𝑢𝑛𝑡𝑗𝑘 =∑𝑓𝑗 (𝑖)
𝑛
𝑖=1
(3.6)
Bước 3.3: Mỗi miền mờ 𝑅𝑗𝑘, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|, kiểm tra giá trị 𝑐𝑜𝑢𝑛𝑡𝑗𝑘
so với ngưỡng độ hỗ trợ tối thiểu min_supp. Nếu 𝑅𝑗𝑘 thỏa mãn điều kiện thì đưa vào
tập phổ biến 1-ItemSet (𝐿1).
𝐿1 = {𝑅𝑗𝑘| 𝑐𝑜𝑢𝑛𝑡𝑗𝑘 ≥ 𝛼, 1 ≤ 𝑗 ≤ 𝑚, 1 ≤ 𝑘 ≤ |𝐼𝑗|}
Bước 3.4: Giá trị mục tiêu của nhiễm sắc thể được tính theo công thức sau:
77
𝑓𝑖𝑡𝑛𝑒𝑠𝑠(𝐶𝑞) =∑ 𝑓𝑢𝑧𝑧𝑦_𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝑥)𝑥∈𝐿1
𝑠𝑢𝑖𝑡𝑎𝑏𝑖𝑙𝑖𝑡𝑦(𝐶𝑞) (3.7)
Bước 4: Thực hiện phép lai tạo trong quần thể.
Bước 5: Sử dụng phép chọn lọc theo điều kiện để chọn các cá thể trong quần
thể để tạo thế hệ tiếp theo.
Bước 6: Nếu điều kiện dừng chưa thỏa mãn thì quay lại Bước 3, ngược lại
thực hiện bước tiếp theo.
Bước 7: Hàm thuộc được lựa chọn từ cá thể có giá trị hàm mục tiêu lớn nhất
trong quần thể.
Pha 2: Khai phá luật kết hợp mờ
Sử dụng thuật toán khai phá luật kết hợp mờ như trong [53].
3.5. Kết quả thử nghiệm
Trong phần này sẽ mô tả CSDL dùng trong thử nghiệm và các kết quả thử
nghiệm với hai phương pháp luận án đề xuất: sử dụng biểu diễn dữ liệu dạng đơn thể
hạt và sử dụng biểu diễn dữ liệu dạng đa thể hạt.
Các tham số của giải thuật GA như sau: kích thước quần thể 50; số thế hệ
10000, số bít cho mỗi gen là 30, xác suất lai tạo 0.6.
3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm
Bảng 3.4: CSDL thử nghiệm
CSDL Số thuộc tính Số bản ghi
Fam95 10 63756
Pollution 16 60
Stulong 5 1417
Basketball 5 96
Quake 4 2178
Stock 10 950
CSDL được sử dụng trong thử nghiệm gồm: FAM95, pollution, stulong,
basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI
(https://archive.ics.uci.edu).
78
CSDL FAM95: thường được các nhà nghiên cứu coi là tập mẫu chuẩn để tiến
hành thử nghiệm, tiện so sánh kết quả. FAM95 chứa số liệu của 63756 gia đình Mỹ
(số liệu khảo sát năm 1995), bao gồm 63756 bản ghi, 23 mục. Ở đây luận án chọn 10
mục định lượng để tiến hành thử nghiệm. CSDL Pollution: bao gồm 60 bản ghi với
16 thuộc tính số. CSDL Stulong: bao gồm 1417 bản ghi với 5 thuộc tính số. CSDL
Basketball: bao gồm 96 bản ghi với 5 thuộc tính số. CSDL Quake: bao gồm 2178 bản
ghi, với 4 thuộc tính số. CSDL Stock: bao gồm 950 bản ghi, với 10 thuộc tính số.
3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn
thể hạt
Trong phần này các kết quả thu được từ thử nghiệm với biểu diễn hàm thuộc
dang đơn thể hạt. Mỗi mục (thuộc tính) được chia làm 5 miền mờ có các nhãn tương
ứng trong ĐSGT là {0, 𝑐−,𝑊, 𝑐+, 1}. Phương pháp sử dụng ĐSGT được so sánh với
3 phương pháp khác: Phương pháp do Herrera và cộng sự [53], phương pháp của
Hong và cộng sự [42] và phương pháp phân chia đều miền giá trị của thuộc tính bằng
các MF đồng dạng (là tam giác cân, giống nhau về mặt hình học và chia đều miền
xác định của mục).
3.5.2.1. Kết quả thử nghiệm với CSDL FAM95
Trong Bảng 3.5 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu
được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng
các hàm thuộc theo dạng biểu diễn đơn thể hạt như đã trình bày trong mục 3.2.1.
Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương
pháp sử dụng biểu diễn đơn thể hạt
Th
uộ
c tính
1
Th
uộ
c tính
2
Th
uộ
c tính
3
Th
uộ
c tính
4
Th
uộ
c tính
5
Th
uộ
c tính
6
Th
uộ
c tính
7
Th
uộ
c tính
8
Th
uộ
c tính
9
Th
uộ
c tính
10
𝜇(𝐿) 0.679 0.350 0.610 0.649 0.214 0.379 0.202 0.704 0.231 0.213
𝜇(𝑉) 0.321 0.650 0.390 0.351 0.786 0.621 0.798 0.296 0.769 0.787
𝑓𝑚(𝐶−) 0.504 0.764 0.799 0.756 0.732 0.479 0.800 0.499 0.765 0.776
𝑓𝑚(𝐶+) 0.496 0.236 0.201 0.244 0.268 0.521 0.200 0.501 0.235 0.224
79
Kết quả thu được như trong Bảng 3.6, với 𝐹𝑠𝑢𝑝: Tổng độ hỗ trợ của các tập phổ
biến 1-ItemSet, Fit: Giá trị hàm mục tiêu, Suit: Độ phù hợp, #1I: Số lượng 1-ItemSet,
Interest: độ thú vị trung bình của các luật.
Từ kết quả trên có thể thấy:
Ở giá trị min_supp = 20%, số tập phố biến 1-ItemSet theo cách tiếp cận ĐSGT:
- So với phương pháp phương pháp do Herrera và cộng sự [53], phương pháp
của Hong và cộng sự [42] là như nhau.
- Phương pháp phân chia đều kém hơn phương pháp sử dụng ĐSGT.
Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt
Phương pháp đề xuất sử dụng ĐSGT
Min Sup (%) Fit Fsup Suit #1I
20 0.98 9.83 10 22
50 0.79 7.87 10 10
70 0.66 6.62 10 8
90 0.09 0.94 10 1
Phương pháp của Herrera và cộng sự
Min Sup (%) Fit Fsup Suit #1I
20 0.95 10.46 10.99 22
50 0.77 9.92 12.92 15
70 0.61 7.69 12.57 10
90 0.10 0.92 10.0 1
Phương pháp của Hong và cộng sự
Min Sup (%) Fit Fsup Suit #1I
20 0.53 10.22 19.27 22
50 0.38 7.95 20.63 12
70 0.20 3.96 19.54 5
90 0.06 0.90 15.01 1
Phương pháp phân chia đều
Min Sup (%) Fit Fsup Suit #1I
20 0.94 9.43 10 21
50 0.46 4.57 10 7
70 0.24 2.36 10 3
90 0.00 0.00 10 0
80
Với độ hỗ trợ min_supp = 50%, phương pháp ĐSGT có kém chút ít phương
pháp của nhóm Herrera và nhóm Hong về số tập phố biến 1-ItemSet. Với độ hỗ trợ
min_supp = 70% phương pháp sử dụng ĐSGT kém hơn phương pháp do Herrera đề
xuất, nhưng hơn hai phương pháp còn lại.
Với mục tiêu, xây dựng các hàm thuộc sao cho không chồng lên nhau quá
nhiều, và không rời rạc nhau. Giá trị Suit (độ phù hợp của các MF) trong hàm mục
giúp chúng ta tìm kiếm các hàm thuộc đảm bảo điều này. Trong Bảng 3.6 cho thấy,
phương pháp sử dụng ĐSGT có giá trị Suit thấp hơn phương pháp Herrera và Hong.
Giá trị Suit nhỏ giúp cho giá trị hàm mục tiêu càng lớn. Điều đó cho thấy, các hàm
thuộc được xây dựng bằng phương pháp sử dụng ĐSGT gia tử cho kết quả tốt hơn
(Hình 3.9). Kết quả của nhóm Herrera tuy có tốt hơn về mặt số tập phố biến 1-ItemSet
(trong Bảng 3.6 giá trị 1-ItemSet lần lượt là 22, 15, 10, 1) nhưng các tập MF thu được
sau khi chạy GA thì rất không tốt (xem Hình 3.14: hình vẽ MF với độ hỗ trợ tối thiểu
20% dưới đây để thấy rõ).
Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp
Trong Hình 3.9 quan hệ độ phù hợp của ba phương pháp: sử dụng ĐSGT,
Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy độ phù hợp của các
MF của phương pháp sử dụng ĐSGT nhỏ hơn các phương pháp còn lại.
0
5
10
15
20
25
20% 50% 70% 90%
Độ
ph
ù h
ợp
củ
a cá
c h
àm t
hu
ộc
Min support
PP đề xuất PP Herrera PP Hong
81
Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp
Trong Hình 3.10 quan hệ giá trị hàm mục tiêu của ba phương pháp sử dụng
ĐSGT, Herrera, Hong và phương pháp phân chia đều. Kết quả cho thấy hàm mục tiêu
của phương pháp sử dụng ĐSGT tốt hơn các phương pháp còn lại.
Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp
0
0.2
0.4
0.6
0.8
1
1.2
20% 50% 70% 90%
Giá
trị
hàm
mụ
c ti
êu
Min support
PP đề xuất PP Herrera PP Hong PP Phân chia đều
0
2
4
6
8
10
12
20% 50% 70% 90%
Độ
hỗ
trợ
1-I
tem
Set
Min support
PP đề xuất PP Herrera PP Hong PP phân chia đều
82
Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp
Trong Hình 3.12 cho thấy số lượng 1-ItemSet của phương pháp ĐSGT kém
hơn so với kết quả Herrera và hơn so với các phương pháp còn lại. Tuy nhiên dựa
vào giá trị Suit trong Bảng 3.6 và bằng trực quan trong Hình 3.14 cho thấy hàm thuộc
của nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng
khít lên nhau.
Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật
Min Supp 20% 30% 40% 50% 60% 70%
PP ĐSGT 0.383 0.516 0.585 0.713 0.771 0.820
PP Herrera 0.368 0.483 0.591 0.669 0.767 0.822
PP Phân chia đều 0.385 0.489 0.606 0.672 0.774 0.821
Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục
1.4.1. Từ kết quả trong Bảng 3.7 cho thấy độ thú vị trung bình của các luật của phương
pháp sử dụng ĐSGT cao hơn hoặc bằng hai phương pháp còn lại.
0
5
10
15
20
25
20% 50% 70% 90%
Số l
ượ
ng t
ập l
ớn 1
-Ite
mse
t
Min support
PP đề xuất PP Herrera PP Hong Phân chia đều
83
Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp
Trong Hình 3.14 có thể thấy, kết quả thu được tập các MF đều có 1 cặp MF
gần như chồng khít, không thỏa mãn tiêu chí về độ chồng lấn. Điều này chứng tỏ kết
quả phân chia miền mờ của phương pháp này không tốt (ở đây kết quả chỉ ra một
điều là có lẽ chia thành 4 miền mờ thì hợp lý hơn, khi đó các nhãn ngôn ngữ cũng sẽ
khác, chỉ có 4 thay vì 5). Vấn đề lựa chọn không chỉ các hàm MF phân chia miền xác
định của mục khi cố định số lượng (thí dụ như 5) mà hơn nữa, lựa chọn chính số
lượng đó cho từng mục là vấn đề đáng được quan tâm vì có thể thấy các chỉ số nêu
trên bảng trên phụ thuộc nhiều vào số lượng của các MF cho từng mục.
Trong chương này, luận án trình bày thuật toán tối ưu hóa cả số lượng lẫn
thông số các MF cho các thuộc tính định tính nhằm tới kết quả tốt nhất khi khai phá
dữ liệu thông qua việc sử dụng khái niệm đa thể hạt khi phân chia miền mờ. Các hình
ảnh cho tập MF theo phương pháp ĐSGT được đưa ra trong Hình 3.15. Tất nhiên,
các tam giác biểu diễn các MF ở đây vẫn tạo nên một phân hoạch mạnh theo cách ta
xây dựng.
-
0.200
0.400
0.600
0.800
1.000
20% 30% 40% 50% 60% 70%
Độ t
hú v
ị tr
ung b
ình c
ủa
ác l
uật
Min support
PP ĐSGT PP Herrera PP Phân chia đều
84
85
Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của
Herrera sử dụng lý thuyết tập mờ
Hình 3.15 là tập các hàm thuộc của 10 thuộc tính thu được sau khi thực hiện
tối ưu bằng giải thuật di truyền. Bằng trực quan chúng ta có thể thấy, các tập mờ có
sự phân bố đều đảm bảo độ chồng lấn giữa các tập mờ vừa phải và các tập mờ phủ
toàn bộ trên miền giá trị của thuộc tính.
86
Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đơn thể hạt và ĐSGT
3.5.2.2. Kết quả thử nghiệm với một số CSDL khác
Trong mục này, luận án sử dụng cấu trúc ĐSGT như trọng mục 3.5.2.1, và
trình bày kết quả thử nghiệm với 5 CSDL gồm: pollution, stulong, basketball, quake,
stock. Luận án trình bày so sánh kết quả đề xuất với hai phương pháp khác là: Phương
pháp do Herrera và cộng sự [53], phương pháp của Hong và cộng sự [42]. Trong
Bảng 3.8 là số lượng tập phổ biến 1-ItemSet, Bảng 3.9 là độ thú vị trung bình.
Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet
87
CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong
pollution
20 37 45 56
50 15 14 43
70 5 2 18
90 1 0 1
stulong
20 10 13 17
50 5 10 13
70 5 5 13
90 0 0 2
basketball
5 22 20 22
10 18 19 20
15 15 17 21
20 13 15 21
25 11 13 20
30 10 9 20
35 10 9 18
40 9 5 17
45 5 4 18
50 4 2 14
quake
5 14 16 16
10 15 14 13
15 11 11 14
20 9 9 13
25 8 9 11
30 8 8 11
35 7 8 11
40 6 8 11
45 4 6 11
50 4 3 10
stock
5 50 50 50
10 50 50 48
15 50 50 49
20 45 49 50
88
25 47 50 49
30 43 48 49
35 41 48 50
40 41 47 46
45 37 47 47
50 33 41 48
Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution
Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong
0
10
20
30
40
50
60
20% 50% 70% 90%Số
lư
ợn
g t
ập l
ớn 1
-Ite
mS
et
Min support
PP đề xuất PP Herrera PP Hong
0
5
10
15
20
20% 50% 70% 90%
Số l
ượ
ng t
ập l
ớn
1-I
tem
Set
Min support
PP đề xuất PP Herrera PP Hong
89
Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball
Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake
0
5
10
15
20
25
5% 10% 15% 20% 25% 30% 35% 40% 45% 50%Số l
ượ
ng t
ập l
ớn 1
-Ite
mS
et
Min support
PP đề xuất PP Herrera PP Hong
0
5
10
15
20
5% 10% 15% 20% 25% 30% 35% 40% 45% 50%Số
lư
ợn
g t
ập l
ớn
1-I
tem
Set
Min support
PP đề xuất PP Herrera PP Hong
0
10
20
30
40
50
60
5% 10% 15% 20% 25% 30% 35% 40% 45% 50%Số
lư
ợng t
ập l
ớn 1
-Ite
mS
et
Min support
PP đề xuất PP Herrera PP Hong
90
Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock
Trong Hình 3.16, Hình 3.17, Hình 3.18, Hình 3.19, Hình 3.20 cho thấy số
lượng 1-ItemSet của phương pháp ĐSGT kém hơn so với kết quả của Hong, so với
phương pháp của Herrera có thử nghiệm số lượng 1-ItemSet lớn hơn, có thử nghiệm
số lượng ít hơn. Tuy nhiên bằng trực quan trong Hình 3.14 cho thấy hàm thuộc của
nhóm Herrera có độ chồng lấn quá nhiều, có một số hai hàm thuộc gần như chồng
khít lên nhau.
Bảng 3.9: Bảng Độ thú vị trung bình
CSDL Min Supp (%) PP đề xuất PP Herrera PP Hong
pollution
20 0.351 0.349 0.342
50 0.643 0.665 0.654
70 0.823 0.918 0.798
stulong
20 0.487 0.457 0.414
50 0.754 0.651 0.685
70 0.824 0.783 0.789
basketball
1 0.065 0.065 0.067
2 0.087 0.086 0.081
3 0.108 0.099 0.104
4 0.128 0.122 0.119
5 0.123 0.148 0.132
6 0.134 0.154 0.154
7 0.153 0.170 0.174
8 0.187 0.184 0.186
9 0.211 0.197 0.199
10 0.225 0.203 0.211
15 0.306 0.282 0.273
quake
1 0.071 0.099 0.075
2 0.108 0.117 0.077
3 0.096 0.136 0.105
4 0.137 0.153 0.131
5 0.155 0.174 0.161
6 0.204 0.190 0.188
7 0.218 0.207 0.198
8 0.214 0.218 0.205
91
9 0.196 0.226 0.211
10 0.212 0.234 0.218
15 0.310 0.289 0.287
20 0.388 0.330 0.332
25 0.424 0.399 0.394
30 0.486 0.415 0.431
stock
3 0.137 0.159 0.146
4 0.183 0.191 0.159
5 0.179 0.210 0.190
6 0.218 0.229 0.211
7 0.221 0.255 0.230
8 0.252 0.283 0.268
9 0.248 0.303 0.294
10 0.280 0.385 0.353
15 0.380 0.454 0.430
20 0.416 0.594 0.509
25 0.453 0.596 0.568
30 0.592 0.625 0.614
Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution
-
0.200
0.400
0.600
0.800
1.000
20% 50% 70%
Độ
th
ú v
ị tr
un
g b
ình
Min support
PP đề xuất PP Herrera PP Hong
92
Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong
Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball
Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake
-
0.200
0.400
0.600
0.800
1.000
20% 50% 70%
Độ t
hú v
ị tr
ung b
ình
Min support
PP đề xuất PP Herrera PP Hong
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
1 2 3 4 5 6 7 8 9 10 15
Độ
th
ú v
ị tr
un
g b
ình
Min support (%)
PP đề xuất PP Herrera PP Hong
0
0.1
0.2
0.3
0.4
0.5
0.6
1 2 3 4 5 6 7 8 9 10 15 20 25 30
Độ t
hú v
ị tr
ung b
ình
Min support (%)
PP đề xuất PP Herrera PP Hong
93
Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock
Trong thử nghiệm, độ thú vị của luật được tính theo công thức 2.5 trong mục
1.4.1. Từ kết quả trong Bảng 3.9 cho thấy độ thú vị trung bình của các luật kết hợp
thu được của phương pháp sử dụng ĐSGT cao hơn hoặc sấp sỉ bằng hai phương pháp
còn lại.
3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa
thể hạt
Với mỗi thuộc tính trong CSDL được phân chia miền mờ sử dụng biểu diễn
đa thể hạt và mỗi thuộc tính sử dụng một cấu trúc ĐSGT như trình bày trong mục
3.5.2.2.
Các kết quả thử nghiệm được so sánh với các kết quả đã công bố trước đây
trong Bảng 3.10, thống kê số lượng tập phố biến với mỗ độ hỗ trợ khác nhau từ 20%
đến 80%. Bảng 3.11 là kết quả thử nghiệm với ba phương pháp: phương pháp đề xuất
sử dụng biểu diễn đa thể hạt, phương pháp biểu diễn đơn thể hạt đề xuất trong chương
3 và phương pháp Herrera (2009). Kết quả cho thấy phương pháp sử dụng biểu diễn
Đa thể hạt cho số lượng 1-ItemSet tốt hơn số với hai phương pháp còn lại (như Hình
4.3). Ở đây, (liệt kê các thuộc tính dùng so sánh: độ phủ, chồng lấn đã trình bày ở
trong mục 3.3.3) và các phương pháp dùng để so sánh đều thực hiện với biểu diễn
đơn thể hạt. Các kết quả thử nghiệm cho thấy ưu việt của việc sử dụng biểu diễn đa
thể hạt và ĐSGT, củng cố thêm cho các kết quả nghiên cứu liên quan đến sử dụng
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
3 4 5 6 7 8 9 10 15 20 25 30
Độ t
hú v
ị tr
ung b
ình
Min support (%)
PP đề xuất PP Herrera PP Hong
94
biểu diễn đa thể hạt (một số công trình công bố trong một số năm gần đây sử dụng
biểu diễn đa thể hạt [37, 66-68, 82, 84])
Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với
phương pháp sử dụng biểu diễn đa thể hạt
Th
uộ
c tính
1
Th
uộ
c tính
2
Th
uộ
c tính
3
Th
uộ
c tính
4
Th
uộ
c tính
5
Th
uộ
c tính
6
Th
uộ
c tính
7
Th
uộ
c tính
8
Th
uộ
c tính
9
Th
uộ
c tính
10
𝜇(𝐿) 0.531 0.203 0.445 0.548 0.208 0.233 0.202 0.200 0.212 0.204
𝜇(𝑉) 0.469 0.797 0.555 0.452 0.792 0.767 0.798 0.800 0.788 0.796
𝑓𝑚(𝐶−) 0.202 0.501 0.562 0.457 0.617 0.316 0.800 0.798 0.586 0.651
𝑓𝑚(𝐶+) 0.798 0.499 0.438 0.543 0.383 0.684 0.200 0.202 0.414 0.349
Có thể thấy là dùng biểu diễn đa thể hạt sẽ cho kết quả tốt hơn hẳn. Ngoài ra,
như đã nói ở trên, về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các
luật mang tính khái quát cao và các luật chi tiết. Luận án tiến hành thử nghiệm phương
pháp của Herrera với việc phân chia như vậy, kết quả tuy có tăng về chỉ số nhưng vẫn
kém phương pháp đề xuất (xem đồ thị so sánh Hình 3.27:). Cần nhấn mạnh rằng, với
phương pháp luận án đề xuất, việc tính toán liên quan đến biểu diễn đa thể hạt là tăng
thêm không đáng kể về mặt phức tạp cũng như mặt thời gian mà kết quả nhận được
lại tốt hơn rất nhiều.
Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp
Min Supp 20% 30% 40% 50% 60% 70% 80%
1-ItemSet 59 50 38 29 26 22 17
2-itemset 974 675 456 371 285 187 78
3-itemset 8890 4806 3111 2660 2518 772 150
4-itemset 50242 20719 13095 11890 4708 1774 167
5-itemset 187379 57461 36432 34995 9506 2528 167
Trong Bảng 3.11 là các tham số mờ của các ĐSGT của 10 thuộc tính số thu
được sau khi chạy giải thuật di truyền. Các tham số này được sử dụng để xây dựng
các hàm thuộc theo dạng biểu diễn đa thể hạt như đã trình bày trong mục 3.2.2.
95
Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp
Min Supp 20% 30% 40% 50% 60% 70% 80% 90%
PP biểu diễn Đa thể hạt 54 46 35 27 23 14 12 5
PP biểu diễn Đơn thể hạt 21 17 13 8 7 6 3 1
PP Herrera và cộng sự 25 21 15 10 5 3 2 0
Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp
Hình 3.27: So sánh số lượng tập phổ biến và Min Supp
0
500
1000
1500
20% 30% 40% 50% 60% 70% 80%
Tập
lớ
n 1
-Ite
mse
t
Min support
1-itemset 2-itemset
0
20
40
60
20% 30% 40% 50% 60% 70% 80% 90%Tập
lớ
n 1
-Ite
mse
t
Min support
Phương pháp biểu diễn Đa thể hạt
Phương pháp biểu diễn Đơn thể hạt
PP Herrera và cộng sự
96
97
Hình 3.28: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đa thể hạt và ĐSGT
Hình 3.28 tập các hàm thuộc biểu diễn dạng đa thể hạt của 10 thuộc tính thu
được sau khi thực hiện tối ưu bằng giải thuật GA. Có thể thấy các hàm thuộc được
xây dựng dựa trên ĐSGT của các thuộc tính có phân bố khá tốt, đảm bảo độ bao phủ
toàn miền giá trị và độ chồng lấn hợp lý.
3.6. Kết luận chương 3
Chương này luận án đề xuất phương pháp khai khá luật kết hợp mờ sử dụng
ĐSGT dựa trên cơ sở phân chia mờ miền giá trị thuộc tính với biểu diễn đơn thể hạt
và đa thể hạt. Với mỗi thuộc tính số sẽ sử dụng một cấu trúc ĐSDT để xây dựng các
hàm thuộc dạng đơn thể hạt hoặc đa thể hạt. Luận án sử dụng giải thuật di truyền để
tìm kiếm các thuộc tối ưu (hay xác định các tham số của các cấu trúc ĐSGT) dựa trên
CSDL cho trước. Kết quả nghiên cứu này cho thấy phương pháp xây dựng các tập
hàm thuộc để phân chia tập mục mờ trong bài toán khai phá luật kết hợp mờ, một
công đoạn quan trọng mà còn ít được đầu tư nghiên cứu. Việc mở rộng ĐSGT (không
chỉ có 5 hạng từ) để đáp ứng yêu cầu bài toán tối ưu hóa cả số lượng lẫn các thông số
các MF đã nêu trên sẽ vừa giải quyết tốt bài toán khai phá dữ liệu, vừa phát huy thế
mạnh của ĐSGT. Sử dụng ĐSGT có thể tăng dễ dàng số hạng từ mà vẫn đảm bảo có
được các phân hoạch mạnh dùng phân chia miền xác định của mục. Nội dung của
chương này được công bố trong các công trình [iii, iv].
Kết quả của luận án được thử nghiệm với 6 CSDL gồm: FAM95, pollution,
stulong, basketball, quake, stock. Các CSDL này được lấy từ kho dữ liệu UCI
(https://archive.ics.uci.edu).
98
Phương pháp này khá đơn giản nhưng hiệu quả trong việc xây dựng các tập
mờ phân chia miền giá trị thuộc tính. Cách phân chia miền mờ vừa đảm bảo đáp ứng
tốt các tiêu chí về hệ tập mờ, vừa mang lại sự đáp ứng tốt về mặt ngữ nghĩa cho các
luật khai phá được. Luận án đã thử nghiệm với hai phương pháp biểu diễn dữ liệu:
biểu diễn đơn thể hạt và biểu diễn đa thể hạt. Các luật khai phá được bao gồm cả các
luật mang tính khái quát cao và các luật chi tiết, phụ thuộc vào tầng biểu diễn dữ liệu
trong cấu trúc đa thể hạt ta xây dựng thông qua ĐSGT.
99
KẾT LUẬN VÀ KIẾN NGHỊ
Với mục tiêu tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng
luật mờ, như luật kết hợp mờ, luật mờ dạng ngôn ngữ,… từ các kho dữ liệu số. Luận
án sử dụng ĐSGT thay cho lý thuyết tập mờ để nghiên cứu một số vấn đề về khai phá
luật kết hợp mờ. Luận án đề xuất phương pháp nhằm giảm thời gian, cũng như đề
xuất giải pháp tìm kiếm phân hoạch mờ tối ưu cho mỗi thuộc tính định lượng dựa vào
CSDL đầu vào theo một số ràng buộc cho trước. Luận án đề xuất sử dụng lý thuyết
ĐSGT và giải thuật GA áp dụng trong bài toán khai phá luật kết hợp mờ thay vì sử
dụng lý thuyết tập mờ như các phương pháp đã đề xuất trước đây.
Kết quả nghiên cứu chính của luận án là:
- Nhằm mục đích giảm thời gian khai phá luật kết hợp, luận án đề xuất phương
pháp sử dụng ĐSGT và giải pháp nén CSDL mờ. Các giao dịch mờ gần nhau sẽ được
gộp với nhau để tạo thành giao dịch mới. Ưu điểm của phương pháp này là giúp
CSDL có kích thước nhỏ hơn CSDL ban đầu giúp thời gian khai phá luật kết hợp
giảm.
- Luận án đề xuất sử dụng lý thuyết ĐSGT và giải thuật di truyền tìm kiếm hàm
thuộc dựa vào CSDL giao dịch đầu vào và một số mục tiêu của bài toán khai phá luật
kết hợp mờ. Phương pháp lập luận mờ sử dụng ĐSGT chỉ cần tập trung đến độ đo
tính mờ hay tối ưu được bộ số gia tử, số lượng tham số ít hơn so với một số phương
pháp đã đề xuất trước đây mà các tác giả sử dụng lý tuyết tập mờ giúp thời gian tối
ưu nhanh hơn. Luận án sử dụng biểu diễn tập mờ dạng đơn thể hạt để tính toán độ
thuộc của dữ liệu vào các miền mờ. Kết quả là chúng ta thu được tập các hàm thuộc
cho các thuộc tính định lượng và tập các luật kết hợp mờ.
- Luận án sử dụng biểu diễn đa thể hạt và ĐSGT cho bài toán khai phá luật kết
hợp mờ. Về mặt ngữ nghĩa, dùng biểu diễn đa thể hạt sẽ cho chúng ta các luật kết hợp
vừa có tính khái quát và có tính chi tiết. Với phương pháp luận án đề xuất, việc tính
toán liên quan đến biểu diễn đa thể hạt là tăng thêm không đáng kể về mặt phức tạp
cũng như mặt thời gian mà kết quả nhận được lại tốt hơn rất nhiều.
Mặc dù luận án đã đạt được những kết quả khá tốt, tuy nhiên các kết quả nghiên
cứu này chủ yếu tập trung vào giải pháp nén dữ liệu giao dịch và phân hoạch miền
xác định của thuộc tính thành các miền mờ dưới dạng biểu diễn đơn thể hạt và đa thể
100
hạt theo hướng tiếp cận sử dụng ĐSGT cho bài toán khai phá luật kết hợp mờ. Song,
một số nội dung liên quan đến bài toán khai phá luật kết hợp cần được tiếp tục nghiên
cứu hoàn chỉnh hơn: giải các bài toán tìm luật kết hợp phủ định, luật kết hợp có trọng
số, luật kết hợp song song,… Đó là những vấn đề đặt ra cho chúng tôi cần phải có
những nghiên cứu trong thời gian tới.
101
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN ÁN
i) Trần Thái Sơn, Nguyễn Tuấn Anh, Nâng cao hiệu quả khai phá luật kết hợp mờ theo
hướng tiếp cận đại số gia tử, Kỷ yếu hội nghị quốc gia lần VI về nghiên cứu cơ bản
và ứng dụng công nghệ thông tin (Fair) - Huế, 6/2013.
ii) Tran Thai Son, Nguyen Tuan Anh, Improve efficiency fuzzy association rule using
hedge algebra approach, Journal of Computer Science and Cybernetics, Vol 30, No
4, 2014.
iii) Tran Thai Son, Nguyen Tuan Anh, Hedges Algebras and fuzzy partition problem for
qualitative attributes, Journal of Computer Science and Cybernetics, V.32, N.4, 2016.
iv) Tran Thai Son, and Nguyen Tuan Anh, Partition fuzzy domain with multi-granularity
representation of data based on Hedge Algebra approach, Journal of Computer
Science and Cybernetics, vol 34, pp. 63-76, 2018.
102
TÀI LIỆU THAM KHẢO
TIẾNG VIỆT
[1] B. C. Cường, and N. D. Phước, Hệ mờ, mạng nơron và ứng dụng, Nhà xuất
bản Khoa học kỹ thuật, 2006.
[2] N. C. Hào, and N. C. Đoàn, Luật kết hợp mờ dựa trên ngữ nghĩa đại số gia tử,
Tạp chí khoa học - Đại học Huế, vol. 74A, no. 5, 2012.
[3] T. T. Sơn, Đ. N. Tiến, and P. Đ. Phong, Luật kết hợp theo cách tiếp cận Đại
số gia tử, Journal of Computer Science and Cybernetics, vol. 27, no. 4, 2012.
[4] H. V. Thông, N. C. Hồ, and N. Đ. Dư, Một phương pháp sinh hệ luật mờ
Mamdani cho bài toán hồi quy với ngữ nghĩa Đại số gia tử, Tin học và điều
khiển học, vol. 30, no. 3, pp. 227-238, 2014.
TIẾNG ANH
[5] C.-M. Lin, Y.-L. Hsieh, K.-C. Yin, M.-C. Hung, and D.-L. Yang, ADMiner:
An Incremental Data Mining Approach Using a Compressed FP-tree, Journal
of Software, vol. 8, no. 8, 2013.
[6] R. J. Kuo, C. M. Chao, and Y. Chiu, Application of particle swarm
optimization to association rule mining, Applied Soft Computing, vol. 11, no.
1, pp. 326-336, 2011.
[7] A. Agarwal, and N. Nanavati, Association rule mining using hybrid GA-PSO
for multi-objective optimisation, Computational Intelligence and Computing
Research (ICCIC), 2016 IEEE International Conference on, IEEE, 2016.
[8] R. J. Miller, and Y. Yang, Association rules over interval data, ACM
SIGMOD Record, vol. 26, no. 2, pp. 452-461, 1997.
[9] U. Can, and B. Alatas, Automatic Mining of Quantitative Association Rules
with Gravitational Search Algorithm, International Journal of Software
Engineering and Knowledge Engineering, vol. 27, no. 03, pp. 343-372, 2017.
[10] L. J. Eshelman, The CHC adaptive search algorithm: How to have safe search
when engaging in nontraditional genetic recombination, Foundations of
genetic algorithms, pp. 265-283: Elsevier, 1991.
[11] C.-H. Chen, V. S. Tseng, and T.-P. Hong, Cluster-based evaluation in fuzzy-
genetic data mining, IEEE transactions on fuzzy systems, vol. 16, no. 1, pp.
249-262, 2008.
[12] M. Kaya, and R. Alhajj, A clustering algorithm with genetically optimized
membership functions for fuzzy association rules mining, Fuzzy Systems,
2003. FUZZ'03. The 12th IEEE International Conference on, IEEE, 2003.
[13] L. A. Zadeh, The concept of a linguistic variable and its application to
approximate reasoning—I, Information sciences, vol. 8, no. 3, pp. 199-249,
1975.
[14] H. B. Yadav, and D. K. Yadav, Construction of membership function for
software metrics, Procedia Computer Science, vol. 46, pp. 933-940, 2015.
[15] C. Mencar, M. Lucarelli, C. Castiello, and A. M. Fanelli, Design of Strong
Fuzzy Partitions from Cuts, EUSFLAT Conf., 2013.
103
[16] P. Pulkkinen, and H. Koivisto, A dynamically constrained multiobjective
genetic fuzzy system for regression problems, IEEE Transactions on Fuzzy
Systems, vol. 18, no. 1, pp. 161-177, 2010.
[17] R. T. Ng, and J. Han, Efficient and Effective Clustering Methods for Spatial
Data Mining, Proceedings of VLDB, Citeseer, 1994.
[18] J.-Y. Dai, D.-L. Yang, J. Wu, and M.-C. Hung, An efficient data mining
approach on compressed transactions, World Academy of Science,
Engineering and Technology, vol. 3, pp. 76-83, 2008.
[19] N. C. Ho, and W. Wechler, Extended hedge algebras and their application to
fuzzy logic, Fuzzy sets and systems, vol. 52, no. 3, pp. 259-281, 1992.
[20] D. Meng, and Z. Pei, Extracting linguistic rules from data sets using fuzzy
logic and genetic algorithms, Neurocomputing, vol. 78, no. 1, pp. 48-54, 2012.
[21] R. Agrawal, and R. Srikant, Fast algorithms for mining association rules,
Proc. 20th int. conf. very large data bases, VLDB, 1994.
[22] C.-H. Chen, T.-P. Hong, Y.-C. Lee, and V. S. Tseng, Finding Active
Membership Functions for Genetic-Fuzzy Data Mining, International Journal
of Information Technology & Decision Making, vol. 14, no. 06, pp. 1215-
1242, 2015.
[23] A. Fu, M. H. Wong, S. C. Sze, W. C. Wong, W. L. Wong, and W. K. Yu,
Finding fuzzy sets for the mining of fuzzy association rules for numerical
attributes, Proceedings of the first international symposium on intelligent data
engineering and learning, 1998.
[24] A. Mangalampalli, and V. Pudi, FPrep: Fuzzy clustering driven efficient
automated pre-processing for fuzzy association rule mining, Fuzzy Systems
(FUZZ), 2010 IEEE International Conference on, IEEE, 2010.
[25] N. C. Ho, and N. V. Long, Fuzziness measure on complete hedge algebras and
quantifying semantics of terms in linear hedge algebras, Fuzzy Sets and
Systems, vol. 158, no. 4, pp. 452-471, 2007.
[26] N. C. Ho, T. T. Son, T. D. Khang, and L. X. Viet, Fuzziness Measure,
Quantified Sematic Mapping and Interpolative Method of Approximate
Reasoning in Medical Expert Systems, Journal of Computer Science and
Cybernetics, vol. 18, no. 3, pp. 237-252, 2002.
[27] A. Gyenesei, A fuzzy approach for mining quantitative association rules, Acta
Cybern., vol. 15, no. 2, pp. 305-320, 2001.
[28] J. Alcala-Fdez, R. Alcala, and F. Herrera, A fuzzy association rule-based
classification model for high-dimensional problems with genetic rule selection
and lateral tuning, IEEE Transactions on Fuzzy Systems, vol. 19, no. 5, pp.
857-872, 2011.
[29] A. Mangalampalli, and V. Pudi, Fuzzy association rule mining algorithm for
fast and efficient performance on very large datasets, Fuzzy Systems, 2009.
FUZZ-IEEE 2009. IEEE International Conference on, IEEE, 2009.
[30] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with
quantitative attributes, ACM SIGMOD Records, 1998.
[31] C. Kuok, A. Fu, and M. Wong, Fuzzy association rules in large databases with
quntitative attributes, ACM SIGMOD Records, 1998.
[32] C. A. Kumar, Fuzzy Clustering-Based Formal Concept Analysis for
Association Rules Mining, Applied Artificial Intelligence, vol. 26, no. 3, pp.
274-301, 2012.
104
[33] C.-H. Chen, A.-F. Li, and Y.-C. Lee, A fuzzy coherent rule mining algorithm,
Applied Soft Computing, vol. 13, no. 7, pp. 3422-3428, 2013.
[34] C.-W. Lin, T.-P. Hong, and W.-H. Lu, Fuzzy data mining based on the
compressed fuzzy fp-trees, Fuzzy Systems, 2009. FUZZ-IEEE 2009. IEEE
International Conference on, IEEE, 2009.
[35] W. Siler, and J. J. Buckley,Fuzzy expert systems and fuzzy reasoning: John
Wiley & Sons, 2005.
[36] K. Loquin, and O. Strauss, Fuzzy histograms and density estimation, Soft
methods for integrated uncertainty modelling, pp. 45-52: Springer, 2006.
[37] G. Castellano, A. M. Fanelli, and C. Mencar, Fuzzy Information Granulation
with Multiple Levels of Granularity, Granular Computing and Intelligent
Systems, pp. 185-202: Springer, 2011.
[38] G. Pradeep, and V. Ravi, Fuzzy Multi-Objective Association Rule Mining
Using Evolutionary Computation, Handbook of Research on Intelligent
Techniques and Modeling Applications in Marketing Analytics, pp. 119, 2016.
[39] H. Ishibuchi, and T. Yamamoto, Fuzzy rule selection by multi-objective
genetic local search algorithms and rule evaluation measures in data mining,
Fuzzy Sets and Systems, vol. 141, no. 1, pp. 59-88, 2004.
[40] L. A. Zadeh, Fuzzy sets, Information and control, vol. 8, no. 3, pp. 338-353,
1965.
[41] J. C. Bezdek, D. Dubois, and H. Prade,Fuzzy sets in approximate reasoning
and information systems: Springer Science & Business Media, 2012.
[42] T.-P. Hong, C.-H. Chen, Y.-C. Lee, and Y.-L. Wu, Genetic-fuzzy data mining
with divide-and-conquer strategy, IEEE Transactions on Evolutionary
Computation, vol. 12, no. 2, pp. 252-265, 2008.
[43] C.-H. Chen, T.-P. Hong, V. S. Tseng, and C.-S. Lee, A genetic-fuzzy mining
approach for items with multiple minimum supports, Soft Computing, vol. 13,
no. 5, pp. 521-533, 2009.
[44] K. Deb, Genetic Algorithm in Search and Optimization, Indian Institute of
Technology, Kanpur, India, 1998.
[45] W. Wang, and S. Bridges, Genetic algorithm optimization of membership
functions for mining fuzzy association rules, Department of Computer Science
Mississippi State University, vol. 2, 2000.
[46] C.-K. Ting, T.-C. Wang, R.-T. Liaw, and T.-P. Hong, Genetic algorithm with
a structure-based representation for genetic-fuzzy data mining, Soft
Computing, vol. 21, no. 11, pp. 2871-2882, 2016.
[47] N. C. Ho, W. Pedrycz, D. T. Long, and T. T. Son, A genetic design of linguistic
terms for fuzzy rule based classifiers, International Journal of Approximate
Reasoning, vol. 54, no. 1, pp. 1-21, 2012.
[48] R. Alcalá, J. Alcalá-Fdez, M. J. Gacto, and F. Herrera, Genetic learning of
membership functions for mining fuzzy association rules, Fuzzy Systems
Conference, 2007. FUZZ-IEEE 2007. IEEE International, IEEE, 2007.
[49] N. C. Ho, and W. Wechler, Hedge algebras: an algebraic approach to
structure of sets of linguistic truth values, Fuzzy sets and systems, vol. 35, no.
3, pp. 281-293, 1990.
[50] M. Martínez-Ballesteros, A. Troncoso, F. Martínez-Álvarez, and J. C.
Riquelme, Improving a multi-objective evolutionary algorithm to discover
105
quantitative association rules, Knowledge and Information Systems, vol. 49,
no. 2, pp. 481-509, 2015.
[51] M. J. Gacto, R. Alcalá, and F. Herrera, Interpretability of linguistic fuzzy rule-
based systems: An overview of interpretability measures, Information
Sciences, vol. 181, no. 20, pp. 4340-4360, 2011.
[52] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Learning
concurrently data and rule bases of Mamdani fuzzy rule-based systems by
exploiting a novel interpretability index, Soft Computing, vol. 15, no. 10, pp.
1981-1998, 2011.
[53] J. Alcalá-Fdez, R. Alcalá, M. J. Gacto, and F. Herrera, Learning the
membership function contexts for mining fuzzy association rules by using
genetic algorithms, Fuzzy Sets and Systems, vol. 160, no. 7, pp. 905-921,
2009.
[54] R. Agrawal, T. Imieliński, and A. Swami, Mining association rules between
sets of items in large databases, Acm sigmod record, ACM, 1993.
[55] T.-P. Hong, C.-S. Kuo, and S.-C. Chi, Mining association rules from
quantitative data, Intelligent data analysis, vol. 3, no. 5, pp. 363-376, 1999.
[56] C. H. Cai, A. W.-C. Fu, C. Cheng, and W. Kwong, Mining association rules
with weighted items, Database Engineering and Applications Symposium,
1998. Proceedings. IDEAS'98. International, IEEE, 1998.
[57] K. C. Chan, and W.-H. Au, Mining fuzzy association rules, Proceedings of the
sixth international conference on Information and knowledge management,
ACM, 1997.
[58] S.-z. Li, and S.-l. Chen, Mining fuzzy association rules by using nonlinear
particle swarm optimization, Quantitative Logic and Soft Computing 2010, pp.
621-630: Springer, 2010.
[59] C. M. Kuok, A. Fu, and M. H. Wong, Mining fuzzy association rules in
databases, ACM Sigmod Record, vol. 27, no. 1, pp. 41-46, 1998.
[60] C.-K. Ting, R.-T. Liaw, T.-C. Wang, and T.-P. J. M. C. Hong, Mining fuzzy
association rules using a memetic algorithm based on structure
representation, Memetic Computing, vol. 10, no. 1, pp. 15-28, 2018.
[61] W. Zhang, Mining fuzzy quantitative association rules, Tools with Artificial
Intelligence, 1999. Proceedings. 11th IEEE International Conference on,
IEEE, 1999.
[62] D. L. Olson, and Y. Li, Mining fuzzy weighted association rules, System
Sciences, 2007. HICSS 2007. 40th Annual Hawaii International Conference
on, IEEE, 2007.
[63] B. Minaei-Bidgoli, R. Barmaki, and M. Nasiri, Mining numerical association
rules via multi-objective genetic algorithms, Information Sciences, vol. 233,
pp. 15-24, 2013.
[64] M. Kaya, and R. Alhajj, Mining optimized fuzzy association rules using multi-
objective genetic algorithm, 8th IEEE International Conference on Intelligent
Engineering Systems, Cluj-Napoca, Romania, 2004.
[65] R. Srikant, and R. Agrawal, Mining quantitative association rules in large
relational tables, Acm Sigmod Record, ACM, 1996.
[66] G. Wang, J. Xu, Q. Zhang, and Y. Liu, Multi-granularity intelligent
information processing, Rough Sets, Fuzzy Sets, Data Mining, and Granular
Computing, pp. 36-48: Springer, 2015.
106
[67] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective
evolutionary design of granular rule-based classifiers, Granular Computing,
vol. 1, no. 1, pp. 37-58, 2015.
[68] M. Antonelli, P. Ducange, B. Lazzerini, and F. Marcelloni, Multi-objective
evolutionary learning of granularity, membership function parameters and
rules of Mamdani fuzzy systems, Evolutionary Intelligence, vol. 2, no. 1-2, pp.
21, 2009.
[69] C.-H. Chen, T.-P. Hong, V. S. Tseng, and L.-C. Chen, Multi-objective genetic-
fuzzy data mining, International Journal of Innovative Computing Information
and Control, vol. 8, no. 10A, pp. 6551-6568, 2012.
[70] M. Kaya, Multi-objective genetic algorithm based approaches for mining
optimized fuzzy association rules, Soft computing, vol. 10, no. 7, pp. 578-586,
2006.
[71] A. Ghosh, and B. Nath, Multi-objective rule mining using genetic algorithms,
Information Sciences, vol. 163, no. 1-3, pp. 123-133, 2004.
[72] H. R. Qodmanan, M. Nasiri, and B. Minaei-Bidgoli, Multi objective
association rule mining with genetic algorithm without specifying minimum
support and minimum confidence, Expert Systems with applications, vol. 38,
no. 1, pp. 288-298, 2011.
[73] M. J. Zaki, S. Parthasarathy, M. Ogihara, and W. Li, New Algorithms for Fast
Discovery of Association Rules, KDD, 1997.
[74] H. Kalia, S. Dehuri, A. Ghosh, and S.-B. Cho, On the mining of fuzzy
association rule using multi-objective genetic algorithms, International
Journal of Data Mining, Modelling and Management, vol. 8, no. 1, pp. 1-31,
2016.
[75] A. Gupta, S. Jain, and A. J. A. a. S. Tiwari, Optimization and Improvement of
association rule mining using genetic algorithm and fuzzy logic, 2019.
[76] U. K. Patel, Optimization of Association Rule Mining Using Genetic
Algorithm, Conference Proceeding of International Conference on Recent
Innovation in Science, Technology and Management, 2016.
[77] M. Saggar, A. K. Agrawal, and A. Lad, Optimization of association rule
mining using improved genetic algorithms, Systems, Man and Cybernetics,
2004 IEEE International Conference on, IEEE, 2004.
[78] H. Zheng, J. He, G. Huang, and Y. Zhang, Optimized fuzzy association rule
mining for quantitative data, Fuzzy Systems (FUZZ-IEEE), 2014 IEEE
International Conference on, IEEE, 2014.
[79] Z. Makani, S. Arora, and P. Kanikar, A Parallel Approach to Combined
Association Rule Mining, International Journal of Computer Applications, vol.
62, no. 15, 2013.
[80] S. Mishra, D. Mishra, and S. K. Satapathy, Particle swarm optimization based
fuzzy frequent pattern mining from gene expression data, Computer and
Communication Technology (ICCCT), 2011 2nd International Conference on,
IEEE, 2011.
[81] M. Fazzolari, R. Alcala, Y. Nojima, H. Ishibuchi, and F. Herrera, A review of
the application of multiobjective evolutionary fuzzy systems: Current status
and further directions, IEEE Transactions on Fuzzy systems, vol. 21, no. 1,
pp. 45-65, 2013.
107
[82] Y. Yao, A triarchic theory of granular computing, Granular Computing, vol.
1, no. 2, pp. 145-157, 2016.
[83] T.-P. Hong, C.-H. Chen, Y.-L. Wu, and Y.-C. Lee, Using divide-and-conquer
GA strategy in fuzzy data mining, Computers and Communications, 2004.
Proceedings. ISCC 2004. Ninth International Symposium on, IEEE, 2004.
[84] L. Yan, Z. Pei, and F. Ren, Constructing and Managing Multi-Granular
Linguistic Values Based on Linguistic Terms and Their Fuzzy Sets, IEEE
Access, vol. 7, pp. 152928-152943, 2019.
[85] N. C. Ho, T. T. Son, H. V. Thong, and N. V. Long, LFoC-Interpretability of
Linguistic Rule Based Systems and its Applications To Solve Regression
Problems, International Journal of Computer Technology & Applications, vol.
8, no. 2, pp. 94-117, 2017.