Lý thuyết tập thô và các khái niệm

TẬP THÔ VÀ CÁC KHÁI NIỆM

CHƯƠNG 1

Giới thiệu

Lý thuyết tập thô - Rough Set Theory Người đề xuất: Zdzislaw Pawlak

– Vào năm 1980 của thế kỷ 20

Giới thiệu

Ứng dụng: Là một công cụ để phân lớp các bảng dữ

liệu chứa các thông tin mơ hồ, không chắc chắn.

Đóng vai trò quan trọng trong lĩnh vực trí tuệ nhân

tạo và các ngành khoa học liên quan đến nhận thức:

– Lĩnh vực máy học

– Thu nhận tri thức

– Phân tích quyết định, khám phá và phát hiện tri thức từ

các cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ

quyết định v.v…

Cách tiếp cận

Lý thuyết tập thô dựa trên giả thuyết: để định

nghĩa một tập hợp, chúng ta cần phải có thông

tin về mọi đối tượng trong tập vũ trụ.

Chẳng hạn: nếu các đối tượng là những bệnh

nhân bị một bệnh nhất định thì các triệu chứng

của bệnh tạo thành thông tin về bệnh nhân.

Cách tiếp cận

Tập thô có quan điểm hoàn toàn khác với quan

điểm truyền thống của tập hợp, trong đó mọi tập

hợp đều được định nghĩa duy nhất bởi các phần

tử của nó mà không cần biết bất kỳ thông tin nào

về các phần tử của tập hợp.

Thực tế có thể tồn tại một số đối tượng giống

nhau ở một số thông tin nào đó, và ta nói rằng

chúng có quan hệ bất khả phân biệt với nhau.

Cách tiếp cận

Đây chính là quan hệ mấu chốt và là điểm xuất phát

của lý thuyết tập thô:

Biên giới của tập thô là không rõ ràng, và để xác định

nó ta phải đi tìm xấp xỉ của nó bằng các tập hợp khác

nhằm mục đích xác định một số đối tượng nào đó có

thuộc tập hợp hay không.

Lý thuyết tập thô với cách tiếp cận như vậy đã được

ứng dụng trong rất nhiều lĩnh vực của đời sống xã

hội.

Hệ thông tin

Một tập dữ liệu thể hiện dưới dạng bảng, mỗi dòng

biểu diễn một trường hợp, một sự kiện, một bệnh

nhân hoặc đơn giản là một đối tượng.

Mỗi cột biểu diễn một thuộc tính (một biến, thông

tin, một đặc tính) của mỗi đối tượng; thuộc tính có

thể được cung cấp bởi chuyên gia hoặc người

dùng.

Bảng như vậy được gọi là một hệ thống thông tin.

Hệ thông tin

Về hình thức, mỗi hệ thông tin là một cặp (U, A)

Trong đó:

– U là một tập khác rỗng các đối tượng gọi là tập vũ

trụ

– A là một tập khác rỗng các thuộc tính sao cho

a:UVa với mọi aA.

– Tập Va được gọi là tập giá trị của a.

Hệ thông tin

VD 1.1: Một hệ thống thông tin như sau:– U là tập gồm 7 đối tượng:

x1, …, x7

– Tập thuộc tính A gồm 2 thuộc tính: Age và LEMS (Lower Extremity Motor Score).

Age LEMS

x1 16-30 50

x2 16-30 0

x3 31-45 1-25

x4 31-45 1-25

x5 46-60 26-49

x6 16-30 26-49

x7 46-60 26-49

Hệ thông tin

Cặp đối tượng x3 và x4 cũng

như x5 và x7 có giá trị bằng

nhau tại cả hai thuộc tính.

Các đối tượng này không

phân biệt từng đôi đối với

tập thuộc tính {Age, LEMS}.

Các đối tượng này (có thể)

có quan hệ bất khả phân

biệt

Age LEMS

x1 16-30 50

x2 16-30 0

x3 31-45 1-25

x4 31-45 1-25

x5 46-60 26-49

x6 16-30 26-49

x7 46-60 26-49

Hệ quyết định

Trong nhiều ứng dụng tập vũ trụ được phân chia

thành các tập đối tượng con bởi một tập các thuộc

tính phân biệt được gọi là tập thuộc tính quyết định.

Hệ thông tin trong trường hợp này gọi là hệ quyết

định.

Hệ quyết định dạng: S = (U, A {d}), trong đó D = {d}

với d A là tập thuộc tính quyết định.

Các phần tử của tập A gọi là thuộc tính điều kiện

hoặc đơn giản gọi là các điều kiện.


Bảng bên thể hiện một hệ quyết định, trong đó:

A = {Age, LEMS} tập các thuộc tính điều kiện.

D = {Walk} là tập thuộc tính quyết định (Walk) với 2 giá trị: Yes, No.

Age LEMS Walk

x1 16-30 50 Yes

x2 16-30 0 No

x3 31-45 1-25 No

x4 31-45 1-25 Yes

x5 46-60 26-49 No

x6 16-30 26-49 Yes

x7 46-60 26-49 No


Cặp đối tượng x3 và x4 có giá trị tại thuộc tính quyết định khác nhau.

Cặp đối tượng x5 và x7 có giá trị tại thuộc tính quyết bằng nhau.

Quan hệ bất khả phân biệt?

Age LEMS Walk

x1 16-30 50 Yes

x2 16-30 0 No

x3 31-45 1-25 No

x4 31-45 1-25 Yes

x5 46-60 26-49 No

x6 16-30 26-49 Yes

x7 46-60 26-49 No

Quan hệ bất khả phân biệt

Sự dư thừa thông tin

Quan hệ tương đương-lớp tương đương Thuật toán xác định lớp tương đương.


Một hệ (bảng) quyết định thể hiện tri thức về các đối

tượng trong thế giới thực.

Tuy nhiên trong nhiều trường hợp bảng này có thể

được tinh giảm do tồn tại ít nhất hai khả năng dư

thừa thông tin sau đây:

– Nhiều đối tượng giống nhau, hay không thể phân biệt

với nhau lại được thể hiện lặp lại nhiều lần.

– Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ

đi các thuộc tính này thì thông tin do bảng quyết định

cung cấp mà ta quan tâm sẽ không bị mất mát.


Ví dụ 1-2: Có thể bỏ đi thuộc tính c mà thông tin về các đối tượng vẫn không đổi, vì nếu một đối tượng với 2 thuộc tính a, b nhận 2 giá trị 0, 1 thì có thể nói ngay rằng giá trị của nó tại thuộc tính c là 1.

STT a b c d

1 0 0 1 0

2 0 1 1 0

3 0 1 1 0

4 0 1 1 0

5 1 0 0 1

6 1 0 0 1

7 1 1 0 1

8 1 1 0 1

9 1 1 0 0

Quan hệ tương đương – Lớp tương đương

Xem xét sự dư thừa thông tin nói trên qua khái niệm quan hệ tương đương.

Một quan hệ hai ngôi R XxX được gọi là quan hệ tương đương khi và chỉ khi:– R là quan hệ phản xạ: xRx, x X.– R là quan hệ đối xứng: xRy yRx, x,y X.– R là quan hệ bắc cầu: xRy và yRz xRz, x,y,z X.

Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp tương đương, trong đó lớp tương đương của đối tượng x là tập tất cả các đối tượng có quan hệ R với x.


Xét hệ thông tin = (U, A). Mỗi tập thuộc tính B A đều tạo ra tương ứng một quan hệ tương đương IDN:

IDN(B) = {(x, x’) U2 | a B, a(x) = a(x’)}

IDN(B) được gọi là quan hệ B-bất khả phân biệt.

Nếu (x, x’) IDN(B) thì các đối tượng x và x’ là không thể

phân biệt được với nhau qua tập thuộc tính B. Với mọi đối tượng x U, lớp tương đương của x trong quan

hệ IDN(B) được ký hiệu bới [x]B.

Có thể viết IDN(B) thay cho IDN(B).

Quan hệ B-bất khả phân biệt phân hoạch tập đối tượng U thành các lớp tương đương mà ta ký hiệu là U| IDN(B).


Ví dụ 1.3: Tập thuộc tính

{a,b,c} phân tập đối tượng

{1,2,…,9} thành tập lớp

tương đương sau:

U | IDN(B) = {{1}, {2,3,4},

{5,6},{7,8,9}}

Đối tượng 2 và 3 thuộc cùng

một lớp tương đương nên

chúng không phân biệt được

với nhau qua tập thuộc tính

{a,b,c}.

STT a b c d

1 0 0 1 0

2 0 1 1 0

3 0 1 1 0

4 0 1 1 0

5 1 0 0 1

6 1 0 0 1

7 1 1 0 1

8 1 1 0 1

9 1 1 0 0


Ví dụ 1.4 - Xét tại thuộc tính

{LEMS}, các đối tượng x3,

x4 có cùng giá trị 1-25 nên

thuộc cùng một lớp tương

đương định nghĩa bởi quan

hệ IND({LEMS}), hay chúng

là bất khả phân biệt qua

thuộc tính {LEMS}.

Age LEMS Walk

x1 16-30 50 Yes

x2 16-30 0 No

x3 31-45 1-25 No

x4 31-45 1-25 Yes

x5 46-60 26-49 No

x6 16-30 26-49 Yes

x7 46-60 26-49 No


Ba đối tượng x5, x6 và x7

cũng thuộc cùng một lớp

tương đương định nghĩa

bởi quan hệ IND({LEMS})

tương ứng với giá trị thuộc

tính LEMS bằng 26-29.

Age LEMS Walk

x1 16-30 50 Yes

x2 16-30 0 No

x3 31-45 1-25 No

x4 31-45 1-25 Yes

x5 46-60 26-49 No

x6 16-30 26-49 Yes

x7 46-60 26-49 No


Quan hệ IDN định ra ba phân

hoạch sau của tập đối

tượng U.

IND({Age}) = {{x1,x2,x6},{x3,x4},

{x5,x7}}

IND({LEMS}) = {{x1},{x2},{x3,x4},

{x5,x6,x7}}

IND({Age,LEMS}) = {{x1},{x2},

{x6},{x3,x4},{x5,x7}}

Age LEMS Walk

x1 16-30 50 Yes

x2 16-30 0 No

x3 31-45 1-25 No

x4 31-45 1-25 Yes

x5 46-60 26-49 No

x6 16-30 26-49 Yes

x7 46-60 26-49 No

Thuật toán xác định lớp tương đương.

Vào:– Tập đối tượng U– Tập thuộc tính B

Ra: Tập các lớp tương đương L

Thuật toán xác định lớp tương đương.

Bước 1: L = Bước 2:

- Nếu U = = thì: Thực hiện bước 5

- Ngược lại thì: Thực hiện bước 3

Bước 3:

- Xét x U1. P = {x};

2. U = U \ {x};

3. For (y U)

Nếu (x và y là bất khả phân biệt quan tập thuộc tính B) thì

P = P {y};

U = U \ {y};

L = L P;

Bước 4: Lặp lại bước 2.

Bước 5: Kết thúc.

Xấp xỉ tập hợp và không gian xấp xỉ.

Lý thuyết tập thô đưa ra một quan điểm mới cho

các tri thức không rõ ràng, tri thức mập mờ.

Theo quan điểm này sự mập mờ được biểu diễn

bởi một vùng biên giới của tập hợp.

Khái niệm tập hợp cũng có thể được định nghĩa

bởi ý nghĩa của các toán tử topology, IN (ở

trong) và close (đóng kín) gọi là xấp xỉ.


Cụ thể: Cho một tập đối tượng U và một quan hệ

hai ngôi R U x U. Tập U được gọi là tập vũ trụ

và R được gọi là quan hệ bất khả phân biệt.

Quan hệ R biểu diễn các tri thức còn thiếu về các

phần tử trong tập U.

Giả sử R là một quan hệ tương đương. Khi đó

cặp (U,R) được gọi là không gian xấp xỉ, trong đó

U là một tập vũ trụ và R là một quan hệ tương

đương trên U.


Cho X U, mục tiêu của ta là phải xác định tập X thông qua quan hệ R.

Với R(x) ta xác định một lớp tương đương gồm các đối tượng có quan hệ R với x.

Quan hệ bất khả phân biệt R mô tả các tri thức còn thiếu về tập vũ trụ U.


Lớp tương đương của quan hệ R, được gọi là

“các hạt” mô tả một phần cơ bản của tri thức mà

ta có thể nhận được thông qua quan hệ R.

Nếu chỉ sử dụng quan hệ bất khả phân biệt R,

nhìn chung, ta không thể đạt được các đối

tượng riêng lẻ trong tập U mà chỉ “các hạt” có

thể truy cập của tri thức được mô tả bởi quan hệ

này.


Tập tất cả các đối tượng có thể xác định chính

xác thuộc tập X thông qua quan hệ R được gọi là

R - xấp xỉ dưới và được ký hiệu là R*(X).

R*(X) = {x:R(x)X}.

Tập tất cả các đối tượng chỉ có xác định là có thể

thuộc tập X thông qua quan hệ R được gọi là R –

xấp xỉ trên của tập X, và được ký hiệu là R*(X).

R*(X) = {x:R(x)X ≠ }.


Tập tất cả các đối tượng vừa có thể là thuộc tập X

vừa có thể thuộc tập –X xác định thông qua quan hệ

R gọi là vùng biên giới của tập X đối với quan hệ R,

và được ký hiệu là RNR(X).

RNR(X) = R*(X) - R*(X).

Định nghĩa về khái niệm lý thuyết tập thô.

– Một tập X được gọi là “MỊN” đối với quan hệ R nếu và

chỉ nếu biên giới của X là rỗng.

– Một tập X được gọi là “THÔ” đối với quan hệ R nếu và

chỉ nếu biện giới của X là không rỗng.


Các định nghĩa về xấp xỉ tập hợp cũng có thể được biểu diễn theo dạng “các hạt” tri thức như sau:

Xấp xỉ dưới của một tập hợp là hợp của tất cả “các hạt” nằm hoàn toàn bên trong tập hợp X;

Xấp xỉ trên của một tập hợp là hợp của tất cả “các hạt” mà giao của nó với tập hợp X là không rỗng;

Biên giới của một tập hợp là sự khác biệt giữa xấp xỉ trên và xấp xỉ dưới của tập hợp.


“Các hạt” tri thức Tập các đối tượng U

Xấp xỉ dưới

Xấp xỉ trênTập hợp X


Một số tính chất của các xấp xỉ:

R*(X) X R*(X)

R*() = R*() = ;

R*(U) = R*(U) = U;

R*(X Y) = R*(X) R*(Y)

R*(X Y) = R*(X) R*(Y)

R*(X Y) R*(X) R*(Y)


Một số tính chất của các xấp xỉ:

R*(X Y) R*(X) R*(Y)

X Y R*(X) R*(Y) và R*(X) R*(Y)

R*(-X) = -R*(X)

R*(-X) = -R*(X)

R* R*(X) = R*R*(X) = R*(X).

R*R*(X) = R*R*(X) = R*(X)


Định nghĩa 4 phân lớp của tập thô:

– Một tập X là “thô” xác định bởi quan hệ R nếu và

chỉ nếu R*(X) ≠ và R*(X) ≠ U.

– Một tập X là “bên trong” không thể xác định bởi R

nếu và chỉ nếu R*(X) = và R*(X) ≠ U.

– Một tập X là “bên ngoài” không thể xác định bởi R

nếu và chỉ nếu R*(X) ≠ và R*(X) = U.

– Một tập X là “tổng thể” không thể xác định bởi R

nếu và chỉ nếu R*(X) = và R*(X) = U.


Ý nghĩa trực quan của sự phân lớp:

– Một tập X là thô xác định bởi R: nghĩa là đối với R

ta có thể quyết định là một số phần tử của tập U

thuộc vào tập X và một số phần tử của tập U thuộc

vào tập –X.

– Một tập X là “bên trong” không thể xác định bởi R

nghĩa là đối với R ta có thể quyết định một số

phần tử của tập U thuộc vào tập –X, nhưng không

thể quyết định đối với bất kỳ phần tử nào của U là

nó có thuộc vào tập X hay không.


Ý nghĩa trực quan của sự phân lớp:

– Một tập X là “bên ngoài” không thể xác định bởi R

nghĩa là đối với R ta có thể quyết định đối với một

số phần tử của tập U thuộc vào tập X, nhưng ta

không thể quyết định đối với bất kỳ phần tử nào

của U là nó có thể thuộc vào tập –X hay không.

– Một tập X là “tổng thể” không thể xác định bởi R

nghĩa là đối với quan hệ R ta không thể quyết định

bất kỳ phần tử nào của U là nó có thuộc vào tập X

hoặc –X hay không.


Tập thô X cũng có thể được đặc trưng bởi hệ số:

Hệ số này gọi là độ chính xác của xấp xỉ, với X

khác rỗng.

Rõ ràng 0 ≤ ≤ 1. Nếu = 1 thì X là

“MỊN” đối với R (X là chắc chắn đối với R), mặt

khác, nếu < 1 thì X là “THÔ” đối với R (X

là mập mờ đối với R)

Xấp xỉ tập hợp

Một quan hệ tương đương R cho ta một phân hoạch các đối tượng của tập vũ trụ U.

Các lớp tương đương này có thể được sử dụng để tạo nên các tập con của tập vũ trụ.

Các tập con này thường chứa các đối tượng có cùng giá trị tại tập các thuộc tính quyết định.

Như vậy tập các giá trị tại các thuộc tính quyết định có thể được mô tả một cách rõ rằng thông qua tập các giá trị tại tập các thuộc tính điều kiện.


Ví dụ 1.4: Xét hệ quyết định điều tra về vấn đề da cháy nắng

STT Trọng lượng Dùng thuốc Kết quả

1 Nhẹ Có Không cháy nắng

2 Nhẹ Có Không cháy nắng

3 Nặng Không Cháy nắng

4 Trung bình Không Không cháy nắng


Ví dụ 1.4:

– Thuộc tính “Kết quả” là thuộc tính quyết định và

hai thuộc tính “Trọng lượng” và “Dùng thuốc” là

các thuộc tính điều kiện.

– Tập thuộc tính điều kiện B = {“Trọng lượng”,

“Dùng thuốc”} phân hoạch tập đối tượng U thành tập các lớp tương đương:

U | INC(B) = {{1,2}, {3}, {4}}


Ví dụ 1.4:

– Nhận thấy rằng tất cả các đối tượng thuộc cùng

một lớp tương đương đều có cùng giá trị tại thuộc

tính quyết định. Do đó, ta có thể mô tả thuộc tính

quyết định như sau:

– Kết quả là không cháy nắng nếu và chỉ nếu: Trọng

lượng là nhẹ và có dùng thuốc hoặc Trọng lượng

là trung bình và không dùng thuốc

– Kết quả là cháy nắng nếu và chỉ nếu: Trọng lượng

là nặng và không dùng thuốc


Ví dụ 1.4:

– Ta nói rằng khái niệm “cháy nắng” và “không

cháy nắng” trong thuộc tính Kết quả có thể được

định nghĩa rõ ràng thông qua hai thuộc tính Trọng

lượng và Dùng thuốc.

– Tuy vậy không phải lúc nào cũng có thể định

nghĩa một khái niệm rõ ràng như vậy:


Xét bảng bên: Giá trị của thuộc tính Walk không thể được định nghĩa rõ ràng qua 2 thuộc tính điều kiện là Age và LEMS:

Age LEMS Walk

x1 16-30 50 Yes

x2 16-30 0 No

x3 31-45 1-25 No

x4 31-45 1-25 Yes

x5 46-60 26-49 No

x6 16-30 26-49 Yes

x7 46-60 26-49 No


Hai đối tượng x3 và x4 thuộc cùng một lớp tương

đương tạo bởi hai thuộc tính điều kiện nhưng lại có

giá trị khác nhau tại thuộc tính quyết định Walk, vì

vậy nếu một đối tượng nào đó có (Age, LEMS) = (31-

45, 1-25) thì ta vẫn không thể biết chắc chắn giá trị

của nó tại thuộc tính Walk là “Yes” hay “No”, nói

cách khác ta sẽ không thể có một luật như sau:

“Walk là Yes nếu Age là 31-45 và LEMS là 1-25”.

Và đây chính là nơi mà khái niệm tập thô được sử

dụng.


Như vậy trong bảng trên:

– Đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS}

thuộc tập {{16-30,50}, {16-30,26-49}} thì có Walk là Yes.

– Đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS}

thuộc tập {{16-30,0}, {46-60,26-49}} thì có Walk là No.

– Nếu đối tượng nào có giá trị tại tập thuộc tính {Age,

LEMS} thuộc tập {{31-45,1-25}} thì có Walk là Yes hoặc

No, như đã nói ở trên đối tượng này thuộc về biên giới

của 2 hai giá trị Yes và No.


Cho hệ thông tin = (U, A), tập thuộc tính B A, tập

đối tượng X U.

Có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các

thuộc tính trong B từ việc xây dựng các tập hợp B-

xấp xỉ dưới và B-xấp xỉ trên được định nghĩa như

sau:

– B-xấp xỉ dưới của tập X :

– B-xấp xỉ trên của tập X :


Tập hợp là các đối tượng trong U mà sử dụng các thuộc tính trong B ta có thể biết chắc chắn rằng chúng là các phần tử của X.

Tập hợp là các đối tượng trong U mà sử dụng các thuộc tính trong B ta có thể nói rằng chúng có thể là các phần tử của X.

Tập hợp BN(X) = \ được gọi là B-biên của tập X và chứa các đối tượng mà sử dụng các thuộc tính của B ta không thể xác định được chúng có thuộc tập X hay không.

Tập hợp U \ được gọi là B-biên ngoài của tập X, gồm những đối tượng mà sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X.


Một tập hợp X được gọi là “THÔ” nếu vùng biên

của nó là không rỗng, ngược lại ta nói rằng tập

này là “RÕ”.

Lưu ý: Do khái niệm vùng biên của một tập hợp

đối tượng gắn liền với một tập thuộc tính nào đó

nên khái niệm THÔ hay RÕ ở đây cũng gắn liền

với tập thuộc tính đó.


Ví dụ 1-5: Xét bảng

Age LEMS Walk

x1 16-30 50 Yes

x2 16-30 0 No

x3 31-45 1-25 No

x4 31-45 1-25 Yes

x5 46-60 26-49 No

x6 16-30 26-49 Yes

x7 46-60 26-49 No


Với tập đối tượng X = {x | Walk(x) = Yes} = {x1, x4, x6}

và tập thuộc tính B = {Age, LEMS}. Khi đó ta nhận

được các vùng xấp xỉ sau đây của W thông qua B:

= {x1, x6}, = {x1, x3, x4, x6}

BNB(X) = {x3, x4}, U \ = {x2, x5, x7}


Xấp xỉ bảng 1-5


Ví dụ 1-6: Xét bảng thuộc tính của xe hơi

Đối tượng Kiểu dáng Số xi lanh Số cửa Nhiên liệu Tải trọng Vận tốc

1 USA 6 2 High Medium Medium

2 USA 6 4 Medium Medium Medium






8 USA 4 2 High Light High

9 JAPAN 4 2 Low Light High

10 JAPAN 4 2 Medium Medium High

11 JAPAN 4 2 High Medium High

12 JAPAN 4 2 Low Medium High

13 JAPAN 4 2 Medium Medium High

14 USA 4 2 Medium Medium High

Ví dụ 1-6

Tập vũ trụ U = {1,2,3,4,5,6,7,8,9,10,11,12,13,14}

Chọn tập thuộc tính B = {Số xi lanh, Nhiên liệu, Tải

trọng}

Tập thuộc tính quyết định D = {Vận tốc}. Khi đó tập

thuộc tính quyết định D gồm hai khái niệm là Dmedium

với “Vận tốc=Medium” và DHigh với “Vận tốc = High”.

Dmedium = {1,2,3,4,5,6,7}

DHigh = {8, 9, 10, 11,12,13,14}

Ví dụ 1-6

Các lớp tương đương ứng với quan hệ IND(B) là

E1 = {1,6}

E2= {2}

E3= {3,4,10,13,14}

E4= {5,7,11}

E5= {8}

E6= {9} và

E7= {12}.

Ví dụ 1-6

Xấp xỉ trên và xấp xỉ dưới của DMedium và DHigh là:

B*DMedium = {E1, E2} = {1,6,2}

B*DMedium = {E1, E2, E3, E4} =

{1,6,2,3,4,10,13,14,5,7,11}

B*DHigh = {E5, E6, E7} = {8,9,12}

B*DHigh = {E3, E4, E5, E6, E7} =

{3,4,10,13,14,5,7,11,8,9,12}

Thuật toán xác định xấp xỉ dưới

Vào :

Tập các đối tượng X

Tập các thuộc tính B Ra :

Tập các đối tượng B*X


Vào :




Thuật toán xác định xấp xỉ dướiB1: Khởi tạo B*X = .∅

Xác định tập các phân hoạch P của tập vũ trụ U tạo bởi B.

U1 = U

B2:

Nếu U1≠ Thì: Thực hiện bước 3.∅

Ngược lại: Thực hiện bước 5

B3: Xét x U∈ 1

Tìm phân hoạch Pi P sao cho: x P∈ ∈ i .

Nếu Pi X Thì :⊆ B*X = B*X ∪ Pi

U1 = U1 \ Pi .

B4: Lặp lại bước 2.

B5: Kết thúc

Thuật toán xác định xấp xỉ trên

Vào :





Vào :




Thuật toán xác định xấp xỉ trênB1: Khởi tạo B*X = .∅

Xác định tập các phân hoạch P của tập vũ trụ U tạo bởi B.

X1 = X

B2:

Nếu X1≠ Thì: Thực hiện bước 3.∅

Ngược lại: Thực hiện bước 5

B3: Xét x X∈ 1

Tìm phân hoạch Pi P sao cho: x P∈ ∈ i .

B*X = B*X ∪ Pi

Với mọi p ∈ Pi ∩ X1.

X1 = X1 \ {p}

B4: Lặp lại bước 2.

B5: Kết thúc

Bài tập

Ví dụ 1-6: Xét bảng thuộc tính của xe máy

– X là tập các xe máy có mức tiêu thụ chậm

– Y là tập các xe máy có mức tiêu thụ nhanh

– Tập thuộc tính B={Thương hiệu, Nhiên liệu, Giá tiền}

Yêu cầu:

– Tìm tập xấp xỉ trên và xấp xỉ dưới của X, Y đối với tập thuộc tính B

– Cài đặt các thuật toán tìm xấp trên và xấp xỉ dưới

Xe máy Thương hiệu Mầu sơn Vận tốc Nhiên liệu Giá tiền Tiêu thụ

1 Honda Xanh Cao T.Bình Cao Nhanh

2 Yamaha Xanh Cao Cao T.Bình Chậm

3 Yamaha Đỏ T.Bình Cao Cao Nhanh

4 Yamaha Vàng Cao Cao Cao Nhanh

5 Honda Vàng T.Bình Thấp T.Bình Nhanh

6 Honda Vàng Thấp Thấp Thấp Nhanh

7 Honda Đỏ Cao Cao T.Bình Chậm

8 Yamaha Xanh T.Bình Cao Thấp Chậm

9 Yamaha Vàng T.Bình T.Bình Thấp Nhanh

10 Honda Xanh Cao T.Bình Thấp Chậm

11 Honda Đỏ Cao T.Bình Cao Nhanh

12 Yamaha Vàng Thấp T.Bình Thấp Nhanh

13 Honda Xanh Thấp Thấp Thấp Nhanh

14 Honda Xanh T.Bình T.Bình Thấp Nhanh

15 Yamaha Xanh Thấp T.Bình Thấp Chậm

Documents

Lý thuyết tập thô và các khái niệm