Upload
hong-phan
View
311
Download
14
Embed Size (px)
DESCRIPTION
TAP THO VA CAC KHAI NIEM của trường đại học công nghiệp HN
Citation preview
TẬP THÔ VÀ CÁC KHÁI NIỆM
CHƯƠNG 1
Giới thiệu
Lý thuyết tập thô - Rough Set Theory Người đề xuất: Zdzislaw Pawlak
– Vào năm 1980 của thế kỷ 20
Giới thiệu
Ứng dụng: Là một công cụ để phân lớp các bảng dữ
liệu chứa các thông tin mơ hồ, không chắc chắn.
Đóng vai trò quan trọng trong lĩnh vực trí tuệ nhân
tạo và các ngành khoa học liên quan đến nhận thức:
– Lĩnh vực máy học
– Thu nhận tri thức
– Phân tích quyết định, khám phá và phát hiện tri thức từ
các cơ sở dữ liệu, các hệ chuyên gia, các hệ hỗ trợ
quyết định v.v…
Cách tiếp cận
Lý thuyết tập thô dựa trên giả thuyết: để định
nghĩa một tập hợp, chúng ta cần phải có thông
tin về mọi đối tượng trong tập vũ trụ.
Chẳng hạn: nếu các đối tượng là những bệnh
nhân bị một bệnh nhất định thì các triệu chứng
của bệnh tạo thành thông tin về bệnh nhân.
Cách tiếp cận
Tập thô có quan điểm hoàn toàn khác với quan
điểm truyền thống của tập hợp, trong đó mọi tập
hợp đều được định nghĩa duy nhất bởi các phần
tử của nó mà không cần biết bất kỳ thông tin nào
về các phần tử của tập hợp.
Thực tế có thể tồn tại một số đối tượng giống
nhau ở một số thông tin nào đó, và ta nói rằng
chúng có quan hệ bất khả phân biệt với nhau.
Cách tiếp cận
Đây chính là quan hệ mấu chốt và là điểm xuất phát
của lý thuyết tập thô:
Biên giới của tập thô là không rõ ràng, và để xác định
nó ta phải đi tìm xấp xỉ của nó bằng các tập hợp khác
nhằm mục đích xác định một số đối tượng nào đó có
thuộc tập hợp hay không.
Lý thuyết tập thô với cách tiếp cận như vậy đã được
ứng dụng trong rất nhiều lĩnh vực của đời sống xã
hội.
Hệ thông tin
Một tập dữ liệu thể hiện dưới dạng bảng, mỗi dòng
biểu diễn một trường hợp, một sự kiện, một bệnh
nhân hoặc đơn giản là một đối tượng.
Mỗi cột biểu diễn một thuộc tính (một biến, thông
tin, một đặc tính) của mỗi đối tượng; thuộc tính có
thể được cung cấp bởi chuyên gia hoặc người
dùng.
Bảng như vậy được gọi là một hệ thống thông tin.
Hệ thông tin
Về hình thức, mỗi hệ thông tin là một cặp (U, A)
Trong đó:
– U là một tập khác rỗng các đối tượng gọi là tập vũ
trụ
– A là một tập khác rỗng các thuộc tính sao cho
a:UVa với mọi aA.
– Tập Va được gọi là tập giá trị của a.
Hệ thông tin
VD 1.1: Một hệ thống thông tin như sau:– U là tập gồm 7 đối tượng:
x1, …, x7
– Tập thuộc tính A gồm 2 thuộc tính: Age và LEMS (Lower Extremity Motor Score).
Age LEMS
x1 16-30 50
x2 16-30 0
x3 31-45 1-25
x4 31-45 1-25
x5 46-60 26-49
x6 16-30 26-49
x7 46-60 26-49
Hệ thông tin
Cặp đối tượng x3 và x4 cũng
như x5 và x7 có giá trị bằng
nhau tại cả hai thuộc tính.
Các đối tượng này không
phân biệt từng đôi đối với
tập thuộc tính {Age, LEMS}.
Các đối tượng này (có thể)
có quan hệ bất khả phân
biệt
Age LEMS
x1 16-30 50
x2 16-30 0
x3 31-45 1-25
x4 31-45 1-25
x5 46-60 26-49
x6 16-30 26-49
x7 46-60 26-49
Hệ quyết định
Trong nhiều ứng dụng tập vũ trụ được phân chia
thành các tập đối tượng con bởi một tập các thuộc
tính phân biệt được gọi là tập thuộc tính quyết định.
Hệ thông tin trong trường hợp này gọi là hệ quyết
định.
Hệ quyết định dạng: S = (U, A {d}), trong đó D = {d}
với d A là tập thuộc tính quyết định.
Các phần tử của tập A gọi là thuộc tính điều kiện
hoặc đơn giản gọi là các điều kiện.
Hệ quyết định
Bảng bên thể hiện một hệ quyết định, trong đó:
A = {Age, LEMS} tập các thuộc tính điều kiện.
D = {Walk} là tập thuộc tính quyết định (Walk) với 2 giá trị: Yes, No.
Age LEMS Walk
x1 16-30 50 Yes
x2 16-30 0 No
x3 31-45 1-25 No
x4 31-45 1-25 Yes
x5 46-60 26-49 No
x6 16-30 26-49 Yes
x7 46-60 26-49 No
Hệ quyết định
Cặp đối tượng x3 và x4 có giá trị tại thuộc tính quyết định khác nhau.
Cặp đối tượng x5 và x7 có giá trị tại thuộc tính quyết bằng nhau.
Quan hệ bất khả phân biệt?
Age LEMS Walk
x1 16-30 50 Yes
x2 16-30 0 No
x3 31-45 1-25 No
x4 31-45 1-25 Yes
x5 46-60 26-49 No
x6 16-30 26-49 Yes
x7 46-60 26-49 No
Quan hệ bất khả phân biệt
Sự dư thừa thông tin
Quan hệ tương đương-lớp tương đương Thuật toán xác định lớp tương đương.
Sự dư thừa thông tin
Một hệ (bảng) quyết định thể hiện tri thức về các đối
tượng trong thế giới thực.
Tuy nhiên trong nhiều trường hợp bảng này có thể
được tinh giảm do tồn tại ít nhất hai khả năng dư
thừa thông tin sau đây:
– Nhiều đối tượng giống nhau, hay không thể phân biệt
với nhau lại được thể hiện lặp lại nhiều lần.
– Một số thuộc tính có thể là dư thừa, theo nghĩa khi bỏ
đi các thuộc tính này thì thông tin do bảng quyết định
cung cấp mà ta quan tâm sẽ không bị mất mát.
Sự dư thừa thông tin
Ví dụ 1-2: Có thể bỏ đi thuộc tính c mà thông tin về các đối tượng vẫn không đổi, vì nếu một đối tượng với 2 thuộc tính a, b nhận 2 giá trị 0, 1 thì có thể nói ngay rằng giá trị của nó tại thuộc tính c là 1.
STT a b c d
1 0 0 1 0
2 0 1 1 0
3 0 1 1 0
4 0 1 1 0
5 1 0 0 1
6 1 0 0 1
7 1 1 0 1
8 1 1 0 1
9 1 1 0 0
Quan hệ tương đương – Lớp tương đương
Xem xét sự dư thừa thông tin nói trên qua khái niệm quan hệ tương đương.
Một quan hệ hai ngôi R XxX được gọi là quan hệ tương đương khi và chỉ khi:– R là quan hệ phản xạ: xRx, x X.– R là quan hệ đối xứng: xRy yRx, x,y X.– R là quan hệ bắc cầu: xRy và yRz xRz, x,y,z X.
Một quan hệ tương đương R sẽ phân hoạch tập đối tượng thành các lớp tương đương, trong đó lớp tương đương của đối tượng x là tập tất cả các đối tượng có quan hệ R với x.
Quan hệ tương đương – Lớp tương đương
Xét hệ thông tin = (U, A). Mỗi tập thuộc tính B A đều tạo ra tương ứng một quan hệ tương đương IDN:
IDN(B) = {(x, x’) U2 | a B, a(x) = a(x’)}
IDN(B) được gọi là quan hệ B-bất khả phân biệt.
Nếu (x, x’) IDN(B) thì các đối tượng x và x’ là không thể
phân biệt được với nhau qua tập thuộc tính B. Với mọi đối tượng x U, lớp tương đương của x trong quan
hệ IDN(B) được ký hiệu bới [x]B.
Có thể viết IDN(B) thay cho IDN(B).
Quan hệ B-bất khả phân biệt phân hoạch tập đối tượng U thành các lớp tương đương mà ta ký hiệu là U| IDN(B).
Quan hệ tương đương – Lớp tương đương
Ví dụ 1.3: Tập thuộc tính
{a,b,c} phân tập đối tượng
{1,2,…,9} thành tập lớp
tương đương sau:
U | IDN(B) = {{1}, {2,3,4},
{5,6},{7,8,9}}
Đối tượng 2 và 3 thuộc cùng
một lớp tương đương nên
chúng không phân biệt được
với nhau qua tập thuộc tính
{a,b,c}.
STT a b c d
1 0 0 1 0
2 0 1 1 0
3 0 1 1 0
4 0 1 1 0
5 1 0 0 1
6 1 0 0 1
7 1 1 0 1
8 1 1 0 1
9 1 1 0 0
Quan hệ tương đương – Lớp tương đương
Ví dụ 1.4 - Xét tại thuộc tính
{LEMS}, các đối tượng x3,
x4 có cùng giá trị 1-25 nên
thuộc cùng một lớp tương
đương định nghĩa bởi quan
hệ IND({LEMS}), hay chúng
là bất khả phân biệt qua
thuộc tính {LEMS}.
Age LEMS Walk
x1 16-30 50 Yes
x2 16-30 0 No
x3 31-45 1-25 No
x4 31-45 1-25 Yes
x5 46-60 26-49 No
x6 16-30 26-49 Yes
x7 46-60 26-49 No
Quan hệ tương đương – Lớp tương đương
Ba đối tượng x5, x6 và x7
cũng thuộc cùng một lớp
tương đương định nghĩa
bởi quan hệ IND({LEMS})
tương ứng với giá trị thuộc
tính LEMS bằng 26-29.
Age LEMS Walk
x1 16-30 50 Yes
x2 16-30 0 No
x3 31-45 1-25 No
x4 31-45 1-25 Yes
x5 46-60 26-49 No
x6 16-30 26-49 Yes
x7 46-60 26-49 No
Quan hệ tương đương – Lớp tương đương
Quan hệ IDN định ra ba phân
hoạch sau của tập đối
tượng U.
IND({Age}) = {{x1,x2,x6},{x3,x4},
{x5,x7}}
IND({LEMS}) = {{x1},{x2},{x3,x4},
{x5,x6,x7}}
IND({Age,LEMS}) = {{x1},{x2},
{x6},{x3,x4},{x5,x7}}
Age LEMS Walk
x1 16-30 50 Yes
x2 16-30 0 No
x3 31-45 1-25 No
x4 31-45 1-25 Yes
x5 46-60 26-49 No
x6 16-30 26-49 Yes
x7 46-60 26-49 No
Thuật toán xác định lớp tương đương.
Vào:– Tập đối tượng U– Tập thuộc tính B
Ra: Tập các lớp tương đương L
Thuật toán xác định lớp tương đương.
Bước 1: L = Bước 2:
- Nếu U = = thì: Thực hiện bước 5
- Ngược lại thì: Thực hiện bước 3
Bước 3:
- Xét x U1. P = {x};
2. U = U \ {x};
3. For (y U)
Nếu (x và y là bất khả phân biệt quan tập thuộc tính B) thì
P = P {y};
U = U \ {y};
L = L P;
Bước 4: Lặp lại bước 2.
Bước 5: Kết thúc.
Xấp xỉ tập hợp và không gian xấp xỉ.
Lý thuyết tập thô đưa ra một quan điểm mới cho
các tri thức không rõ ràng, tri thức mập mờ.
Theo quan điểm này sự mập mờ được biểu diễn
bởi một vùng biên giới của tập hợp.
Khái niệm tập hợp cũng có thể được định nghĩa
bởi ý nghĩa của các toán tử topology, IN (ở
trong) và close (đóng kín) gọi là xấp xỉ.
Xấp xỉ tập hợp và không gian xấp xỉ.
Cụ thể: Cho một tập đối tượng U và một quan hệ
hai ngôi R U x U. Tập U được gọi là tập vũ trụ
và R được gọi là quan hệ bất khả phân biệt.
Quan hệ R biểu diễn các tri thức còn thiếu về các
phần tử trong tập U.
Giả sử R là một quan hệ tương đương. Khi đó
cặp (U,R) được gọi là không gian xấp xỉ, trong đó
U là một tập vũ trụ và R là một quan hệ tương
đương trên U.
Xấp xỉ tập hợp và không gian xấp xỉ.
Cho X U, mục tiêu của ta là phải xác định tập X thông qua quan hệ R.
Với R(x) ta xác định một lớp tương đương gồm các đối tượng có quan hệ R với x.
Quan hệ bất khả phân biệt R mô tả các tri thức còn thiếu về tập vũ trụ U.
Xấp xỉ tập hợp và không gian xấp xỉ.
Lớp tương đương của quan hệ R, được gọi là
“các hạt” mô tả một phần cơ bản của tri thức mà
ta có thể nhận được thông qua quan hệ R.
Nếu chỉ sử dụng quan hệ bất khả phân biệt R,
nhìn chung, ta không thể đạt được các đối
tượng riêng lẻ trong tập U mà chỉ “các hạt” có
thể truy cập của tri thức được mô tả bởi quan hệ
này.
Xấp xỉ tập hợp và không gian xấp xỉ.
Tập tất cả các đối tượng có thể xác định chính
xác thuộc tập X thông qua quan hệ R được gọi là
R - xấp xỉ dưới và được ký hiệu là R*(X).
R*(X) = {x:R(x)X}.
Tập tất cả các đối tượng chỉ có xác định là có thể
thuộc tập X thông qua quan hệ R được gọi là R –
xấp xỉ trên của tập X, và được ký hiệu là R*(X).
R*(X) = {x:R(x)X ≠ }.
Xấp xỉ tập hợp và không gian xấp xỉ.
Tập tất cả các đối tượng vừa có thể là thuộc tập X
vừa có thể thuộc tập –X xác định thông qua quan hệ
R gọi là vùng biên giới của tập X đối với quan hệ R,
và được ký hiệu là RNR(X).
RNR(X) = R*(X) - R*(X).
Định nghĩa về khái niệm lý thuyết tập thô.
– Một tập X được gọi là “MỊN” đối với quan hệ R nếu và
chỉ nếu biên giới của X là rỗng.
– Một tập X được gọi là “THÔ” đối với quan hệ R nếu và
chỉ nếu biện giới của X là không rỗng.
Xấp xỉ tập hợp và không gian xấp xỉ.
Các định nghĩa về xấp xỉ tập hợp cũng có thể được biểu diễn theo dạng “các hạt” tri thức như sau:
Xấp xỉ dưới của một tập hợp là hợp của tất cả “các hạt” nằm hoàn toàn bên trong tập hợp X;
Xấp xỉ trên của một tập hợp là hợp của tất cả “các hạt” mà giao của nó với tập hợp X là không rỗng;
Biên giới của một tập hợp là sự khác biệt giữa xấp xỉ trên và xấp xỉ dưới của tập hợp.
Xấp xỉ tập hợp và không gian xấp xỉ.
“Các hạt” tri thức Tập các đối tượng U
Xấp xỉ dưới
Xấp xỉ trênTập hợp X
Xấp xỉ tập hợp và không gian xấp xỉ.
Một số tính chất của các xấp xỉ:
R*(X) X R*(X)
R*() = R*() = ;
R*(U) = R*(U) = U;
R*(X Y) = R*(X) R*(Y)
R*(X Y) = R*(X) R*(Y)
R*(X Y) R*(X) R*(Y)
Xấp xỉ tập hợp và không gian xấp xỉ.
Một số tính chất của các xấp xỉ:
R*(X Y) R*(X) R*(Y)
X Y R*(X) R*(Y) và R*(X) R*(Y)
R*(-X) = -R*(X)
R*(-X) = -R*(X)
R* R*(X) = R*R*(X) = R*(X).
R*R*(X) = R*R*(X) = R*(X)
Xấp xỉ tập hợp và không gian xấp xỉ.
Định nghĩa 4 phân lớp của tập thô:
– Một tập X là “thô” xác định bởi quan hệ R nếu và
chỉ nếu R*(X) ≠ và R*(X) ≠ U.
– Một tập X là “bên trong” không thể xác định bởi R
nếu và chỉ nếu R*(X) = và R*(X) ≠ U.
– Một tập X là “bên ngoài” không thể xác định bởi R
nếu và chỉ nếu R*(X) ≠ và R*(X) = U.
– Một tập X là “tổng thể” không thể xác định bởi R
nếu và chỉ nếu R*(X) = và R*(X) = U.
Xấp xỉ tập hợp và không gian xấp xỉ.
Ý nghĩa trực quan của sự phân lớp:
– Một tập X là thô xác định bởi R: nghĩa là đối với R
ta có thể quyết định là một số phần tử của tập U
thuộc vào tập X và một số phần tử của tập U thuộc
vào tập –X.
– Một tập X là “bên trong” không thể xác định bởi R
nghĩa là đối với R ta có thể quyết định một số
phần tử của tập U thuộc vào tập –X, nhưng không
thể quyết định đối với bất kỳ phần tử nào của U là
nó có thuộc vào tập X hay không.
Xấp xỉ tập hợp và không gian xấp xỉ.
Ý nghĩa trực quan của sự phân lớp:
– Một tập X là “bên ngoài” không thể xác định bởi R
nghĩa là đối với R ta có thể quyết định đối với một
số phần tử của tập U thuộc vào tập X, nhưng ta
không thể quyết định đối với bất kỳ phần tử nào
của U là nó có thể thuộc vào tập –X hay không.
– Một tập X là “tổng thể” không thể xác định bởi R
nghĩa là đối với quan hệ R ta không thể quyết định
bất kỳ phần tử nào của U là nó có thuộc vào tập X
hoặc –X hay không.
Xấp xỉ tập hợp và không gian xấp xỉ.
Tập thô X cũng có thể được đặc trưng bởi hệ số:
Hệ số này gọi là độ chính xác của xấp xỉ, với X
khác rỗng.
Rõ ràng 0 ≤ ≤ 1. Nếu = 1 thì X là
“MỊN” đối với R (X là chắc chắn đối với R), mặt
khác, nếu < 1 thì X là “THÔ” đối với R (X
là mập mờ đối với R)
Xấp xỉ tập hợp
Một quan hệ tương đương R cho ta một phân hoạch các đối tượng của tập vũ trụ U.
Các lớp tương đương này có thể được sử dụng để tạo nên các tập con của tập vũ trụ.
Các tập con này thường chứa các đối tượng có cùng giá trị tại tập các thuộc tính quyết định.
Như vậy tập các giá trị tại các thuộc tính quyết định có thể được mô tả một cách rõ rằng thông qua tập các giá trị tại tập các thuộc tính điều kiện.
Xấp xỉ tập hợp
Ví dụ 1.4: Xét hệ quyết định điều tra về vấn đề da cháy nắng
STT Trọng lượng Dùng thuốc Kết quả
1 Nhẹ Có Không cháy nắng
2 Nhẹ Có Không cháy nắng
3 Nặng Không Cháy nắng
4 Trung bình Không Không cháy nắng
Xấp xỉ tập hợp
Ví dụ 1.4:
– Thuộc tính “Kết quả” là thuộc tính quyết định và
hai thuộc tính “Trọng lượng” và “Dùng thuốc” là
các thuộc tính điều kiện.
– Tập thuộc tính điều kiện B = {“Trọng lượng”,
“Dùng thuốc”} phân hoạch tập đối tượng U thành tập các lớp tương đương:
U | INC(B) = {{1,2}, {3}, {4}}
Xấp xỉ tập hợp
Ví dụ 1.4:
– Nhận thấy rằng tất cả các đối tượng thuộc cùng
một lớp tương đương đều có cùng giá trị tại thuộc
tính quyết định. Do đó, ta có thể mô tả thuộc tính
quyết định như sau:
– Kết quả là không cháy nắng nếu và chỉ nếu: Trọng
lượng là nhẹ và có dùng thuốc hoặc Trọng lượng
là trung bình và không dùng thuốc
– Kết quả là cháy nắng nếu và chỉ nếu: Trọng lượng
là nặng và không dùng thuốc
Xấp xỉ tập hợp
Ví dụ 1.4:
– Ta nói rằng khái niệm “cháy nắng” và “không
cháy nắng” trong thuộc tính Kết quả có thể được
định nghĩa rõ ràng thông qua hai thuộc tính Trọng
lượng và Dùng thuốc.
– Tuy vậy không phải lúc nào cũng có thể định
nghĩa một khái niệm rõ ràng như vậy:
Xấp xỉ tập hợp
Xét bảng bên: Giá trị của thuộc tính Walk không thể được định nghĩa rõ ràng qua 2 thuộc tính điều kiện là Age và LEMS:
Age LEMS Walk
x1 16-30 50 Yes
x2 16-30 0 No
x3 31-45 1-25 No
x4 31-45 1-25 Yes
x5 46-60 26-49 No
x6 16-30 26-49 Yes
x7 46-60 26-49 No
Xấp xỉ tập hợp
Hai đối tượng x3 và x4 thuộc cùng một lớp tương
đương tạo bởi hai thuộc tính điều kiện nhưng lại có
giá trị khác nhau tại thuộc tính quyết định Walk, vì
vậy nếu một đối tượng nào đó có (Age, LEMS) = (31-
45, 1-25) thì ta vẫn không thể biết chắc chắn giá trị
của nó tại thuộc tính Walk là “Yes” hay “No”, nói
cách khác ta sẽ không thể có một luật như sau:
“Walk là Yes nếu Age là 31-45 và LEMS là 1-25”.
Và đây chính là nơi mà khái niệm tập thô được sử
dụng.
Xấp xỉ tập hợp
Như vậy trong bảng trên:
– Đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS}
thuộc tập {{16-30,50}, {16-30,26-49}} thì có Walk là Yes.
– Đối tượng nào có giá trị tại tập thuộc tính {Age, LEMS}
thuộc tập {{16-30,0}, {46-60,26-49}} thì có Walk là No.
– Nếu đối tượng nào có giá trị tại tập thuộc tính {Age,
LEMS} thuộc tập {{31-45,1-25}} thì có Walk là Yes hoặc
No, như đã nói ở trên đối tượng này thuộc về biên giới
của 2 hai giá trị Yes và No.
Xấp xỉ tập hợp
Cho hệ thông tin = (U, A), tập thuộc tính B A, tập
đối tượng X U.
Có thể xấp xỉ tập hợp X bằng cách chỉ sử dụng các
thuộc tính trong B từ việc xây dựng các tập hợp B-
xấp xỉ dưới và B-xấp xỉ trên được định nghĩa như
sau:
– B-xấp xỉ dưới của tập X :
– B-xấp xỉ trên của tập X :
Xấp xỉ tập hợp
Tập hợp là các đối tượng trong U mà sử dụng các thuộc tính trong B ta có thể biết chắc chắn rằng chúng là các phần tử của X.
Tập hợp là các đối tượng trong U mà sử dụng các thuộc tính trong B ta có thể nói rằng chúng có thể là các phần tử của X.
Tập hợp BN(X) = \ được gọi là B-biên của tập X và chứa các đối tượng mà sử dụng các thuộc tính của B ta không thể xác định được chúng có thuộc tập X hay không.
Tập hợp U \ được gọi là B-biên ngoài của tập X, gồm những đối tượng mà sử dụng tập thuộc tính B ta biết chắc chắn chúng không thuộc tập X.
Xấp xỉ tập hợp
Một tập hợp X được gọi là “THÔ” nếu vùng biên
của nó là không rỗng, ngược lại ta nói rằng tập
này là “RÕ”.
Lưu ý: Do khái niệm vùng biên của một tập hợp
đối tượng gắn liền với một tập thuộc tính nào đó
nên khái niệm THÔ hay RÕ ở đây cũng gắn liền
với tập thuộc tính đó.
Xấp xỉ tập hợp
Ví dụ 1-5: Xét bảng
Age LEMS Walk
x1 16-30 50 Yes
x2 16-30 0 No
x3 31-45 1-25 No
x4 31-45 1-25 Yes
x5 46-60 26-49 No
x6 16-30 26-49 Yes
x7 46-60 26-49 No
Xấp xỉ tập hợp
Với tập đối tượng X = {x | Walk(x) = Yes} = {x1, x4, x6}
và tập thuộc tính B = {Age, LEMS}. Khi đó ta nhận
được các vùng xấp xỉ sau đây của W thông qua B:
= {x1, x6}, = {x1, x3, x4, x6}
BNB(X) = {x3, x4}, U \ = {x2, x5, x7}
Xấp xỉ tập hợp
Xấp xỉ bảng 1-5
Xấp xỉ tập hợp
Ví dụ 1-6: Xét bảng thuộc tính của xe hơi
Đối tượng Kiểu dáng Số xi lanh Số cửa Nhiên liệu Tải trọng Vận tốc
1 USA 6 2 High Medium Medium
2 USA 6 4 Medium Medium Medium
3 USA 4 2 Medium Medium Medium
4 USA 4 2 Medium Medium Medium
5 USA 4 2 High Medium Medium
6 USA 6 4 High Medium Medium
7 USA 4 2 High Medium Medium
8 USA 4 2 High Light High
9 JAPAN 4 2 Low Light High
10 JAPAN 4 2 Medium Medium High
11 JAPAN 4 2 High Medium High
12 JAPAN 4 2 Low Medium High
13 JAPAN 4 2 Medium Medium High
14 USA 4 2 Medium Medium High
Ví dụ 1-6
Tập vũ trụ U = {1,2,3,4,5,6,7,8,9,10,11,12,13,14}
Chọn tập thuộc tính B = {Số xi lanh, Nhiên liệu, Tải
trọng}
Tập thuộc tính quyết định D = {Vận tốc}. Khi đó tập
thuộc tính quyết định D gồm hai khái niệm là Dmedium
với “Vận tốc=Medium” và DHigh với “Vận tốc = High”.
Dmedium = {1,2,3,4,5,6,7}
DHigh = {8, 9, 10, 11,12,13,14}
Ví dụ 1-6
Các lớp tương đương ứng với quan hệ IND(B) là
E1 = {1,6}
E2= {2}
E3= {3,4,10,13,14}
E4= {5,7,11}
E5= {8}
E6= {9} và
E7= {12}.
Ví dụ 1-6
Xấp xỉ trên và xấp xỉ dưới của DMedium và DHigh là:
B*DMedium = {E1, E2} = {1,6,2}
B*DMedium = {E1, E2, E3, E4} =
{1,6,2,3,4,10,13,14,5,7,11}
B*DHigh = {E5, E6, E7} = {8,9,12}
B*DHigh = {E3, E4, E5, E6, E7} =
{3,4,10,13,14,5,7,11,8,9,12}
Thuật toán xác định xấp xỉ dưới
Vào :
Tập các đối tượng X
Tập các thuộc tính B Ra :
Tập các đối tượng B*X
Thuật toán xác định xấp xỉ dưới
Vào :
Tập các đối tượng X
Tập các thuộc tính B Ra :
Tập các đối tượng B*X
Thuật toán xác định xấp xỉ dướiB1: Khởi tạo B*X = .∅
Xác định tập các phân hoạch P của tập vũ trụ U tạo bởi B.
U1 = U
B2:
Nếu U1≠ Thì: Thực hiện bước 3.∅
Ngược lại: Thực hiện bước 5
B3: Xét x U∈ 1
Tìm phân hoạch Pi P sao cho: x P∈ ∈ i .
Nếu Pi X Thì :⊆ B*X = B*X ∪ Pi
U1 = U1 \ Pi .
B4: Lặp lại bước 2.
B5: Kết thúc
Thuật toán xác định xấp xỉ trên
Vào :
Tập các đối tượng X
Tập các thuộc tính B Ra :
Tập các đối tượng B*X
Thuật toán xác định xấp xỉ dưới
Vào :
Tập các đối tượng X
Tập các thuộc tính B Ra :
Tập các đối tượng B*X
Thuật toán xác định xấp xỉ trênB1: Khởi tạo B*X = .∅
Xác định tập các phân hoạch P của tập vũ trụ U tạo bởi B.
X1 = X
B2:
Nếu X1≠ Thì: Thực hiện bước 3.∅
Ngược lại: Thực hiện bước 5
B3: Xét x X∈ 1
Tìm phân hoạch Pi P sao cho: x P∈ ∈ i .
B*X = B*X ∪ Pi
Với mọi p ∈ Pi ∩ X1.
X1 = X1 \ {p}
B4: Lặp lại bước 2.
B5: Kết thúc
Bài tập
Ví dụ 1-6: Xét bảng thuộc tính của xe máy
– X là tập các xe máy có mức tiêu thụ chậm
– Y là tập các xe máy có mức tiêu thụ nhanh
– Tập thuộc tính B={Thương hiệu, Nhiên liệu, Giá tiền}
Yêu cầu:
– Tìm tập xấp xỉ trên và xấp xỉ dưới của X, Y đối với tập thuộc tính B
– Cài đặt các thuật toán tìm xấp trên và xấp xỉ dưới
Xe máy Thương hiệu Mầu sơn Vận tốc Nhiên liệu Giá tiền Tiêu thụ
1 Honda Xanh Cao T.Bình Cao Nhanh
2 Yamaha Xanh Cao Cao T.Bình Chậm
3 Yamaha Đỏ T.Bình Cao Cao Nhanh
4 Yamaha Vàng Cao Cao Cao Nhanh
5 Honda Vàng T.Bình Thấp T.Bình Nhanh
6 Honda Vàng Thấp Thấp Thấp Nhanh
7 Honda Đỏ Cao Cao T.Bình Chậm
8 Yamaha Xanh T.Bình Cao Thấp Chậm
9 Yamaha Vàng T.Bình T.Bình Thấp Nhanh
10 Honda Xanh Cao T.Bình Thấp Chậm
11 Honda Đỏ Cao T.Bình Cao Nhanh
12 Yamaha Vàng Thấp T.Bình Thấp Nhanh
13 Honda Xanh Thấp Thấp Thấp Nhanh
14 Honda Xanh T.Bình T.Bình Thấp Nhanh
15 Yamaha Xanh Thấp T.Bình Thấp Chậm