7
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011 VCCA-2011 Phương pháp phân cụm mờ trừ loại hai khoảng Approach to Interval Type-2 Fuzzy Subtractive Clustering Ngô Thành Long, Phạm Huy Bình Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự e-Mail: [email protected], [email protected] Tóm tắt Bài báo giới thiệu một cách tiếp cận mới về thuật toán phân cụm trừ (SC) với tham số mờ m có ý nghĩa trong điều khiển kết quả phân cụm. Để quản lí sự không chắc chắn của tham số m, chúng tôi mở rộng thuật toán SC thành thành thuật toán phân cụm trừ loại hai khoảng (IT2-SC) bằng cách sử dụng 2 tham số mờ 1 m 2 m để tạo ra miền không chắc chắn (FOU) của m. Các thử nghiệm được thực hiện thông qua phân đoạn ảnh với các thống kê cho sự phụ thuộc rất lớn vào tham số mờ của SC và thuật toán phân cụm trừ loại hai khoảng đưa ra là ổn định và chính xác. Abstract: The article introduces a new approach to subtractive clustering algorithm (SC) with the fuzzifer parameter m which controls the clustering results in SC. And to manage the uncertainty of the parameter m, we have expanded the SC algorithm to interval type-2 fuzzy subtractive clustering algorithms (IT2-SC) using two fuzzifiers parameters 1 m and 2 m which creates a footprint of uncertainty (FOU) for the fuzzifier. The experiments are done based on image segmentation with the statistics show that the depends greatly on the parameter m of SC and stability and accuracy of our IT2-SC Từ khóa Phân cụm trừ, phân cụm trừ loại hai khoảng, tập mờ loại hai, phân cụm mờ. Chữ viết tắt FCM Fuzzy C-means SC Subtractive Clustering IT2-SC Interval type-2 Subtractive Clustering FOU Footprint of uncertainty UMF Upper bounds of membership function LMF Lower bounds of membership function 1. Giới thiệu Phân cụm là một kỹ thuật phổ biến trong nhiều lĩnh vực như khai phá dữ liệu, nhận dạng mẫu, xử lý ảnh… Phân cụm dữ liệu là quá trình phân chia tập dữ liệu vào các cụm để các đối tượng trong một cụm độ tương đồng lớn nhất. Các thuật toán phân cụm cũng rất đa dạng như k-means [25], c-means mờ [24], giải thuật phân cụm mountain [19,20,21,22],. Hơn nữa, trong phần lớn dữ liệu thực tồn tại nhiều tính không chắc chắn (uncertainty) và tính gần đúng (vaguenesses) mà các tập mờ loại một không thể mô tả chính xác được khi hàm thuộc của chúng là rõ. Do vậy tập mờ loại hai là sự mở rộng của tập mờ loại một, có ưu điểm là khử tính không chắc chắn (uncertainty) tốt. Tập mờ loại hai đã được nghiên cứu áp dụng vào nhiều bài toán khác nhau [6,7,8,9,10,11,12], trong đó có bài toán phân cụm dữ liệu. Nhiều thuật toán phân cụm mờ loại hai, loại hai khoảng đã được giới thiệu như thuật toán C-mean loại hai khoảng[13,14,16,17,18], PCM loại hai [15]. Thuật toán phân cụm trừ được Chiu đưa ra năm 1994 [1,2]. Thuật toán phân cụm trừ được xây dựng trên cơ sở thuật toán phân cụm Mountain với việc đưa ra hàm tính mật độ để tính toán khả năng trở thành tâm cụm cho từng mẫu dữ liệu dựa vào vị trí của mẫu dữ liệu này với tất cả các mẫu còn lạị. Giải thuật này chỉ xem xét đến từng mẫu dữ liệu mà không cần xét đến các thành phần của mẫu điều này làm cho giải thuật trở nên đơn giản hơn nhiều so với giải thuật Mountain và tốc độ tính toán được cải thiện đáng kể . Đến năm 2005, Kim và một số người khác đã cải tiến thuật toán phân cụm trừ bằng cách đưa hàm Kernel vào tính toán hàm mật độ[5] và đến năm 2008 JunYing Chen, Zheng Qin and Ji Jia đã đưa ra giải thuật phân cụm trừ trung bình trọng số[4]. Trong thuật toán phân cụm trừ ngoài sự không chắc chắn có thể xuất hiện ở dữ liệu làm ảnh hưởng đến kết quả phân cụm thì việc phải thiết lập các tham số ngay từ đầu cho thuật toán cũng có những ảnh hưởng rất lớn tới kết quả phân cụm [22, 23]. Vì vậy trong nghiên cứu này, chúng tôi đưa ra một hướng mở rộng giải thuật phân cụm trừ bằng cách đưa vào tham số mờ m trong hàm tính toán mật độ cho các điểm dữ liệu. Tham số mờ m có thể làm thay đổi kết quả của hàm tính mật độ qua đó điều khiển khả năng trở thành tâm cụm của từng mẫu dữ liệu nên nó có ảnh hưởng rất lớn tới kết quả phân cụm và qua tham số mờ m ta có thể làm giảm sự phụ thuộc của việc khởi tạo giá trị cho các tham số của thuật toán tới kết quả phân cụm. Khi đó với việc điều chỉnh tham số m ta vẫn có thể thu được các kết quả phân cụm tốt mà không cần quan tâm tới việc phải thiết lập các giá trị khởi tạo cho các tham số của thuật toán. LucVì vậy để quản lí sự không chắc chắn của tham số m chúng tôi mở rộng thuật toán phân cụm trừ thành loại hai khoảng với việc sử dụng hai tham số mờ m 1 m 2 để tạo ra vùng FOU của tham số mờ m. Sau đó để quan sát sự hiệu quả của thuật toán phân cụm trừ loại hai khoảng, 768

Phương pháp phân cụm mờ trừ loại hai khoảng

  • Upload
    pvdai

  • View
    425

  • Download
    0

Embed Size (px)

DESCRIPTION

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011Phương pháp phân cụm mờ trừ loại hai khoảng Approach to Interval Type-2 Fuzzy Subtractive ClusteringNgô Thành Long, Phạm Huy Bình Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự e-Mail: [email protected], [email protected] Tóm tắtBài báo giới thiệu một cách tiếp cận mới về thuật toán phân cụm trừ (SC) với tham số mờ m có ý nghĩa trong điều khiển kết quả phân cụm. Để quản lí sự không chắc chắn của tham số m, chúng tôi mở rộng

Citation preview

Page 1: Phương pháp phân cụm mờ trừ loại hai khoảng

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Phương pháp phân cụm mờ trừ loại hai khoảng

Approach to Interval Type-2 Fuzzy Subtractive Clustering

Ngô Thành Long, Phạm Huy Bình

Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự

e-Mail: [email protected], [email protected]

Tóm tắt Bài báo giới thiệu một cách tiếp cận mới về thuật toán

phân cụm trừ (SC) với tham số mờ m có ý nghĩa trong

điều khiển kết quả phân cụm. Để quản lí sự không

chắc chắn của tham số m, chúng tôi mở rộng thuật

toán SC thành thành thuật toán phân cụm trừ loại hai

khoảng (IT2-SC) bằng cách sử dụng 2 tham số mờ

1m và 2m để tạo ra miền không chắc chắn (FOU)

của m. Các thử nghiệm được thực hiện thông qua

phân đoạn ảnh với các thống kê cho sự phụ thuộc rất

lớn vào tham số mờ của SC và thuật toán phân cụm

trừ loại hai khoảng đưa ra là ổn định và chính xác.

Abstract: The article introduces a new approach to subtractive

clustering algorithm (SC) with the fuzzifer parameter

m which controls the clustering results in SC. And to

manage the uncertainty of the parameter m, we have

expanded the SC algorithm to interval type-2 fuzzy

subtractive clustering algorithms (IT2-SC) using two

fuzzifiers parameters 1m and 2m which creates a

footprint of uncertainty (FOU) for the fuzzifier. The

experiments are done based on image segmentation

with the statistics show that the depends greatly on the

parameter m of SC and stability and accuracy of our

IT2-SC

Từ khóa Phân cụm trừ, phân cụm trừ loại hai khoảng, tập mờ

loại hai, phân cụm mờ.

Chữ viết tắt FCM Fuzzy C-means

SC Subtractive Clustering

IT2-SC Interval type-2 Subtractive Clustering

FOU Footprint of uncertainty

UMF Upper bounds of membership function

LMF Lower bounds of membership function

1. Giới thiệu Phân cụm là một kỹ thuật phổ biến trong nhiều lĩnh

vực như khai phá dữ liệu, nhận dạng mẫu, xử lý

ảnh… Phân cụm dữ liệu là quá trình phân chia tập dữ

liệu vào các cụm để các đối tượng trong một cụm có

độ tương đồng lớn nhất. Các thuật toán phân cụm

cũng rất đa dạng như k-means [25], c-means mờ [24],

giải thuật phân cụm mountain [19,20,21,22],. Hơn

nữa, trong phần lớn dữ liệu thực tồn tại nhiều tính

không chắc chắn (uncertainty) và tính gần đúng

(vaguenesses) mà các tập mờ loại một không thể mô

tả chính xác được khi hàm thuộc của chúng là rõ. Do

vậy tập mờ loại hai là sự mở rộng của tập mờ loại

một, có ưu điểm là khử tính không chắc chắn

(uncertainty) tốt. Tập mờ loại hai đã được nghiên cứu

và áp dụng vào nhiều bài toán khác nhau

[6,7,8,9,10,11,12], trong đó có bài toán phân cụm dữ

liệu. Nhiều thuật toán phân cụm mờ loại hai, loại hai

khoảng đã được giới thiệu như thuật toán C-mean loại

hai khoảng[13,14,16,17,18], PCM loại hai [15].

Thuật toán phân cụm trừ được Chiu đưa ra năm 1994

[1,2]. Thuật toán phân cụm trừ được xây dựng trên cơ

sở thuật toán phân cụm Mountain với việc đưa ra hàm

tính mật độ để tính toán khả năng trở thành tâm cụm

cho từng mẫu dữ liệu dựa vào vị trí của mẫu dữ liệu

này với tất cả các mẫu còn lạị. Giải thuật này chỉ xem

xét đến từng mẫu dữ liệu mà không cần xét đến các

thành phần của mẫu điều này làm cho giải thuật trở

nên đơn giản hơn nhiều so với giải thuật Mountain và

tốc độ tính toán được cải thiện đáng kể . Đến năm

2005, Kim và một số người khác đã cải tiến thuật toán

phân cụm trừ bằng cách đưa hàm Kernel vào tính toán

hàm mật độ[5] và đến năm 2008 JunYing Chen,

Zheng Qin and Ji Jia đã đưa ra giải thuật phân cụm trừ

trung bình trọng số[4].

Trong thuật toán phân cụm trừ ngoài sự không chắc

chắn có thể xuất hiện ở dữ liệu làm ảnh hưởng đến kết

quả phân cụm thì việc phải thiết lập các tham số ngay

từ đầu cho thuật toán cũng có những ảnh hưởng rất

lớn tới kết quả phân cụm [22, 23]. Vì vậy trong

nghiên cứu này, chúng tôi đưa ra một hướng mở rộng

giải thuật phân cụm trừ bằng cách đưa vào tham số

mờ m trong hàm tính toán mật độ cho các điểm dữ

liệu. Tham số mờ m có thể làm thay đổi kết quả của

hàm tính mật độ qua đó điều khiển khả năng trở thành

tâm cụm của từng mẫu dữ liệu nên nó có ảnh hưởng

rất lớn tới kết quả phân cụm và qua tham số mờ m ta

có thể làm giảm sự phụ thuộc của việc khởi tạo giá trị

cho các tham số của thuật toán tới kết quả phân cụm.

Khi đó với việc điều chỉnh tham số m ta vẫn có thể

thu được các kết quả phân cụm tốt mà không cần quan

tâm tới việc phải thiết lập các giá trị khởi tạo cho các

tham số của thuật toán. LucVì vậy để quản lí sự

không chắc chắn của tham số m chúng tôi mở rộng

thuật toán phân cụm trừ thành loại hai khoảng với

việc sử dụng hai tham số mờ m1 và m2 để tạo ra vùng

FOU của tham số mờ m. Sau đó để quan sát sự hiệu

quả của thuật toán phân cụm trừ loại hai khoảng,

768

Page 2: Phương pháp phân cụm mờ trừ loại hai khoảng

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

chúng tôi sử dụng giải thuật phân cụm FCM để so

sánh nó với giải thuật phân cụm trừ trước đó.

Phần tiếp theo của bài báo được tổ chức như sau:

Phần 2 định nghĩa tập mờ loại hai khoảng, trình bày

thuật toán phân cụm trừ và thuật toán FCM. Phần 3

trình bày mở rộng thuật toán phân cụm trừ với tham

số mờ m và xây dựng thuật toán phân cụm trừ loại hai

khoảng với hai tham số mờ m1 và m2. Phần 4 đưa ra

một vài kết quả thực nghiệm phân đoạn ảnh để thấy

sự hiệu quả của thuật toán phân cụm trừ loại hai

khoảng so với thuật toán phân cụm trừ. Cuối cùng,

phần 5 đưa ra một số kết luận.

2. Một số vấn đề cơ sở. 2.1. Tập mờ loại 2

Tập mờ loại hai xác định trên tập X là A và độ thuộc

của x X trong A là ( , )A

x um , u Jx [0,1] là tập

mờ loại I trong khoảng [0,1]. Các thành phần thuộc

miền xác định của ( , )A

x u được gọi là độ thuộc sơ

cấp của x trong A và độ thuộc của độ thuộc sơ cấp

trong ( , )A

x u gọi là độ thuộc thứ cấp của x trong

A .

Định nghĩa 1: Một tập mờ loại hai, ký hiệu là A ,

được đặc trưng bởi hàm thuộc (MF) loại hai ( , )A

x um ,

trong đó x X và [0,1]xu J , … hay

, , , , 0,1xAA x u x u x X u Jm (1)

hoặc

, / , , 0,1

x X x

xA

u J

A x u x u Jm (2)

trong đó: 0 ( , ) 1A

x um .

Với mỗi giá trị của x, tại x = x’, mặt phẳng 2D mà có

hai trục là u và ( ', )A

x u được gọi là nhát cắt đứng

(vertical slice) của ( , )A

x u . Một hàm thuộc thứ cấp

(secondary membership function) là một nhát cắt

đứng của ( , )A

x u . Đó chính là ( , )A

x u tại x = x’,

hay ( ', )A

x x um với x X và u [0,1]xJ .

'( ', ) ( ') ( ) /

x

xA A

u J

x x u x f u um m (3)

' [0,1]xJ , trong đó '0 ( ) 1xf u là hàm thứ cấp.

Theo quan điểm của tập mờ nhúng, thì tập mờ loại II

được hiểu là liên hợp của tập mờ nhúng loại II của nó,

và ta có:

1

nj

e

j

A A (4)

trong đó 1

N

i

i

n M và j

eA là tập nhúng loại II của A

j

eA , , 1,2,...,i

j j

i x iu f u i N (5)

với , 1,...,j

i ik iu u k M .

Gọi A, B là các tập mờ loại hai với các hàm độ thuộc

thứ cấp tương ứng là fx(u) và gx(u), khi đó kết quả các

phép toán giao và hợp được tính theo các công thức

sau :

w / wx xBA B Au v

x x x f u g um m m (6)

w / wx xBA B Au v

x x x f u g um m m (7)

/ 1xA Au

x x f u um m (8)

trong đó , là phép toán t-cornorm và t-norm.

Tập mờ loại II được gọi là tập mờ loại hai khoảng nếu

hàm thuộc thứ cấp của nó fx’(u) =1 với u Jx nghĩa

là tập mờ loại hai khoảng được định nghĩa như sau :

Định nghĩa 2: Tập mờ loại hai khoảng A được mô tả

bởi hàm thuộc loại hai khoảng , 1A

x um , với

, [0,1]xx X u J . Đó là:

{(( , ), ( , )) | , [0,1], ( , ) 1}xA AA x u x u x X u J x um m (9)

Sự không chắc chắn trong hàm thuộc sơ cấp của tập

mờ loại hai A , kí hiệu FOU, là hợp của tất cả các

hàm thuộc chính nghĩa là ( ) x

x X

FOU A J , biên

trên và biên dưới của hàm thuộc chính (UMF/LMF),

kí hiệu là ( )A

xm và ( )A

xm , của A là hai hàm thuộc

loại một và là các biên của vùng FOU.

2.2 Giải thuật phân cụm trừ.

Giải thuật phân cụm trừ (subtractive clustering) xác

định các tâm cụm dựa trên mật độ các điểm lân cận.

Xét một tập hợp dữ liệu gồm n điểm:

1 2 n, ,...,X x x x

Hàm tính mật độ cho một điểm dữ liệu là: 2

2

4

1

i j

a

x xnr

i

j

P e (10)

Trong đó:

Pi : Mật độ các điểm bao quanh điểm dữ liệu thứ i.

ra : là một hằng số dương hay còn gọi là bán kính

cụm.

. : khoảng cách Euclid giữa điểm dữ liệu thứ i với

các điểm bao quanh

Khi mật độ của tất cả các điểm dữ liệu đã được tính,

lựa chọn điểm có mật độ lớn nhất làm tâm cụm thứ

nhất. Gọi *

1x là vị trí tâm cụm đầu tiên, có mật độ là

*

1P thì *

11

axn

ii

P m P .

Tính lại mật độ cho các điểm dữ liệu theo công thức: 2

*12

4

*

1 ; 1,...,i

b

x xr

i iP P P e i n (11)

Và br thường được chọn là 1.5b ar r và tiếp tục chọn

điểm có mật độ lớn nhất làm tâm cụm thứ 2.

Trong trường hợp tổng quát khi đã có k tâm cụm thì

mật độ của các điểm dữ liệu còn lại được tính theo

công thức:

769

Page 3: Phương pháp phân cụm mờ trừ loại hai khoảng

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

2*

2

4

* ; 1,...,i k

b

x xr

i i kP P P e i n (12)

Sử dụng 2 điểm cận với cận dưới ef* rPe và cận trên

ef* rPe , với Pref

là mật độ của tâm cụm thứ k, trong

đó e và e lần lượt được gọi là hằng số chấp nhận và

hằng số từ chối, thường được chọn lần lượt là 0.5 và

0.15. Một tâm cụm mới được chọn nếu điểm đó có

mật độ lớn hơn cận trên. Nếu điểm có mật độ lớn nhất

nhỏ hơn cận dưới thì thuật toán dừng.

Nếu điểm có mật độ lớn nhất nằm giữa hai cận thì

khoảng cách giữa điểm đó với các tâm cụm đã được

xác định trước đó sẽ quyết định xem điểm đó có trở

thành tâm cụm mới hay không.

Các bước thực hiện thuật toán phân cụm trừ như sau:

Bước 1: Khởi tạo ar , h với b

a

r

rh , e và e .

Bước 2: Tính mật độ cho các điểm dữ liệu theo công

thức (10). Chọn điểm có mật độ lớn nhất làm tâm cụm

đầu tiên: *

1axn

k ii

P m P với 1k và *

kP là mật độ của

tâm cụm thứ nhất .

Bước 3: Tính toán lại mật độ cho các điểm dữ liệu

còn lại theo công thức (12).

Bước 4: Gọi x* là điểm có mật độ lớn nhất là P

*.

Nếu * efrP Pe : *x là một tâm cụm mới và tiếp tục

bước 3.

Ngược lại nếu * efrP Pe : chuyển sang bước 5

Ngược lại:

1. dmin: khoảng cách nhỏ nhất giữa *x và các

tâm cụm trước đó.

2. Nếu *

min

ef1

r

a

d P

r P:

*x là một tâm cụm

mới và tiếp tục bước 3.

3. Ngược lại:

Thiết lập *( ) 0P x .

Chọn x* có mật độ P

* lớn nhất và tiếp tục bước 4.

Bước 5: Đưa ra các cụm kết quả.

Khi đó bậc hay độ thuộc của một điểm đối với một

tâm cụm được xác định theo công thức: 2

2

4i k

a

x xr

ik e

(13)

2.3. Thuật toán phân cụm C-mean mờ (FCM).

Thuật toán FCM phân hoạch một tập n vectơ đối

tượng dữ liệu 1 2, ,..., d

nX x x x R thành c nhóm

mờ dựa trên tính toán tối thiểu hóa hàm mục tiêu để

đo chất lượng của phân hoạch và tìm trọng tâm cụm

trong mỗi nhóm, sao cho chi phí hàm đo độ phi tương

tự là nhỏ nhất. Hàm mục tiêu được định nghĩa như

sau:

2

1 1

( , ) ( ) , 1n c

m

m ik ik

k i

J U v u d m (14)

Trong đó :

1 2, ,..., d

nX x x x R là nửa dưới vector mẫu dữ

liệu tập con thực d chiều trong không gian vector dR .

1,m là trọng số mũ hay còn gọi là tham số

mờ. d

iv R là trọng tâm của cụm thứ i

1/ 2

2

1

( ) ( )d

ik k i k i kj ij

j

d d x v x v x v là

khoảng cách theo thước đo Euclide giữa mẫu dữ liệu

kx với trọng tâm cụm thứ i ,iv

0,1iku là bậc hay độ thuộc của dữ liễu mẫu kx

với cụm thứ i

1,..., dxc

ji cV v v v R là ma trận biểu diễn các

giá trị tâm của cụm. Với hàm thuộc chính được tính

theo công thức: 1

2

1

,

1

mcj i

i j

k j k

x vu

x v (15)

Trong đó:

1

1

0 1, 1 ,1

0 , 1

1, 1

ik

n

ik

k

c

ik

i

u i c k n

u n i c

u k n

Và véc tơ tâm cụm được tính theo công thức:

1

1

( )

,1

( )

nm

ik kk

i nm

ikk

u x

v i c

u

(16)

Các bước thực hiện thuật toán phân cụm FCM như

sau:

Bước 1. Khởi tạo:

Nhập tham số c (1<c<n), m(1<m<+∞), e

Khởi tạo ma trận (0), , 0d c

ijV v V R j

Bước 2. Tính ma trận phân hoạch U và cập nhật lại

trọng tâm cụm V:

j=j+1

Tính ma trận phân hoạch mờ j

U theo công thức (15)

Cập nhật các trọng tâm cụm ( ) ( ) ( ) ( )

1 2, ,...,j j j j

cV v v v

theo công thức (16).

Bước 3: Kiểm tra điều kiện dừng. Nếu ( ) ( 1)j jV V e chuyển sang bước 4, ngược lại

quay lại bước 2.

Bước 4. Đưa ra các cụm kết quả.

770

Page 4: Phương pháp phân cụm mờ trừ loại hai khoảng

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

3. Thuật toán phân cụm trừ loại hai

khoảng. 3.1. Thuật toán phân cụm trừ mở rộng.

Trong thuật toán phân cụm trừ có 4 tham số ta phải

thiết lập: e , e , ra và h (hay rb). Các tham số này ảnh

hưởng rất lớn đến kết quả phân cụm của thuật toán và

gây nên sự không chắc chắn cho thuật toán. Nếu chọn

e , e lớn sẽ làm giảm số cụm ngược lại nếu chọn e ,

e giá trị nhỏ quá sẽ làm tăng số lượng cụm. Tương

tư, việc lựa chọn ra và h (hay rb) cũng ảnh hưởng tới

số lượng cụm được tạo ra nhiều hoặc ít. Như vậy,

chúng ta không thể biết các tham số tốt nhất một tập

dữ liệu thậm chí việc tìm kiếm theo một tham số cho

thuật toán để đưa ra kết quả phân cụm tốt nhất cũng là

khó khăn. Sự ảnh hưởng của bốn tham số này tới kết

quả phân cụm đã được Demirli miêu tả khá chi tiết

trong các bài báo của mình [22, 23].

Ở hình 1 cho thấy kết quả phân cụm khi áp dụng giải

thuật phân cụm trừ để phân cụm cho 100 mẫu dữ liệu

được tạo thành qua việc mô hình hóa hàm không

tuyến tính sin( )x

yx

với [-10;10]x .

H. 1 Kết quả phân cụm dữ liệu của SC theo Chiu[1, 2]

Theo Chiu [1, 2], ta lựa chọn các tham số lần lượt là

0.5e , 0.15e , a 0.25r và 1.5h thì sẽ cho

kết quả phân cụm tốt nhất.

Còn ở hình 2 là các đô thị mô tả sự phục thuộc của SC

vào các tham số ar và h . Trong đó hình 2.a biểu thị

sự phụ thuộc kết quả phân cụm của thuật toán SC vào

tham số ar khi các tham số còn lại lần lượt được chọn

là 0.5e , 0.15e và 1.5h và hình 2.b biểu thị

sự phụ thuộc kết quả phân cụm của thuật toán SC vào

tham số h khi các tham số còn lại lần lượt được chọn

là 0.5e , 0.15e và a 0.25r (Trong các hình

này, trục tung biểu thị số cụm và trục hoành biểu thị

tham số ar (tham số h )).

Thuật toán phân cụm trừ ước lượng đánh giá khả năng

một mẫu dữ liệu có thể trở thành tâm của một cụm dữ

liệu hay không qua hàm tính mật độ (khả năng) các

mẫu dữ liệu bao quanh của mẫu đó mà thực chất là

dựa vào khoảng cách giữa mẫu đó với các mẫu còn

lại. Nếu một mẫu dữ liệu có rất nhiều mẫu khác bao

quanh trong một phạm vi nhất định (trong khoảng bán

kính cụm r) thì khả năng nó trở thành tâm cụm là rất

lớn. Và việc xác định độ thuộc của một mẫu vào một

cụm nào đó được dựa vào hàm thuộc Gaussian (13).

Vì vậy, ta xem xét tới một tham số mờ có vai trò điều

khiển quá trình phân chia thành các cụm dữ liệu thông

qua việc đưa tham số m vào hàm tính mật độ cho các

mẫu dữ liệu như sau: 2

12

4

1

mj i

a

x xnr

i

j

P e (17)

Nếu *

kx là vị trí tâm cụm thứ k, có mật độ là *

kP thì

mật độ cho các mẫu dữ liệu còn lại được tính theo

công thức: 2

12

4

* ; 1,...,m

i k

b

x xr

i i kP P P e i n (18)

Khi đó việc lựa chọn giá trị của tham số m sẽ ảnh

hưởng rất lớn tới kết quả phân chia thành các cụm dữ

liệu. Như bảng 1 miêu tả ảnh hưởng của tham số mờ

m tới kết quả phân cụm. Nếu m càng lớn thì số lượng

cụm tạo thành càng nhiều và ngược lại.

Qua điều chỉnh tham số mờ m ta cũng dễ dàng thu

được kết quả phân cụm tốt mà không phụ thuộc nhiều

vào việc điều chỉnh thiết lập các tham số ban đầu cho

thuật toán phân cụm trừ. Hình 3a minh họa số tâm

cụm tạo hình thành từ việc lựa chọn các tham số ban

đầu là 0.5e , 0.15e , a 0.25r và 1.5h (theo

Chiu [1, 2]) được đánh giá là tốt nhất. Hình 3b minh

họa số tâm cụm được tạo thành theo thuật toán SC mở

rộng với các tham số 0.5e , 0.15e , a 0.4r ,

1.35h và 2.47m . Ta thấy rằng kết quả phân

cụm từ hình 3b cũng tiến đến khá gần với kết quả

phân cụm của Chiu [1, 2] ở hình 3a.

H. 2 Sự phụ thuộc của SC vào các tham số ar và h

H. 3 Sự phụ thuộc của SC vào tham số m

Như vậy với việc điều chỉnh tham số m thì cũng có

thể thu được kết quả phân cụm là tương đối tốt mà

không phụ thuộc vào việc lựa chọn bốn tham số ban

đầu.

771

Page 5: Phương pháp phân cụm mờ trừ loại hai khoảng

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Bảng 1. Thống kê kết quả phân cụm của SC phụ thuộc vào

tham số m.

3.2. Thuật toán phân cụm trừ mờ loại hai khoảng.

Khi đưa tham số m vào thuật toán SC thì bậc hay độ

thuộc của một mẫu dữ liệu đối với một tâm cụm được

xác định theo công thức:

2

12

4mi k

a

x xr

ik e

(19)

Trong đó kx là tâm cụm thứ k.

Theo công thức (19), ta thấy giá trị độ thuộc của điểm

thứ i vào tâm cụm thứ k phụ thuộc vào vị trí của tâm

cụm thứ k và tham số m. Mặt khác vị trí của tâm cụm

thứ k cũng phụ thuộc vào tham số m. Như vậy tham

số m là yếu tố không chắc chắn nhất của thuật toán.

Để mô tả và quản lý sự không chắc chắn của tham số

mờ m, chúng tôi đã mở rộng tập mẫu thành tập mờ loại

hai khoảng bằng cách sử dụng 2 tham số mờ m1 và m2

để tạo ra miền không chắc chắn (FOU) của tham số mờ

m. Khi đó, độ thuộc của một tâm cụm được xác định

như sau:

2

112

2

122

4

4

mi k

a

mi k

a

x xr

ik

x xr

ik

e

e

m

m

(20)

Thuật toán phân cụm mờ trừ loại hai khoảng được thể

hiện chi tiết như hình 4. Việc sử dụng các tham số mờ

dẫn đến các hàm tính toán mật độ cho từng điểm dữ

liệu là:

2

1j 12

2

1j 22

4

1

4

1

mi

a

mi

a

x xnr

i

j

x xnr

i

j

P e

P e

(21)

Như vậy nếu xác định các tâm cụm theo các công

thức (21) ta sẽ có tâm cực đại Rv và tâm cực tiểu Lv .

Do vậy để giải mờ cho tâm cụm, ta sẽ tính ngay khả

năng trở thành tâm cụm cho mỗi mẫu dữ liệu theo

công thức tính trung bình trọng số sau:

1 2

1 2

* *i ii

P m P mP

m m (22)

Và khi đã xác định được tâm cụm thứ k thì việc tính

toán lại mật độ cho các điểm còn lại theo công thức

sau:

2

112

2

122

4

*

1

4

*

1

1 2

1 2

* *

mj i

b

mj i

b

x xnr

sub

i k

j

x xnr

sub

i k

j

sub subsub i i

i

sub

i i i

P P e

P P e

P m P mP

m m

P P P

(23)

H. 4 Sơ đồ thuật toán phân cụm trừ loại 2 khoảng.

Khi đó thuật toán phân cụm trừ mờ loại hai khoảng có

các bước thực hiện như thuật toán phân cụm trừ với

các công thức tính toán mật độ theo (21), (22) và (23).

4. Kết quả thử nghiệm. Trong phần này, chúng tôi so sánh các kết quả giữa

giải thuật phân cụm trừ và giải thuật phân cụm trừ mờ

loại hai khoảng và đưa ra qua các thử nghiệm về phân

đoạn ảnh. Ở đây phân đoạn ảnh nhiều mức là sự kết

hợp giữa giải thuật phân cụm FCM với các giải thuật

phân cụm trừ này. Trong đó, sử dụng kết quả của các

giải thuật phân cụm trừ để khởi tạo các tâm cụm ban

đầu cho thuật toán FCM, sau đó qua FCM đưa ra kết

quả phân đoạn ảnh và số bước lặp mà FCM phải thực

hiện. Cuối cùng chúng tôi so sánh hiệu quả của các

giải thuật phân cụm trừ này qua kết quả phân đoạn

ảnh và số bước lặp mà FCM phải thực hiện. Các bước

tiến hành như sau:

Bước 1: Dùng thuật toán phân cụm trừ (theo mục 2.2)

hoặc thuật toán phân cụm trừ loại 2 khoảng (theo mục

3.2) để khởi tạo ma trận tâm cụm ban đầu (0) (0)

i j , d cV v V R

Thuật toán Tham

số m

Số cụm

dữ liệu

Tham số thiết

lập ban đầu

SC (theo

Chiu [1,2]) 2 7

0.5e ,

0.15e ,

a 0.25r và

1.5h

SC mở

rộng

1.1 1

1.3 2

1.5 3

1.8 4

1.9 6

2 7

2.1 8

2.2 9

2.5 13

3 18

5 100

772

Page 6: Phương pháp phân cụm mờ trừ loại hai khoảng

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Bước 2: Dùng thuật toán FCM (theo mục 2.3) để phân

cụm với ma trận tâm cụm được khởi tạo ở bước 1 và

đưa ra kết quả phân cụm là ( )jV và số bước lặp phải

thực hiện là j.

Bước 3: So sánh số bước lặp phải thực hiện và kết quả

phân cụm để đánh giá hiệu quả của các thuật toán

phân cụm trừ với nhau.

Kết quả là trong các thử nghiệm, giải thuật phân cụm

trừ loại hai khoảng cho kết quả phân cụm hiệu quả

hơn thuật toán phân cụm trừ loại một khi mà kết quả

phân cụm của nó áp dụng vào FCM làm FCM hội tụ

nhanh đến kết quả phân cụm với số cụm tốt hơn và số

bước lặp phải thực hiện cũng tốt hơn so với giải thuật

phân cụm trừ loại 1.

4.1 Thử nghiệm 1.

Trong thử nghiệm này, chúng tôi tiến hành phân đoạn

ảnh cho ảnh chụp chấn thương vùng lồng ngực (hình

5), ảnh gồm 2 vùng là xương và miền bị tổn thương.

H. 5 Các kết quả phân đoạn ảnh cho ảnh chụp chấn

thương lồng ngực qua SC và IT2-SC.

Các thử nghiệm tiến hành với các tham số khởi tạo

ban đầu lần lượt là 0.5 , 0.15 ,

a 0.25r và 1.5 . Hình 5.b mô tả kết quả phân

đoạn ảnh của SC và FCM (lúc này tham số mờ m = 2)

còn hình 5.c mô tả kết quả phân đoạn ảnh của IT2SC

với 2 tham số mờ lần lượt là m1 = 1.65 và m2=2.35.

Cả hai thử nghiệm này đều thu được kết quả là chia

ảnh thành ba vùng khá rõ ràng. Hình 5.d cho kết quả

tốt nhất với 2 vùng rõ ràng trong đó ta dễ quan sát

được vùng bị tổn thương.

Thuật

toán

0.5e 0.15e a 0.5r

1.25h Ghi chú

Tham

số mờ

FCM

(số lần lặp)

Số

cụm

SC m = 2 38 3

IT2SC

1 1.65m

2 2.35m

22 3

1 1.42m

2 2.58m

20 2 Kết quả

phân đoạn

ảnh tốt nhất

Bảng 2. So sánh kết quả giữa SC và IT2SC

Kết quả so sánh giữa hai thuật toán được thống kê

trong bảng 2 trên cho thấy thuật toán SC loại 2

khoảng cho các kết quả tốt hơn so với thuật toán SC.

4.2. Thử nghiệm 2

Trong thử nghiệm này, chúng tôi tiến hành phân đoạn

ảnh cho ảnh chụp máy bay gồm 2 vùng là nền trời và

đối tượng máy bay (hình 6). Các thử nghiệm tiến hành

với các tham số khởi tạo ban đầu lần lượt là 0.5e ,

0.15e , a 0.25r và 1.5h . Hình 6.b mô tả kết

quả phân đoạn ảnh của SC và FCM (lúc này tham số

mờ m = 2) còn hình 6.c mô tả kết quả phân đoạn ảnh

của IT2SC với 2 tham số mờ lần lượt là m1 = 1.7 và

m2 = 2.3. Cả hai thử nghiệm này đều thu được kết quả

là chia ảnh thành ba vùng khá rõ ràng. Hình 6.d cho

kết quả tốt nhất với 2 vùng rõ ràng.

H. 6 Các kết quả phân đoạn ảnh cho ảnh máy bay qua

SC và IT2-SC.

Kết quả so sánh 2 thuật toán được thể hiện trong bảng

3 sau đây:

Thuật

toán

0.5e 0.15e a 0.5r

1.25h Ghi chú

Tham

số mờ

FCM

(số lần lặp)

Số

cụm

SC m = 2 33 4

IT2SC

1 1.7m

2 2.3m

31 4

1 1.42m

2 2.58m

17 2 Kết quả

phân đoạn

ảnh tốt nhất

Bảng 3 So sánh kết quả giữa SC và IT2SC

5. Kết luận Bài báo đã trình bày một hướng tiếp cận mới về thuật

toán phân cụm trừ với tham số mờ m, có ảnh hưởng

lớn đến quá trình phân cụm. Từ tham số mờ m có thể

làm giảm sự không chắc chắn của thuật toán khi khởi

tạo các tham số ban đầu. Từ đó, chúng tôi đã mở rộng

thành thuật toán phân cụm trừ mờ loại hai khoảng

bằng cách sử dụng 2 giá trị khác nhau của tham số m.

Qua các thực nghiệm về phân đoạn ảnh đã cho thấy hiệu

quả của giải thuật phân cụm trừ loại hai khoảng của

chúng tôi đưa ra.

773

Page 7: Phương pháp phân cụm mờ trừ loại hai khoảng

Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011

VCCA-2011

Trong các nghiên cứu tiếp theo, chúng tôi sẽ áp dụng

phương pháp này để tổng quát hóa các mô hình TSK

loại hai và loại hai khoảng thông qua việc xây dựng

các luật mờ loại hai và loại hai khoảng. Từ đó nâng

cao hiệu quả cho các mô hình mờ TSK đã được xây

dựng trước đây.

Tài liệu tham khảo [1] S. L. Chiu, Fuzzy Model Identification Based on

Cluster Estimation,Journal on Intelligent Fuzzy

Systems, vol. 2, pp.267-278, 1994.

[2] S. L. Chiu, Extracting Fuzzy Rules from Data

for Function Approximation and Pattern

Classification, Fuzzy Information Engineering:

a Guide Tour of Applications, pp.149-162.

Wiley, New York, 1997.

[3] Demirli, K., S. X. Cheng, P. Muthukumaran,

Subtractive Clustering Based Modeling of Job

Sequencing with Parametric Search, Fuzzy Sets

and Systems. 137: 235-270, 2003.

[4] J.Y. Chen, Zheng Qin, Ji Jia, A Weighted Mean

Subtractive Clustering Algorithm, Information

Technology Journal, 7(2): 356-360, 2008.

[5] Kim, DW., K.Y. Lee and K.H. Lee, A Kernel

Based Subtractive Clustering Method, Pattern

Recog. Lett., 26(7):879-891, 2005.

[6] J. M. Mendel, Uncertain Rule-Based Fuzzy

logic Systems, Introduction on New Directions,

prentice hall PTR, upper saddle river, NJ, 2001.

[7] J. Mendel and R. John, Type-2 fuzzy set made

simple, IEEE Trans. On Fuzzy Systems, vol.

10(2), pp. 117-127, 2002.

[8] N. Karnik and J.M. Mendel, Operations on

Type-2 Fuzzy Sets, Fuzzy Sets and Systems, Vol

122, pp.327-348, 2001.

[9] N. Karnik, J.M. Mendel, Centroid of a Type-2

Fuzzy Set, Information Sci.,132,195-220, 2001.

[10] Liang Q. and J.M. Mendel, Interval Type-2

Fuzzy Logic Systems: Theory and Design, IEEE

Trans. on Fuzzy Systems, 8(5), 535-550, 2000.

[11] J.M. Mendel , John R. I., Feilong Liu, Interval

Type-2 Fuzzy Logic Systems Made Simple, IEEE

Trans. on Fuzzy Systems, 14(6), 808-821, 2006.

[12] J. M. Mendel, F. Liu, D. Zhai, alpha-Plane

Representation for Type-2 Fuzzy Sets: Theory

and Applications, IEEE Trans. on Fuzzy

Systems, Vol 17(5), pp. 1189-1207, 2009.

[13] F. Rhee and C.Hwang , A type-2 fuzzy C-means

clustering algorithm, in Proc. Joint Conf.

IFSA/NAFIPS, pp. 1919-1926, Jul. 2001.

[14] Cheul Hwang and Frank Chung-Hoon Rhee,

Uncertain Fuzzy clustering: Intervel Type-2

Fuzzy Approach to C-means, IEEE Transactions

on Fuzzy Systems, Vol. 15, pp 107-120, 2007.

[15] M.H. Fazel Zarandi, M. Zarinbal1, I.B. Turksen,

Type_II Fuzzy Possibilistic C - Mean

Clustering, IFSA-EUSFLAT, 2009.

[16] C. Hwang and F.C. Rhee, An interval type-2

Fuzzy C-Spherical Shells algorithm. IEEE

International Conference on Fuzzy Systems,

2:1117-1122, 2004.

[17] W.B. Zhang and W.J. Liu, IFCM: Fuzzy

Clustering for Rule Extraction of Interval Type-

2 Fuzzy Logic System, Proceedings of 46th IEEE

Conference on Decision and Control, 5318-

5322, 2007.

[18] Wen-Yuan Liu; Chun-Jing Xiao; Bao-

WenWang; Yan Shi; Shu-Fen Fang, Study on

combining subtractive clustering with fuzzy c-

means clustering, International Conference,

Page(s): 2659 - 2662 Vol.5, 2003.

[19] H.Y. Shen, X.Q. Peng, J.N. Wang, Z.K. Hu, A

Mountain Clustering Based on Improved PSO

Algorithm, First International Conference of

Advances in Natural Computation[C],

Changsha, China, 2005: 477-481.

[20] H.Y. Shen, X.Q. Peng, J.N. Wang, Quick

mountain clustering based on improved PSO

algorithm, J. of Systems Engineering,22(3):333-

336, 2006.

[21] M. S. Yang, K. L. Wu, A modified mountain

clustering algorithm, Pattern Analysis and

Applications, 26(8):125-138, 2005.

[22] 23. K. Demirli and P. Muthukumaran, Higher

Order Fuzzy System identification Using

Subtractive Clustering, Journal of Intelligent

and Fuzzy Systems, vol 9, pp. 129-158, 2000.

[23] K. Demirli, S. X. Cheng and P. Muthukumaran,

Subtractive Clustering Based on Modeling of

Job Sequencing with Parametric Search, Fuzzy

Sets and Systems, vol. 37, pp. 235-270, 2003.

[24] J. Bezdek, Pattern Recognition with Fuzzy

Objective Function Algorithms, New York:

Plenum, 1981.

[25] T. Kanungo, D. M. Mount, N. S. Netanyahu, C.

D. Piatko, R. Silverman, A. Y. Wu, An Efficient

k-Means Clustering Algorithm: Analysis and

Implementation, IEEE Trans. On Pattern

Analysis and Machine Intelligence,24(7), 881-

893, 2002.

Ngô Thành Long tốt nghiệp đại

học năm 1999, cao học năm 2003

ngành Công nghệ thông tin và

Tiến sĩ năm 2010 ngành Đảm bảo

toán học cho máy tính & hệ thống

tính toán, tại Học viện Kỹ thuật

Quân sự.

Hiện công tác tại Bộ môn Hệ

thống thông tin, Khoa Công nghệ

thông tin, Học viện Kỹ thuật Quân sự. Lĩnh vực

nghiên cứu: Logic mờ và hệ thống thông minh,

robotics, xử lý ảnh, mô phỏng và thực tại ảo.

Phạm Huy Bình sinh năm 1982. Anh nhận bằng kỹ

sư tin học của Học viện Kỹ thuật Quân sự năm 2006,

Từ năm 2006 đến 2010 là giáo viên trường Học viện

Hậu cần. Hiện anh đang là học viên nghiên cứu tại

Khoa Công nghệ thông tin, Học viện KTQS. Hướng

nghiên cứu là Fuzzy Logic, Neural Network.

774