THUẬT TOÁN PHÂN CỤM DỮ LIỆU MỜ

BỘ GIÁO DỤC ĐÀO TẠOTRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG

Đồ án tốt nghiệp Ngành Công nghệ thông tin

Đề tài:

Giáo viên hướng dẫn: Th.S Nguyễn Thị Xuân Hương.Sinh viên thực hiện: Phạm Thị Thu Mã số SV: 10364

Lớp: CT 702

Hải Phòng, 8/2007

NỘI DUNG

1. Phân cụm dữ liệu 1.1. Khái niệm chung1.2. Các kiểu dữ liệu và độ đo tương tự

2. Lý thuyết tập mờ 3. Một số thuật toán phân cụm -Phân cụm mờ3.1. Thuật toán k-means 3.2. Thuật toán k-tâm

3.3. Thuật toán FCM 4. Chương trình ứng dụng

1. TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

1.1. Khái niệm chung

Phân cụm dữ liệu (PCDL) là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết định.

Ứng dụng: Phân cụm dữ liệu được ứng dụng vào rất nhiều lĩnh vực: kinh doanh, ngân hàng, hợp đồng bảo hiểm, y

học, địa lý...

1.2. Các kiểu dữ liệu và độ đo tương tự

Thuộc tính khoảng :

Là thuộc tính có thể xác định thuộc tính trước cách thuộc tính

sau một khoảng bao nhiêu.

Thuộc tính định danh :

Có miền giá trị là rời rạc không phân biệt thứ tự

Với m là số thuộc tính đối sánh tương ứng trùng nhau, và p là

tổng số các thuộc tính.

)||(1

),(

/1

n

i

qiiyxd yx

q

p

mpyxd

),(

Thuộc tính có thứ tự : Là thuộc tính định danh, có thêm tính thứ tự Mi là số các giá trị của thuộc tính thứ tự ri. Chuyển chúng về miền giá trị [0,1] :

Sau đó sử dụng công thức tính độ phi tương tự của thuộc tính

khoảng đối với các giá trị Thuộc tính tỉ lệ : là thuộc tính khoảng, được xác định một cách tương đối so với một điểm mốc nào đó. wi là trọng số tương ứng của thuộc tính i, khoảng cách giữa x,y là:

zj

i

)(

n

ii yxw iiyxd

1

2

)(),(

1

1)(

)(

Mrz

i

j

ij

i

2. LÝ THUYẾT TẬP MỜ 2.1. Tập mờ

Định nghĩaA là tập mờ trên không gian nền X nếu A được xác định

bởi hàm:

µA : X → [ 0, 1 ] µAlà hàm thuộc và µA(x) là độ thuộc của x vào tập mờ A Ký hiệu A = { ( µA(x), x ): x Є X }.

2.2. Số mờ

Tập mờ M trên tập số thực R là một số thực mờ nếu : a. M chuẩn hóa tức có điểm x’ sao cho µM (x’)=1 b. Ứng với mỗi α Є R1 tập mức { x: µM (x) ≥ α } là đoạn đóng trên R1

2.3. Quan hệ mờ

Không gian nền : X,Y. R là một quan hệ mờ trên X x Y nếu R là một tập mờ trên X x Y tức là có một hàm thuộc:

µR :X x Y [0,1] ở đây µR(x,y)= R(x,y)

là độ thuộc (membership degree) của x, y vào quan hệ R

3. MỘT SỐ THUẬT TOÁN PHÂN CỤM - PHÂN CỤM MỜ3.1. Thuật toán k-means Tính chất:* Chỉ áp dụng cho dữ liệu số.* Phân cụm với dữ liệu lớn.* Chỉ có thể phát hiện ra cụm có dạng lồi. Tối thiểu hàm tiêu chuẩn:

D là khoảng cách giữa 2 đối tượng. mi là trọng tâm của các cụm ci

k

ix iC

xEi

mD1

2)(

Các bước thực hiện:InPut : Số cụm k, các trọng tâm cụm {mj} kj=1 ;OutPut : Các cụm Ci ( ) B1: Khởi tạo :

Chọn k trọng tâm {mj} kj=1 ban đầu trong không gian Rd B2 : Tính toán khoảng cách :

Với mọi Xi (1 ≤ i ≤ n), tính toán khoảng cách của nó tới mỗi trọng tâm mj (j =1, k). Sau đó tìm trọng tâm gần nhất đối với mỗi điểm.B3 : Cập nhật lại trọng tâm :

Với mỗi j=1, k , cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng của các vectơ đối tượng dữ liệu.B4 : Điều kiện dừng

Lặp B2 và B3 cho đến khi các trọng tâm của cụm không thay đổi.

ki ,1

3.2. Thuật toán k-tâm x = (x1,..., xn) và y = (y1,..., yn) là hai đối tương dữ liệu hỗn hợp trên D, khoảng cách d(x, y) được tính bởi công thức:

Nếu Aj là thuộc tính số thì dj(x,y)= (1)

ii) Nếu Aj là thuộc tính thứ tự và DOM(Aj) =

với

Khi đó: dj(x,y)= │fj(x)- fj(y) │. (2) với f (xi)= (i -1)/(k -1)

iii) Nếu Aj là dữ liệu định danh thì dj(x,y) = (3)

yx

kjj aa ,...,1

kjjj aaa ...21

yxkhi

yxkhi

:1

:0

n

jjjjj yxdyxd

1

22 ),(),(

Proceduce k-tâm Begin Chọn các trọng số , các hàm fj, xác định k. Chọn k phần tử ban đầu của D làm tâm các cụm Xếp mỗi x Є D vào cụm Cj mà nó gần tâm nhất; For j =1,...,k do ; Repeat Phân bố lại cụm theo tâm mới// như k-mean; Cập nhật lại tâm cho các cụm // nhờ tính mode Until các cụm không đổi; Xác định các cụm End

3.2.Thuật toán FCM(Fuzzy c-means)

FCM chia phân tập dữ liệu ban đầu thành c cụm mờ, trong đó mỗi đối tượng dữ liệu thuộc về các cụm được xác định bởi một hệ số là độ phụ thuộc U ikЄ [0, 1].

Hệ số U ik này để chỉ quan hệ giữa các đối tượng với cụm dữ liệu, hay còn gọi là mức độ phụ thuộc của đối tượng dữ liệu thứ i vào trung tâm của cụm thứ k.

Tổng tất cả các phân hoạch mờ có c cụm dữ liệu của N đối tượng trong không gian D chiều :

Tối thiểu hóa hàm tiêu chuẩn :

V= [v1, v2, …, vc] là ma trận mẫu biểu diễn các giá trị đối tượng tâm của cụm. A là ma trận hữu hạn dương. m là trọng số mũ trong [1,∞).

c

i

N

kik

m

m duJ ikVU1 1

2)(),(

||2

vxd ik Aik

c

i

N

kikikikcNfc

NNkci

U uuuRE1 1

0,1],1,0[11

|

Định lý

Hàm tiêu chuẩn đạt giá trị tối thiểu khi và chỉ khi :

(1)

(2)

0}c;i1 |{iik

1

dI kNk

Ii

i

c

jik mik

Nkci

ki

kik

m

ik

Iu

dd

u

,1

,0

11

2

11

)()(1

1

2

N

k

m

N

kk

m

ici u

xuv

ik

ik

1

1

1 )(

)(

Input : Số cụm c và tham số mũ m cho hàm tiêu chuẩn JOutPut : c cụm dữ liệu sao cho hàm tiêu chuẩn đạt giá trị tối thiểu.

1. Nhập giá trị cho hai tham số c (1<c<N), m và khởi tạo ma trận mẫu 2.Repeat2.1 j=j+1;2.2 Tính ma trận phân hoạch mờ Uj theo công thức (1)2.3 Cập nhật các trọng tâm V(j) = [v1(j), v2(j), …, vc(j) ] dựa vào (2) và ma trận Uj;3. Untill (|| U(j+1) – U (j) ||F ≤ );4. Trình diễn các cụm kết quả.End.Trong đó:

i k ikF uU 22

||||

Đánh giá:

* Thuật toán c-means mờ FCM đã được áp dụng thành công trong giải quyết một số lớn các bài toán PCDL như trong nhận dạng mẫu, xử lý ảnh, y học, …

* Nhược điểm : Nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu .

4. BÀI TOÁN ỨNG DỤNG

Input: - Tập dữ liệu các hồ sơ bệnh án của một loại bệnh. - Các triệu chứng của bệnh án là tập các dữ liệu hỗn hợp.

- C cụm, trọng số các triệu chứng

Output: - Đưa ra k nhóm bệnh án để hỗ trợ việc điều trị. - Áp dụng thuật toán phân cụm mờ FCM, mở rộng cho

dữ liệu hỗn hợp để đưa ra kết quả

Giao diện chính:

Giao diện cập nhật:

KẾT LUẬN - Em đã tìm hiểu và trình bày những vấn đề

cơ bản về phân cụm dữ liệu - Một số thuật toán phân cụm dữ liệu điển hình - Tìm hiểu về tập mờ và thuật toán PCDL mờ - Do thời gian và trình độ có hạn, đồ án không tránh khỏi hạn chế và thiếu sót. Mong nhận được sự chỉ bảo của thầy cô, và những ý kiến đóng góp của quý vị, những ai quan tâm đến lĩnh vực này.

EM XIN CHÂN THÀNH CẢM ƠN !

Documents

THUẬT TOÁN PHÂN CỤM DỮ LIỆU MỜ