23
ĐẠI HC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYN THNHƢ NA VTÍNH HIỆU QUCỦA CÁC THUẬT TOÁN TỐI ƢU TIẾN HÓA CHO PHÂN CỤM MVÀ ỨNG DNG TRONG PHÂN TÍCH NHU CẦU KHÁCH HÀNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội 2015

ĐẠI HỌC QU I I H - Trung tâm Thông tinrepository.vnu.edu.vn/bitstream/VNU_123/5037/1/00050005790.pdf · 2.4. Áp dụng thuật toán tối ưu tiến hóa cho phân cụm

Embed Size (px)

Citation preview

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NHƢ NA

VỀ TÍNH HIỆU QUẢ CỦA CÁC THUẬT TOÁN TỐI ƢU

TIẾN HÓA CHO PHÂN CỤM MỜ VÀ ỨNG DỤNG

TRONG PHÂN TÍCH NHU CẦU KHÁCH HÀNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NHƢ NA

VỀ TÍNH HIỆU QUẢ CỦA CÁC THUẬT TOÁN TỐI ƢU

TIẾN HÓA CHO PHÂN CỤM MỜ VÀ ỨNG DỤNG

TRONG PHÂN TÍCH NHU CẦU KHÁCH HÀNG

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Lê Hoàng Sơn

Hà Nội – 2015

i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi, không

sao chép ở bất kỳ một công trình hoặc một luận văn, luận án của các tác giả khác.

Các số liệu, kết quả nêu trong luận văn này là trung thực và chưa được công bố

trong bất kỳ công trình nào khác. Các trích dẫn, các số liệu và kết quả tham khảo

dùng để so sánh đều có nguồn trích dẫn rõ ràng.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy

định cho lời cam đoan của mình.

Hà Nội, tháng 5 năm 2015

Tác giả luận văn

Nguyễn Thị Nhƣ Na

ii

LỜI CẢM ƠN

Để hoàn thành tốt luận văn này, đầu tiên em xin bày tỏ lòng biết ơn chân thành

và sâu sắc đến Tiến sĩ Lê Hoàng Sơn, người đã tận tình và trực tiếp hướng dẫn em

trong suốt quá trình triển khai và nghiên cứu đề tài, tạo điều kiện để em hoàn thành

luận văn này.

Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo

trong khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc

gia Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa.

Thứ ba, em xin được gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn

trong Trung tâm Tính toán Hiệu năng cao, trường Đại học Khoa học tự nhiên đã

giúp đỡ em trong suốt thời gian làm luận văn này.

Cuối cùng em xin chân thành cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn

bên em cổ vũ, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện luận

văn. Luận văn này được thực hiện dưới sự tài trợ của đề tài NAFOSTED, mã số:

102.05-2014.01.

Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép

nhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em rất mong được sự góp ý

chân thành của thầy cô và các bạn để em hoàn thiện luận văn của mình.

Xin chân thành cảm ơn!

Hà Nội, ngày 5 tháng 5 năm 2015

Học viên

Nguyễn Thị Như Na

iii

MỤC LỤC

LỜI CAM ĐOAN ...................................................................................................... i

LỜI CẢM ƠN ........................................................................................................... ii

MỤC LỤC ................................................................................................................ iii

DANH SÁCH HÌNH VẼ ......................................................................................... vi

DANH SÁCH BẢNG .............................................................................................. vi

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT ........................................................... vii

1/. ĐẶT VẤN ĐỀ ....................................................................................................... 1

2/. MỤC ĐÍCH CỦA LUẬN VĂN............................................................................ 2

3/. BỐ CỤC CỦA LUẬN VĂN ................................................................................. 3

CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM MỜ .............................................. 5

1.1. Tập mờ................................................................................................................. 5

1.1.1. Lý thuyết mờ ............................................................................................... 5

1.1.2. Tập mờ ....................................................................................................... 5

1.2. Giới thiệu về phân cụm mờ ................................................................................. 8

1.2.1. Khái quát phân cụm ................................................................................... 8

1.2.2. Độ đo gần gũi ........................................................................................... 10

1.2.3. Các bước phân cụm ................................. Error! Bookmark not defined.

1.2.4. Phân cụm mờ ........................................... Error! Bookmark not defined.

1.3. Thuật toán Fuzzy C – Means (FCM) ................ Error! Bookmark not defined.

1.3.1. Thuật toán Fuzzy C - Means .................... Error! Bookmark not defined.

1.3.2. Cài đặt chương trình ................................ Error! Bookmark not defined.

1.4. Kết luận chương ................................................ Error! Bookmark not defined.

iv

CHƢƠNG 2: CÁC THUẬT TOÁN TỐI ƢU TIẾN HÓA CHO PHÂN CỤM

MỜ ............................................................................... Error! Bookmark not defined.

2.1. Tính toán tiến hóa .............................................. Error! Bookmark not defined.

2.2. Các dạng của thuật toán tiến hóa....................... Error! Bookmark not defined.

2.2.1. Thuật toán lập trình tiến hóa ................... Error! Bookmark not defined.

2.2.2. Chiến lược tiến hóa .................................. Error! Bookmark not defined.

2.2.3. Thuật toán di truyền ................................. Error! Bookmark not defined.

2.2.4. Lập trình di truyền ................................... Error! Bookmark not defined.

2.2.5. Tiến hóa vi phân ....................................... Error! Bookmark not defined.

2.2.6. Thuật toán văn hóa .................................. Error! Bookmark not defined.

2.3. Một số thuật toán cụ thể .................................... Error! Bookmark not defined.

2.3.1.Tìm kiếm cục bộ ........................................ Error! Bookmark not defined.

2.3.2. Thuật toán tìm kiếm Tabu ........................ Error! Bookmark not defined.

2.3.3. Tìm kiếm lân cận biến đổi (VNS) ............. Error! Bookmark not defined.

2.3.4. Tối ưu bầy đàn PSO ................................. Error! Bookmark not defined.

2.4. Áp dụng thuật toán tối ưu tiến hóa cho phân cụm mờ ..... Error! Bookmark not

defined.

2.4.1. Thuật toán Fuzzy J – Means heuristic (FJM) ......... Error! Bookmark not

defined.

2.4.2. Thuật toán VNS ........................................ Error! Bookmark not defined.

2.4.3. Thuật toán tối ưu bầy đàn cho phân cụm mờ (FPSO) .. Error! Bookmark

not defined.

Cài đặt chương trình........................................... Error! Bookmark not defined.

2.5. Kết luận chương ................................................ Error! Bookmark not defined.

v

CHƢƠNG 3: SO SÁNH HIỆU NĂNG THUẬT TOÁN TỐI ƢU TIẾN HÓA

...................................................................................... Error! Bookmark not defined.

3.1. Thiết lập môi trường thực nghiệm .................... Error! Bookmark not defined.

3.1.1. Dữ liệu ...................................................... Error! Bookmark not defined.

3.1.2. Cấu hình cài đặt ....................................... Error! Bookmark not defined.

3.1.3. Kết quả thực nghiệm ................................ Error! Bookmark not defined.

3.1.4. So sánh hiệu năng thuật toán ................... Error! Bookmark not defined.

3.2. Ứng dụng ........................................................... Error! Bookmark not defined.

3.2.1. Bài toán .................................................... Error! Bookmark not defined.

3.2.2. Dữ liệu ...................................................... Error! Bookmark not defined.

3.2.3. Kết quả chạy thực nghiệm bài toán ......... Error! Bookmark not defined.

3.3. Kết luận chương ................................................ Error! Bookmark not defined.

KẾT LUẬN ................................................................. Error! Bookmark not defined.

TÀI LIỆU THAM KHẢO ..................................................................................... 11

vi

DANH SÁCH HÌNH VẼ

Hình 1.1. Tập mờ và biểu diễn tập mờ

Hình 1.2. Ví dụ một tập mờ

Hình 1.3. Số mờ hình thang.

Hình 1.4. Số mờ hình tam giác.

Hình 1.5. Các dạng hình học khác nhau của cụm trong không gian 2R

Hình 2.1. Cá thể cập nhật vị trí

Hình 3.1. Minh họa dữ liệu đầu vào thử nghiệm lưu trên tệp excel

Hình 3. 2. Tóm tắt trường dữ liệu đầu vào

Hình 3. 3. Tóm tắt trường dữ liệu đầu vào

Hình 3. 4. Tóm tắt trường dữ liệu đầu vào

Hình 3.5. Minh họa dữ liệu đầu vào cho bài toán ứng dụng lưu trên tệp exel

Hình 3.6. Ma trận mờ thuộc

DANH SÁCH BẢNG

Bảng 3.1: Kêt quả thực nghiệm trường hợp 1

Bảng 3.2: Kêt quả thực nghiệm trường hợp 2

Bảng 3.3: Kêt quả thực nghiệm trường hợp 3

Bảng 3.4: Kêt quả thực nghiệm trường hợp 4

vii

Bảng 3.5: Bệnh viện thuộc cụm 1

Bảng 3.6: Bệnh viện thuộc cụm 2

Bảng 3.7: Bệnh viện thuộc cụm 3

Bảng 3.8: Không gian tham chiếu của các thuộc tính

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT

Từ hoặc cụm từ Từ

viết tắt

Từ Tiếng Anh

Phân cụm mờ C - Means FCM Fuzzy C – Means

Phân cụm mờ J - Means FJM Fuzzy J – Means

Tìm kiếm lân cận biến đổi VNS Variable neighbourhood

search

Tối ưu bầy đàn PSO Particle Swarm Optimization

viii

Tối ưu bầy đàn mờ FPSO Fuzzy Particle Swarm

Optimization

Lập trình tiến hóa EP Evolutionary Programming

Chiến lược tiến hóa ES Evolutionary Strategies

Thuật toán di truyền GA Genetic Algorithms

Thuật toán tiến hóa EA Evolutionary Algorithms

Tập mờ FS Fuzzy Set

Thuật toán tìm kiếm Tabu TS Tabu search

1

MỞ ĐẦU

1/ ĐẶT VẤN ĐỀ

Trong những năm gần đây, công nghệ thông tin đã có những chuyển biến

mạnh mẽ, tác động lớn đến sự phát triển của xã hội. Sự bùng nổ thông tin đã đem

đến lượng dữ liệu khổng lồ. Chúng ta càng có nhu cầu khám phá kho dữ liệu đó

phục vụ cho nhu cầu con người, điều đó đòi hỏi con người phải biết khai thác dữ

liệu và xử lý thông tin đó thành tri thức có ích.

Một trong những kỹ thuật quan trọng trong quá trình khai phá dữ liệu và xử

lý dữ liệu lớn là kỹ thuật phân cụm dữ liệu. Phân cụm đặc biệt hiệu quả khi ta

không biết về thông tin của các cụm, hoặc khi ta quan tâm tới những thuộc tính của

cụm mà chưa biết hoặc biết rất ít về những thông tin đó. Phân cụm được coi như

một công cụ độc lập để xem xét phân bố dữ liệu, làm bước tiền xử lý cho các thuật

toán khác. Việc phân cụm dữ liệu có rất nhiều ứng dụng như trong lập quy hoạch

đô thị, nghiên cứu trái đất, địa lý, khai phá Web v.v.

Ngày nay, cùng với kỹ thuật phân cụm kết hợp với lý thuyết mờ của Zadeh

phương pháp phân cụm mờ đã và đang phát triển và được ứng dụng rộng rãi trong

thực thực tiễn, ví dụ như phân tích nhu cầu khách hàng, phân đoạn ảnh, nhận dạng

mặt người, nhận dạng cử chỉ và điệu bộ, phân tích rủi ro, dự báo nguy cơ phá sản

cho ngân hàng và nhiều bài toán khác. Những vấn đề chính được quan tâm nhiều

trong phân cụm nói chung và phân mờ nói riêng là nâng cao chất lượng phân cụm,

tính toán thông qua một số độ đo chất lượng cụ thể. Những nhược điểm của phân

cụm mờ liên quan đến việc xác định số cụm tự động, học đo khoảng cách thích

nghi, lựa chọn tham số tối ưu, xây dựng tập mờ trên các tập mờ mở rộng, v.v. đã

được quan tâm nghiên cứu nhiều trong thời gian gần đây. Tuy nhiên, các nghiên

cứu này chưa quan tâm đến việc xác định nghiệm tối ưu toàn cục của bài toán phân

cụm, và hàm mục tiêu của bài toán hay cách thức phân chia dữ liệu vẫn được sử

2

dụng chung cho mọi bài toán. Để xác định nghiệm tối ưu toàn cục của bài toán

phân cụm, các thuật toán tối ưu tiến hóa như thuật toán di truyền, tối ưu bầy đàn,

v.v. được áp dụng trong việc tìm nghiệm tối ưu toàn cục của bài toán tối ưu. Và

trong khuôn khổ luận văn này sẽ tìm hiểu vấn đề đó trên cơ sở khảo sát một số

thuật toán tối ưu tiến hóa cho bài toán phân cụm mờ, cụ thể là thuật toán Fuzzy J -

Means, Variable Neighbourhood Search và Fuzzy Particle Swarm Optimization.

2/ MỤC ĐÍCH CỦA LUẬN VĂN

Trong luận văn này chúng tôi khảo sát môt số thuật toán tối ưu tiến hóa cho

bài toán phân cụm mờ, cụ thể là thuật toán Fuzzy J – Means (FJM), Variable

Neighbourhood Search (VNS) và Fuzzy Particle Swarm Optimization (FPSO). Các

thuật toán này sẽ được áp dụng cho bài toán phân tích nhu cầu khách hàng – là mục

tiêu quan trọng của bất kỳ doanh nghiệp nào trong việc xác định các khách hàng

tiềm năng, nhu cầu của nhóm khách hàng đó và mức độ hài lòng về sản phẩm và

dịch vụ. Từ đó hỗ trợ doanh nghiệp đưa ra quyết định trong chiếm lược kinh doanh

trong tương lai dựa vào kết quả của quá trình phân tích khách hàng tiềm năng, nhu

cầu của nhóm khách hàng và mức độ hài lòng về sản phẩm và dịch vụ của doanh

nghiệp.

Cụ thể với một cơ sở dữ liệu mẫu về thống kê doanh doanh số bán hàng của

một công ty kinh doanh thiết bị y tế cho khoảng 500 bệnh viện [26] được sử dụng

làm dữ liệu đầu vào cho các thuật toán trên. Qua đây, tính hiệu quả của các thuật

toán tối ưu tiến hóa cho bài toán phân cụm mờ theo các tiêu chí về chất lượng và

thời gian tính toán được làm rõ đồng thời phác họa chi tiết về các chức năng chính

của bài toán phân tích nhu cầu khách hàng.

3

3/ BỐ CỤC CỦA LUẬN VĂN

Luận văn gồm 3 chương, có phần mở đầu, phần kết luận, phần mục lục, phần

tài liệu tham khảo. Các nội dung cơ bản của luận văn được trình bày theo cấu trúc

như sau:

Chƣơng 1: Tổng quan về phân cụm mờ

Trong chương này, luận văn sẽ trình bày tổng quan về tập mờ, bài toán phân

cụm và phân cụm mờ và thuật toán cơ bản giải quyết vấn đề phân cụm trên tập mờ

đó là thuật toán Fuzzy C – Means (FCM). Từ thuật toán này chúng tôi sẽ khảo sát

các thuật toán tối ưu tiến hóa cho bài toán phân cụm mờ.

Chƣơng 2: Các thuật toán tối ƣu tiến hóa cho phân cụm mờ

Trong chương này, các khái niệm cơ bản về tối ưu tiến hóa sẽ được nhắc lại ở

đầu chương. Tiếp theo, chúng tôi sẽ trình bày thuật toán Fuzzy J – Means (FJM)

được phát triển từ thuật toán Fuzzy C – Means (FCM) trong việc tìm nghiệm tối ưu

cho bài toán, từ đó có nhận xét về hiệu quả của bài toán phân cụm mờ được áp

dụng thuật toán trên. Tiếp theo, chúng tôi khảo sát thuật toán Variable

Neighbourhood Search (VNS) được phát triển tiếp từ thuật toán Fuzzy J – Means

và phần cuối của chương này trình bày về thuật toán Fuzzy Particle Swarm

Optimization (FPSO) lai của hai phương pháp Fuzzy C – Means và Particle Swarm

Optimization (PSO). Nhận xét chung các thuật toán cũng được nhắc trong chương

này.

Chƣơng 3: So sánh hiệu năng thuật toán tối ƣu tiến hoá

Trong chương này, chúng tôi cài đặt và đánh giá hiệu năng các thuật toán:

FCM, FJM, VNS và FPSO theo các tiêu chí về chất lượng phân cụm thông qua giá

trị hàm mục tiêu và thời gian tính toán. Từ đây, hiệu quả của các thuật toán tối ưu

tiến hóa cho phân cụm mờ được khẳng định.

4

5

CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM MỜ

1.1. Tập mờ

1.1.1. Lý thuyết mờ

Trong lý thuyết tập hợp kinh điển (do Cantor khởi xướng), giá trị của một

phần tử trong một tập hợp là 0 hoặc 1, tức là với một phần tử bất kỳ chỉ có hai khả

năng là thuộc hoặc không thuộc tập hợp. Do đó, lý thuyết này không thể xử lý

những dữ liệu có tính không chắc chắn, không rõ ràng.

Lotfi A. Zadeh và Dieter Klaua là người sáng lập ra lý thuyết tập mờ [25], mở

đầu bằng bài báo “Fuzzy Sets” trên tạp chí “Information and Control” năm 1965. Ý

tưởng lý thuyết tập mờ của Zadeh là từ những khái niệm trừu tượng, không chắc

chắn của thông tin như độ tuổi (trẻ – già), chiều cao (cao – thấp), nhiệt độ (nóng –

lạnh), v.v. ông đã tìm ra cách biểu diễn bằng một khái niệm toán học được gọi là

tập mờ FS, như là một sự khái quát của khái niệm tập hợp.

Bằng các phương pháp tiếp cận khác nhau, các nhà nghiên cứu như Dubois,

Prade, Mamdani, Tagaki, Sugeno, Ishibuchi, Herrera, v.v. đã đưa ra những kết quả

cả về lý thuyết và ứng dụng trong các bài toán điều khiển mờ, khai phá dữ liệu mờ,

cơ sở dữ liệu mờ, các hệ hỗ trợ quyết định

Tập mờ FS được định nghĩa như sau:

1.1.2. Tập mờ

Định nghĩa 1.2 [25]: Cho tập nền X và x là phần tử của tập X . Một tập mờ

F trên tập X được định nghĩa bởi một hàm thành viên hay còn gọi là hàm thuộc

F x (degree of membership), đo “mức độ” mà phần tử x thuộc về tập F thỏa

mãn điều kiện với x X , 0 F x 1.

, FF x x x X

6

Khi F x = 0 thì x F hoàn toàn. Khi F x = 1 thì x F hoàn toàn.

Tập mờ F rỗng nếu và chỉ nếu F x = 0 với x X

Tập mờ F toàn phần nếu và chỉ nếu F x = 1 với x X

Như vậy, khái niệm tập mờ là sự tổng quát hóa khái niệm tập rõ bởi hàm thuộc

của nó có thể lấy giá trị bất kỳ trong khoảng [0, 1], tập rõ chỉ là một tập mờ đặc biệt

vì hàm thuộc F x chỉ nhận hai giá trị 0 hoặc 1.

Ví dụ 1.3: X = {X1, X2, X3, X4}

Hàm thuộc không còn mang 2

giá trị tuyệt đối 0 hay 1, mà là giá trị

thuộc đoạn [0,1].

Biểu diễn tập mờ theo đồ thị.

Hình 1.1: Tập mờ và biểu diễn tập mờ

Ví dụ 1.4: Cho tập X gồm 5 người là 1 2 3 4 5, , , ,x x x x x tương ứng có tuổi là

50, 10, 15, 55, 70, xác định tập F là tập hợp những người “Trẻ”?

Ta có thể xây dựng hàm thuộc như sau: µF(50)=0.35, µF(10)=0.95,

µF(15)=0.75, µF(55)=0.30, µF(70)=0.05.

7

Khi đó tập mờ F = {(50, 0.35) (10, 0.95) (15, 0.75) (55, 0.30)(70, 0.05)} và F

được biểu diễn như Hình 1.2 sau:

Hình 1.2: Ví dụ một tập mờ

* Số mờ

Xét tập mờ F trên tập các số thực R. Về nguyên tắc, không có ràng buộc chặt

đối với việc xây dựng các tập mờ để biểu thị ngữ nghĩa của các khái niệm ngôn

ngữ. Tuy nhiên, để đơn giản trong xây dựng các tập mờ và trong tính toán trên các

tập mờ, người ta đưa ra khái niệm tập mờ có dạng đặc biệt, gọi là số mờ để biểu thị

các khái niệm mờ về số như gần 10, khoảng 15, lớn hơn nhiều so với 10,v.v.

Trong điều khiển, với mục đích sử dụng các hàm thuộc sao cho khả năng tích

hợp chúng là đơn giản, người ta thường chỉ quan tâm đến hai dạng số mờ hình

thang và số mờ hình tam giác.

Số mờ hình thang

Hàm thành viên có dạng sau [1]:

8

0,

/ ,

1,

/ ,

0,

F

x a c

x a c c a c x a

x a x b

b d x d b x b d

d d x

Hình 1.3. Số mờ hình thang.

Số mờ hình tam giác

Số mờ hình tam giác là trường hợp đặc biệt của số mờ hình thang. Hàm

thành viên có dạng sau:

,

,

0,

F

x aa x b

b a

c xx b x c

c b

otherwise

Hình 1.4. Số mờ hình tam giác.

1.2. Giới thiệu về phân cụm mờ

1.2.1. Khái quát phân cụm

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các

phương pháp học không giám sát trong học máy, nhằm tìm kiếm, phát hiện các

cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó

cung cấp thông tin, tri thức cho việc ra quyết định.

Có rất nhiều định nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể

hiểu phân cụm là các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm,

9

sao cho các đối tượng trong cùng một cụm tương tự nhau và các đối tượng khác

cụm thì không tương tự nhau [23].

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm nội tại bên

trong của bộ dữ liệu không có nhãn. Tuy nhiên, không có tiêu chí nào là được xem

là tốt nhất để đánh giá hiệu quả của phân tích phân cụm, điều này phụ thuộc vào

mục đích cuối cùng của phân cụm dữ liệu. Do đó, người sử dụng phải cung cấp tiêu

chuẩn, theo cách như vậy mà kết quả của phân cụm sẽ phù hợp với nhu cầu của

người sử dụng cần.

Định nghĩa 1.1:

Cho X là một tập dữ liệu gồm N vector: 1 2, ,..., Nx x x . Bài toán phân cụm là

chia tập dữ liệu X , c cụm dữ liệu 1 2, z ,..., z cZ z .

Thỏa mãn 3 điều kiện sau:

iz ,

1,2,...,i c

1

c

iiX z

i jz z với i j ; , 1,2,...,i j c

Phân cụm được đóng vai trò quan trọng trong các nghành khoa học:

- Thương mại: Phân cụm dữ liệu giúp các nhà cung cấp biết được nhóm khác

hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu trong

cơ sở dữ liệu khách hàng.

- Sinh học: Phân cụm dữ liệu được sử dụng để xác định các loại sinh vật,

phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các

mẫu.

- Phân tích dữ liệu không gian: Do sự đồ sộ của dữ liệu không gian như dữ

liệu thu được từ các hình ảnh chụp từ vệ tinh, các thiết bị y học hoặc hệ thống

thông tin địa lý (GIS), v.v, làm cho người dùng rất khó để kiểm tra các dữ liệu

không gian một cách chi tiết. Phân cụm dữ liệu có thể trợ giúp người dùng tự động

10

phân tích và xử lý các dữ liêu không gian như nhận dạng và chiết xuất các đặc tính

hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong cơ sở dữ liệu không gian.

- Lập quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý,

v.v, nhằm cung cấp thông tin cho quy hoạch đô thị.

- Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp

thông tin cho nhận dạng các vùng nguy hiểm.

- Địa lý: Phân lớp các động vật, thực vật và đưa ra đặc trưng của chúng.

- Khai phá Web: Phân cụm dữ liệu có thể khám phá các nhóm tài liệu quan

trọng, có nhiều ý nghĩa trong môi trường Web. Các lớp tài liệu này trợ giúp cho

việc khám phá tri thức từ dữ liệu Web, khám phá ra các mẫu truy cập của khách

hàng đặc biệt hay khám phá ra cộng đồng Web, v.v.

1.2.2. Độ đo gần gũi

Trong định nghĩa về bài toán phân cụm, chúng tôi đã đưa ra cụm từ “đối tượng

tương tự nhau”. Vậy hai đối tượng như thế nào để gọi là tương tự nhau và làm sao

để đo mức độ tương tự giữa chúng.

Định nghĩa:

Một độ đo không tương tự trên X là một hàm:

: X X R

Sao cho:

0 : , , , ,R x x x y x y R

, , , ,x y y x x y

Ngoài ra nếu:

, 0x x nếu x y

, , ,x y x z z y

11

TÀI LIỆU THAM KHẢO

Tài liệu tiếng Việt

[1] Bùi Công Cường, Nguyễn Doãn Phước (2006), Hệ mờ, mạng nơron và

ứng dụng, Nhà xuất bản Khoa học kỹ thuật.

[2] Đường Võ Hùng (2014), "Ứng dụng giải thuật Tabu cho bài toán cân

bằng dây chuyền sản xuất dạng 2", tạp chí phát triển KH&CN, tập 14, số 2.

[3] Huỳnh Văn Nam (1999), Một cơ sở đại số cho logic mờ Zadeh và tính

toán trên các từ, Luận án tiến sĩ khoa học, Trường Đại học Bách khoa Hà Nội.

[4] Nguyễn Tấn Trần Minh Khang, Triệu Tráng Khôn, Đặng Thị Thanh

Nguyên, Trần Thị Huệ Nương (2011), “Khảo sát một số giải thuật Tabu giải bài

toán Xếp thời khóa biểu”, Tạp chí trường ĐH Sài Gòn.

[5] Phan Tấn Quốc và Nguyễn Đức Nghĩa (2013), "Thuật toán tìm kiếm

TABU giải bài toán cây khung với chi phí định tuyến nhỏ nhất", Tập V-1, Số 10

(30), tháng 12/2013, Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT

Tài liệu tiếng Anh

[6] Angeline, P. J. (1995). Adaptive and self-adaptive evolutionary

computations. In Computational intelligence: a dynamic systems perspective.

[7] Babuška, R. (2005). Perspectives of fuzzy systems and control. Fuzzy

clustering algorithms, 156(3), 432-444.

[8] Bezdek, J. C. (1981). Pattern recognition with fuzzy objective function

algorithms. Kluwer Academic Publishers.

[9] Brimberg, J., Hansen, P., Mladenovic, N., & Taillard, E. D. (2000).

Improvements and comparison of heuristics for solving the uncapacitated

multisource Weber problem. Operations Research, 48(3), 444-460.

12

[10] Du Merle, O., Hansen, P., Jaumard, B., & Mladenovic, N. (1999). An

interior point algorithm for minimum sum-of-squares clustering. SIAM Journal on

Scientific Computing, 21(4), 1485-1505.

[11] Fischetti, M., Lancia, G., & Serafini, P. (2002). Exact algorithms for

minimum routing cost trees. Networks, 39(3), 161-173.

[12] Hall, L. O., Ozyurt, I. B., & Bezdek, J. C. (1999). Clustering with a

genetically optimized approach. Evolutionary Computation, IEEE Transactions

on, 3(2), 103-112.

[13] Hansen, P., & Jaumard, B. (1997). Cluster analysis and mathematical

programming. Mathematical programming, 79(1-3), 191-215

[14] Hansen, P., & Mladenović, N. (1999). An introduction to variable

neighborhood search (pp. 433-458). Springer US.

[15] Hansen, P., & Mladenović, N. (2001). J-means: a new local search

heuristic for minimum sum of squares clustering. Pattern recognition, 34(2), 405-

413.

[16] Hansen, P., & Mladenović, N. (2001). Variable neighborhood search:

Principles and applications. European journal of operational research, 130(3),

449-467.

[17] Ho, N. C., & Wechler, W. (1990). Hedge algebras: an algebraic approach

to structure of sets of linguistic truth values. Fuzzy sets and systems, 35(3), 281-

293.

[18] Ho, N. C., & Wechler, W. (1992). Extended hedge algebras and their

application to fuzzy logic. Fuzzy sets and systems, 52(3), 259-281.

[19] Horst, R., & Tuy, H. (1996). Global optimization: Deterministic

approaches. Springer Science & Business Media.

[20] Mladenović, N., & Hansen, P. (1997). Variable neighborhood

search.Computers & Operations Research, 24(11), 1097-1100.

13

[21] Mustafa Mohammed Rashid (2013), Tabu search, University of

Gaziantep.

[22] Siddique, N., & Adeli, H. (2013). Computational intelligence: synergies

of fuzzy logic, neural networks and evolutionary computing. John Wiley & Sons.

[23] Stefanowski, J. (2009). Data Mining-Clustering. University of

Technology, Poland.

[24] Sri Phani Venkata Siva Krishna Madani (2010), Fuzzy Clustering

Analysis, Blekinge Institute of Technology.

[25] Zadeh, L. A. (1965). Fuzzy sets. Information and control, 8(3), 338-353.

[26] http://www.rci.rutgers.edu/~cabrera/sc/cs8/cs8.html.