48
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN BÀI TẬP LỚN MÔN KHAI PHÁ DỬ LIỆU TÌM HIỂU WEKA VÀ ỨNG DỤNG THUẬT TOÁN APRIORI TRONG KHAI PHÁ LUẬT KẾT HỢP Người hướng dẫn: TS NGUYỄN ĐỨC CƯỜNG Người thực hiện: DƯƠNG NHẬT QUANG – MSSV:51303134

Khai phá dử liệu

Embed Size (px)

Citation preview

Page 1: Khai phá dử liệu

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

KHOA CÔNG NGHỆ THÔNG TIN

BÀI TẬP LỚN MÔN KHAI PHÁ DỬ LIỆU

TÌM HIỂU WEKA VÀ ỨNG DỤNG

THUẬT TOÁN APRIORI

TRONG KHAI PHÁ LUẬT KẾT HỢP

Người hướng dẫn: TS NGUYỄN ĐỨC CƯỜNG

Người thực hiện: DƯƠNG NHẬT QUANG – MSSV:51303134

Lớp : 13050303

Khoá : 17

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2016

Page 2: Khai phá dử liệu

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAMTRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

KHOA CÔNG NGHỆ THÔNG TIN

BÀI TẬP LỚN MÔN KHAI PHÁ DỬ LIỆU

TÌM HIỂU WEKA VÀ ỨNG DỤNG

THUẬT TOÁN APRIORI

TRONG KHAI PHÁ LUẬT KẾT HỢP

Người hướng dẫn: TS NGUYỄN ĐỨC CƯỜNGNgười thực hiện: DƯƠNG NHẬT QUANG-MSSV:51303134

Lớp : 13050303Khoá : 17

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2016

Page 3: Khai phá dử liệu

1

LỜI CẢM ƠNEm xin trân thành cảm ơn cùng các bạn sinh viên khoa công nghệ thông tin

trường Đại học Tôn Đức Thắng đã tạo điều kiện giúp em hoàn thành

Trong quá trình làm bài tập lớn em đã cố gắng tìm hiểu trao đổi kiến thức để

hoàn thành tốt bài tập lớn của mình. Tuy bài tập lớn đã được hoàn thành nhưng khó

tránh khỏi những sai sót em mong thầy cô sẽ bỏ qua và mong thầy cô đưa ra ý kiến để

em rút kinh nghiệm cho những bài tập lớn tiếp theo.

Page 4: Khai phá dử liệu

2

BÀI TẬP LỚN ĐƯỢC HOÀN THÀNHTẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Em xin cam đoan đây là sản phẩm bài tập lớn của riêng em và được sự hướng

dẫn của TS Nguyễn Đức Cường . Những số liệu trong các bảng biểu phục vụ cho việc

phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có

ghi rõ trong phần tài liệu tham khảo.

Ngoài ra, trong bài tập lớn còn sử dụng một số nhận xét, đánh giá cũng như số

liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn

gốc.

Nếu phát hiện có bất kỳ sự gian lận nào em xin hoàn toàn chịu trách nhiệm

về nội dung bài tập lớn của mình. Trường đại học Tôn Đức Thắng không liên quan

đến những vi phạm tác quyền, bản quyền do em gây ra trong quá trình thực hiện (nếu

có).

TP. Hồ Chí Minh, ngày tháng năm

Tác giả

(ký tên và ghi rõ họ tên)

Dương Nhật Quang

Page 5: Khai phá dử liệu

3

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊNPhần xác nhận của GV hướng dẫn

_______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Phần đánh giá của GV chấm bài

_______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Tp. Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Page 6: Khai phá dử liệu

4

MỤC LỤCLỜI CẢM ƠN....................................................................................................................

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN.............................................

CHƯƠNG 1 – CÀI ĐẶT WEKA VÀ MÔ TẢ TẬP TÍNH DỬ LIỆU .........................5

1.1 Tìm hiểu và cài đặt Weka...............................................................................5

1.2 Tìm hiểu đăc tính dử liệu................................................................................6

CHƯƠNG 2 – TÌM HIỂU VỀ GIAO DỊCH - TRANSACTION..................................25

2.1 Khái niệm về cơ sở dử liệu giao dịch............................................................25

2.2 Khái niệm giao dịch......................................................................................25

CHƯƠNG 3 – Dùng thuật toán Apriori trong Weka để tìm luật kết hợp…………….25

3.1Tổng quan thuật toán Apriori.........................................................................25

3.2 Ứng dụng thuật toán Apriori tìm luật kết hợp trên Weka ............................27

TÀI LIỆU THAM KHẢO.............................................................................................35

Page 7: Khai phá dử liệu

5

CHƯƠNG 1 – CÀI ĐẶT PHẦN MỀM WEKA VÀ TÌM HIỂU

ĐẶC TÍNH CỦA TẬP DỬ LIỆU1.1 Tìm hiểu và cài đặt Weka 3.8

Weka được viết tắt là Waikato Environment for Knowledge Analysis , là phần

mềm khai thác dử liệu , thuôc dự án nghiên cứu của đại học Waikato- New Zealand.

Mục tiêu của Weka được xây dựng là một công cụ hiện đại nhằm phát triển các kỹ

năng máy học và áp dụng chúng vào bài toán khai thác dử liệu trong thực tế.

Weka được xây dựng bằng ngôn ngữ JAVA, cấu trúc gồm hơn 600 lớp. tổ chức

thành 10 packages. Weka có 1 số chức năng chính gồm :

- Khảo sát dử liệu : tiền xử lí dử liệu, phân lớp , gom nhóm dử liệu và khac

thác luật kết hợp.

- Thực nghiêm mô hình: cung cấp phương tiện để kiểm chứng , đánh giá các

mô hình môn học.

- Biểu diển trực quan dử liệu bằng nhiều đồ thị khác nhau.

Cài đặt Weka 3.8:

Dowload Weka phiên bản 3.8 từ trang chủ :

http://www.cs.waikato.ac.nz/ml/weka/downloading.html

Page 8: Khai phá dử liệu

6

Hình 1: Trang chủ Dowload Weka 3.8

Hình 2: Phần mềm Weka phiên bản 3.8 sau khi cài đặt

1.2 Tìm hiểu đặc tính tập dử liệu

1.2.1 Khái quát về tập dử liệu

Một tập dữ liệu (dataset) là một tậphợp các đối tượng (objects) và các thuộc tính của chúng. Mỗi thuộc tính (attribute) mô tả một đặc điểm của một đối tượng. Một tập giá trị của các thuộc tính mô tả một đối tượng. 1.2.2 Các kiểu tập dử liệu chính :

Page 9: Khai phá dử liệu

7

Bản ghi (Record)

- Các bản ghi trong csdl quan hệ

- Ma trận dữ liệu

- Biểu diễn văn bản (document)

- Dữ liệu giao dịch

Đồ thị (Graph)

- World Wide Web

- Mạng thông tin, hoặc mạng xã hội

- Các cấu trúc phân tử (Molecular structures)

Có trật tự (Ordered)

- Dữ liệu không gian (vd: bản đồ)

- Dữ liệu thời gian (vd: time-series data)

- Dữ liệu chuỗi (vd: chuỗi giao dịch)

- Dữ liệu chuỗi di truyền(genetic sequence data)

1.2.3 Các kiểu giá trị thuộc tính

Kiểu định danh/chuỗi (norminal): không có thứ tự. Nó được lấy giá trị từ một

tập không có thứ tự các giá trị (định danh). Ví dụ: Các thuộc tính như: Name,

Profession, …

Kiểu nhị phân (binary): là một trường hợp đặc biệt của kiểu định danh. Tập các

giá trị chỉ gồm có 2 giá trị (Y/N, 0/1, T/F).

Kiểu có thứ tự (ordinal): Lấy giá trị từ một tập có thứ tự các giá trị. Ví dụ như

các thuộc tính lấy các giá trị số như: Age, Highv … hay thuộc tính lấy các giá trị từ tập

{low,medium,high}

1.2.4 Tiến hành mô tả tập dử liệu File

Ta tiến hành load file supermarket.arff trong gói data của chương trình

Page 10: Khai phá dử liệu

8

Hình 3: Load file supermarket.arff

Thông tin tập dử liệu thu được:

- @Relation : supermarket.

- Có 217 Attribute(thuộc tính), các thuộc tính có kiểu giá trị là norminal.

- Số data là 4627

- Tất cả các thuộc tính đều mang kiểu Nominal.

- No. of rows : 4627 rows.

- No. of columns : 217 columns.

Sau đây là số liệu cho từng mẩu thử bao gồm tổng trọng lượng của từng mẫu so

với trọng lượng từng bản ghi.

- Deparment1 với tổng số 1047 và còn trống 3580 tức 77% so với tổng số

trường hợp đưa ra.

- Deparment2 với tổng số 131 và còn trống 4469 tức 97% so với tổng số

trường hợp đưa ra.

- Deparment3 với tổng số 90 và còn trống 4537 tức 98% so với tổng số

trường hợp đưa ra.

Page 11: Khai phá dử liệu

9

- Deparment4 với tổng số 84 và còn trống 4543 tức 98% so với tổng số

trường hợp đưa ra.

- Deparment5 với tổng số 175 và còn trống 4452 tức 96% so với tổng số

trường hợp đưa ra.

- Deparment6 với tổng số 2 và còn trống 4625 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment7 với tổng số 67 và còn trống 4560 tức 99% so với tổng số

trường hợp đưa ra.

- Deparment8 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment9 với tổng số 82 và còn trống 4545 tức 98% so với tổng số

trường hợp đưa ra.

- Grocery misc với tổng số 178 và còn trống 4449 tức 96% so với tổng số

trường hợp đưa ra.

- Deparment11 với tổng số 5 và còn trống 4622 tức 100% so với tổng số

trường hợp đưa ra.

- Baby needs với tổng số 619 và còn trống 4008 tức 87% so với tổng số

trường hợp đưa ra.

- Bread and cake với tổng số 3330 và còn trống 1297 tức 28% so với tổng

số trường hợp đưa ra.

- Baking needs với tổng số 2795 và còn trống 1832 tức 40% so với tổng số

trường hợp đưa ra.

- coupons với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường

hợp đưa ra.

- Juice sat cord ms với tổng số 2463 và còn trống 2164 tức 47% so với

tổng số trường hợp đưa ra.

Page 12: Khai phá dử liệu

10

- Tea với tổng số 896 và còn trống 3731 tức 81% so với tổng số trường

hợp đưa ra.

- Biscuits với tổng số 2605 và còn trống 2022 tức 44% so với tổng số

trường hợp đưa ra.

- Canned fish meat với tổng số 941 và còn trống 3686 tức 80% so với tổng

số trường hợp đưa ra.

- Canned fruit với tổng số 1283 và còn trống 3344 tức 72% so với tổng số

trường hợp đưa ra.

- Canned vegetables với tổng số 1557 và còn trống 3050 tức 66% so với

tổng số trường hợp đưa ra.

- Breakfast food với tổng số 1862 và còn trống 2756 tức 60% so với tổng

số trường hợp đưa ra.

- Cigs tobacco pkts với tổng số 699 và còn trống 3928 tức 85% so với tổng

số trường hợp đưa ra.

- Cigarette cartons với tổng số 37 và còn trống 4590 tức 99% so với tổng

số trường hợp đưa ra.

- Cleaner polishers với tổng số 1262 và còn trống 3365 tức 73% so với

tổng số trường hợp đưa ra.

- Coffee với tổng số 1094 và còn trống 3533 tức 76% so với tổng số

trường hợp đưa ra.

- Sauces gravy pkle với tổng số 2201 và còn trống 2426 tức 52% so với

tổng số trường hợp đưa ra.

- Confectionary với tổng số 1690 và còn trống 2937 tức 63% so với tổng

số trường hợp đưa ra.

- Puddings deserts với tổng số 788 và còn trống 3839 tức 83% so với tổng

số trường hợp đưa ra.

Page 13: Khai phá dử liệu

11

- Dishcloths scour với tổng số 362 và còn trống 4265 tức 92% so với tổng

số trường hợp đưa ra.

- Deod disinfectant với tổng số 379 và còn trống 4248 tức 92% so với tổng

số trường hợp đưa ra.

- Frozen foods với tổng số 2717 và còn trống 1910 tức 41% so với tổng số

trường hợp đưa ra.

- Razor blades với tổng số 200 và còn trống 4427 tức 96% so với tổng số

trường hợp đưa ra.

- Fuels garden aids với tổng số 169 và còn trống 4458 tức 96% so với tổng

số trường hợp đưa ra.

- Spices với tổng số 359 và còn trống 4268 tức 92% so với tổng số trường

hợp đưa ra.

- Jams spreads với tổng số 1278 và còn trống 3349 tức 72% so với tổng số

trường hợp đưa ra.

- Insecticides với tổng số 485 và còn trống 4142 tức 90% so với tổng số

trường hợp đưa ra.

- Pet food với tổng số 1867 và còn trống 2760 tức 60% so với tổng số

trường hợp đưa ra.

- Laundry needs với tổng số 1563 và còn trống 3064 tức 66% so với tổng

số trường hợp đưa ra.

- Party snack foods với tổng số 2330 và còn trống 2297 tức 50% so với

tổng số trường hợp đưa ra.

- Tissues paper prd với tổng số 2247 và còn trống 2380 tức 51% so với

tổng số trường hợp đưa ra.

- Wrapping với tổng số 1336 và còn trống 3291 tức 71% so với tổng số

trường hợp đưa ra.

Page 14: Khai phá dử liệu

12

- Dried vegetables với tổng số 29 và còn trống 4598 tức 99% so với tổng

số trường hợp đưa ra.

- Pkt canned soup với tổng số 453 và còn trống 4174 tức 90% so với tổng

số trường hợp đưa ra.

- Soft drink với tổng số 1888 và còn trống 2739 tức 59% so với tổng số

trường hợp đưa ra.

- Health food other với tổng số 341 và còn trống 4286 tức 93% so với tổng

số trường hợp đưa ra.

- Beverages hot với tổng số 455 và còn trống 4172 tức 90% so với tổng số

trường hợp đưa ra.

- Health&beuty misc với tổng số 78 và còn trống 4549 tức 98% so với

tổng số trường hợp đưa ra.

- Deodorants soap với tổng số 1078 và còn trống 3549 tức 77% so với tổng

số trường hợp đưa ra.

- Mens toiletries với tổng số 259 và còn trống 4368 tức 94% so với tổng số

trường hợp đưa ra.

- Medicines với tổng số 204 và còn trống 4423 tức 96% so với tổng số

trường hợp đưa ra.

- Haircare với tổng số 846 và còn trống 3781 tức 82% so với tổng số

trường hợp đưa ra.

- Dental needs với tổng số 1064 và còn trống 3563 tức 77% so với tổng số

trường hợp đưa ra.

- Lotions creams với tổng số 294 và còn trống 4333 tức 94% so với tổng

số trường hợp đưa ra.

- Sanitary pads với tổng số 416 và còn trống 4211 tức 91% so với tổng số

trường hợp đưa ra.

Page 15: Khai phá dử liệu

13

- Cough cold pain với tổng số 362 và còn trống 4265 tức 92% so với tổng

số trường hợp đưa ra.

- Deparment57 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Meat misc với tổng số 131 và còn trống 4496 tức 97% so với tổng số

trường hợp đưa ra.

- Cheese với tổng số 1879 và còn trống 2748 tức 59% so với tổng số

trường hợp đưa ra.

- chickens với tổng số 21 và còn trống 4606 tức 100% so với tổng số

trường hợp đưa ra.

- Milk cream với tổng số 2939 và còn trống 1688 tức 36% so với tổng số

trường hợp đưa ra.

- Cold meat với tổng số 672 và còn trống 3955 tức 85% so với tổng số

trường hợp đưa ra.

- Deli gourmet với tổng số 208 và còn trống 4419 tức 96% so với tổng số

trường hợp đưa ra.

- Margarine với tổng số 2288 và còn trống 2339 tức 51% so với tổng số

trường hợp đưa ra.

- salads với tổng số 6 và còn trống 4621 tức 100% so với tổng số trường

hợp đưa ra.

- Small goods với tổng số 1116 và còn trống 3511 tức 76% so với tổng số

trường hợp đưa ra.

- Dairy foods với tổng số 1669 và còn trống 2958 tức 64% so với tổng số

trường hợp đưa ra.

- Fruit drinks với tổng số 32 và còn trống 4595 tức 99% so với tổng số

trường hợp đưa ra.

Page 16: Khai phá dử liệu

14

- Delicatessen misc với tổng số 108 và còn trống 4519 tức 98% so với tổng

số trường hợp đưa ra.

- Deparment70 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Beef với tổng số 1739 và còn trống 2888 tức 62% so với tổng số trường

hợp đưa ra.

- Hogget với tổng số 95 và còn trống 4532 tức 98% so với tổng số trường

hợp đưa ra.

- Lamb với tổng số 473 và còn trống 4154 tức 90% so với tổng số trường

hợp đưa ra.

- Pet food với tổng số 533 và còn trống 4094 tức 88% so với tổng số

trường hợp đưa ra.

- Pork với tổng số 345 và còn trống 4282 tức 93% so với tổng số trường

hợp đưa ra.

- Poultry với tổng số 739 và còn trống 3888 tức 84% so với tổng số trường

hợp đưa ra.

- Veal với tổng số 91 và còn trống 4536 tức 98% so với tổng số trường hợp

đưa ra.

- Gourmet meat với tổng số 2 và còn trống 4625 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment79 với tổng số 390 và còn trống 4237 tức 92% so với tổng số

trường hợp đưa ra.

- Deparment80 với tổng số 156 và còn trống 4471 tức 97% so với tổng số

trường hợp đưa ra.

- Deparment81 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

Page 17: Khai phá dử liệu

15

- Produce misc với tổng số 243 và còn trống 4384 tức 95% so với tổng số

trường hợp đưa ra.

- Fruit với tổng số 2962 và còn trống 1665 tức 36% so với tổng số trường

hợp đưa ra.

- Plants với tổng số 29 và còn trống 4598 tức 99% so với tổng số trường

hợp đưa ra.

- Potatoes với tổng số 734 và còn trống 3893 tức 84% so với tổng số

trường hợp đưa ra.

- Vegetables với tổng số 2961 và còn trống 1666 tức 36% so với tổng số

trường hợp đưa ra.

- Flower với tổng số 0 và còn trống 4627 tức 100% so với tổng số trường

hợp đưa ra.

- Deparment88 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment89 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Variety misc với tổng số 319 và còn trống 4308 tức 93% so với tổng số

trường hợp đưa ra.

- Brushware với tổng số 109 và còn trống 4518 tức 98% so với tổng số

trường hợp đưa ra.

- Electrical với tổng số 514 và còn trống 4113 tức 89% so với tổng số

trường hợp đưa ra.

- Haberdashery với tổng số 45 và còn trống 4582 tức 99% so với tổng số

trường hợp đưa ra.

- Kitchen với tổng số 326 và còn trống 4301 tức 93% so với tổng số trường

hợp đưa ra.

Page 18: Khai phá dử liệu

16

- Manchester với tổng số 173 và còn trống 4454 tức 96% so với tổng số

trường hợp đưa ra.

- Pantyhose với tổng số 43 và còn trống 4584 tức 99% so với tổng số

trường hợp đưa ra.

- Plasticware với tổng số 69 và còn trống 4558 tức 99% so với tổng số

trường hợp đưa ra.

- Deparment98 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Stationary với tổng số 1457 và còn trống 3170 tức 69% so với tổng số

trường hợp đưa ra.

- Deparment100 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment101 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment102 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Perpared meals với tổng số 1271 và còn trống 3356 tức 73% so với tổng

số trường hợp đưa ra.

- Preserving needs với tổng số 56 và còn trống 4571 tức 99% so với tổng

số trường hợp đưa ra.

- Condiments với tổng số 263 và còn trống 4364 tức 94% so với tổng số

trường hợp đưa ra.

- Cooking oils với tổng số 478 và còn trống 4149 tức 90% so với tổng số

trường hợp đưa ra.

- Deparment107 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

Page 19: Khai phá dử liệu

17

- Deparment108 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment109 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment110 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment111 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment112 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment113 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment114 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Health food bulk với tổng số 0 và còn trống 4627 tức 100% so với tổng

số trường hợp đưa ra.

- Deparment116 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment117 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment118 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment119 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment120 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

Page 20: Khai phá dử liệu

18

- Bake off products với tổng số 562 và còn trống 4065 tức 88% so với tổng

số trường hợp đưa ra.

- Deparment122 với tổng số 1112 và còn trống 3515 tức 76% so với tổng

số trường hợp đưa ra.

- Deparment123 với tổng số 39 và còn trống 4588 tức 99% so với tổng số

trường hợp đưa ra.

- Deparment124 với tổng số 95 và còn trống 4532 tức 98% so với tổng số

trường hợp đưa ra.

- Deparment125 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment126 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment127 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment128 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment129 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment130 với tổng số 329 và còn trống 4298 tức 93% so với tổng số

trường hợp đưa ra.

- Small goods2 với tổng số 962 và còn trống 3665 tức 79% so với tổng số

trường hợp đưa ra.

- Offal với tổng số 99 và còn trống 4528 tức 98% so với tổng số trường

hợp đưa ra.

- Mutton với tổng số 23 và còn trống 4604 tức 100% so với tổng số trường

hợp đưa ra.

Page 21: Khai phá dử liệu

19

- Trim pork với tổng số 127 và còn trống 4500 tức 97% so với tổng số

trường hợp đưa ra.

- Trim lamb với tổng số 46 và còn trống 4581 tức 99% so với tổng số

trường hợp đưa ra.

- Imported cheese với tổng số 233 và còn trống 4394 tức 95% so với tổng

số trường hợp đưa ra.

- Deparment137 với tổng số 1854 và còn trống 2773 tức 60% so với tổng

số trường hợp đưa ra.

- Deparment138 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment139 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment140 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment141 với tổng số 10 và còn trống 4617 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment142 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment143 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment144 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment145 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment146 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

Page 22: Khai phá dử liệu

20

- Deparment147 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment148 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment149 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment150 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment151 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment152 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment153 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment154 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment155 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment156 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment157 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment158 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment159 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

Page 23: Khai phá dử liệu

21

- Deparment160 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment161 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment162 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment163 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment164 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment165 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment166 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment167 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment168 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment169 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment170 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment171 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment172 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

Page 24: Khai phá dử liệu

22

- Deparment173 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment174 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment175 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment176 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment177 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment178 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment179 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Casks white wine với tổng số 174 và còn trống 4453 tức 96% so với tổng

số trường hợp đưa ra.

- Casks red wine với tổng số 51 và còn trống 4576 tức 99% so với tổng số

trường hợp đưa ra.

- 750ml white nz với tổng số 281 và còn trống 4346 tức 94% so với tổng

số trường hợp đưa ra.

- 750ml red nz với tổng số 91 và còn trống 4536 tức 98% so với tổng số

trường hợp đưa ra.

- 750ml white imp với tổng số 99 và còn trống 4528 tức 98% so với tổng

số trường hợp đưa ra.

- 750ml red imp với tổng số 97 và còn trống 4530 tức 98% so với tổng số

trường hợp đưa ra.

Page 25: Khai phá dử liệu

23

- Sparking nz với tổng số 129 và còn trống 4498 tức 97% so với tổng số

trường hợp đưa ra.

- Spaking imp với tổng số 23 và còn trống 4606 tức 100% so với tổng số

trường hợp đưa ra.

- Brew kít/accesry với tổng số 0 và còn trống 4627 tức 100% so với tổng

số trường hợp đưa ra.

- Deparment189 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Port and sherry với tổng số 25 và còn trống 4602 tức 99% so với tổng số

trường hợp đưa ra.

- Ctrled label wine với tổng số 0 và còn trống 4627 tức 100% so với tổng

số trường hợp đưa ra.

- Deparment192 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment193 với tổng số 10 và còn trống 4617 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment194 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment195 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment196 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment197 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment198 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

Page 26: Khai phá dử liệu

24

- Deparment199 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Non host support với tổng số 87 và còn trống 4540 tức 98% so với tổng

số trường hợp đưa ra.

- Deparment201 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment202 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment203 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment204 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment205 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment206 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment207 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment208 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment209 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment210 với tổng số 191 và còn trống 4436 tức 96% so với tổng số

trường hợp đưa ra.

- Deparment211 với tổng số 207 và còn trống 4420 tức 96% so với tổng số

trường hợp đưa ra.

Page 27: Khai phá dử liệu

25

- Deparment212 với tổng số 38 và còn trống 4589 tức 99% so với tổng số

trường hợp đưa ra.

- Deparment213 với tổng số 22 và còn trống 4605 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment214 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment215 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Deparment216 với tổng số 0 và còn trống 4627 tức 100% so với tổng số

trường hợp đưa ra.

- Những thuộc tính này đều có tổng nhỏ hơn tổng số đưa ra là 4627 mẩu

thử.có những thuộc tính trống hoàn toàn so với mẩu thử đưa ra.

CHƯƠNG 2 - TÌM HIỂU VỀ GIAO DỊCH - TRANSACTION2.1 Khái niệm về cơ sở dử liệu giao dịch

Cơ sỡ dư liệu giao dịch (transaction database )là cơ cở dử liệu thường được thu

thập từ một dữ liệu bán hàng hay một trung tâm thương mại.Trong đó số liệu thống kê

được phân tích là trong một lần mua hàng khách hàng sẽ mua những sản phẩm gì.

2.2 Khái niệm về giao dịch

Hạng mục(item): được định nghĩa là mặt hàng trong giỏ hay một thuộc tính. Ta

xét tập các hạng mục (itemset) I = {i1, i2, i3, i4…, in} trong ví dụ : I = {sữa,bánh mì,ngũ

cốc,sữa chua} thì các i1, i2, i3, i4…, in là các mặt hàng.

Giao dịch(Transaction):là tập các hạng mục được mua trong một giỏ (có TID-

mã giao dịch).

Dưới đây là bảng transaction chứa các transaction chứa nhiều item nhất(t1) và ít

item nhất được phân tích từ file supermarkert.arff:

Page 28: Khai phá dử liệu

26

Transaction Item

t1 {department1, Baby needs ,Bread and

cake, Baking needs, Juice sat cord ms,

Tea, Biscuits, Canned fish meat, Canned

fruit, Canned vegetables, Breakfast food,

Cleaner polishers, Coffee, Sauces gravy

pkle, Confectionary, Puddings deserts,

Frozen foods, Spices, Jams spreads,

Insecticides, Pet food, Laundry needs,

Party snack foods, Tissues paper prd,

Wrapping, Pkt canned soup, Soft drink,

Health food other, Beverages hot,

Deodorants soap, Haircare, Dental needs,

Sanitary pads, Cheese, Milk cream,

Margarine, Small goods, Dairy foods,

Beef, Fruit, Potatoes, Vegetables,

Brushware, Electrical, Kitchen , Perpared

meals , Preserving needs , Small goods2 }

t84 {department1}

t267 {department1}

t373 { Cigarette cartons }

t662 {department2}

t663 {department2}

t666 { Cigarette cartons }

t667 { Cigarette cartons }

Page 29: Khai phá dử liệu

27

t1229 {department1}

t1601 {department79}

t1869 { Cigarette cartons }

t1929 {department1}

t2281 {department2}

t2283 {department2}

t2332 {750ml red imp }

t2350 {750ml red nz }

t2429 {department1}

t2675 { Cigarette cartons }

t2701 {soft drinks}

t2789 {department6}

t2836 {department79}

t2897 {department79}

t2961 {department11}

t2970 {department1}

t3230 {soft drinks}

t3541 { Cigarette cartons }

t3889 {department2}

t3900 {department2}

t3930 {pork}

t3998 { Cigarette cartons }

t4034 { Cigarette cartons }

t4291 {department 211}

t4322 {750ml red imp }

t4432 {750ml red imp }

Page 30: Khai phá dử liệu

28

t4437 {department2}

t4472 {department1}

t4527 {department1}

CHƯƠNG 3 - DÙNG THUẬT TOÁN APRIORI TRONG WEKA

ĐỂ TÌM LUẬT KẾT HỢP3.1 Tổng quan về thuật toán Apriori

Apriori là một thuật toán cổ điển dùng để khai thác các hạng mục theo tần suất

và kết hợp việc nghiên cứu luật để quản lý những cơ sở dữ liệu. Bài toán được dặt ra

cho thuật toán là tìm tất cả các tập mục phổ biến với minsup nào đó và sử dụng các tập

mục phổ biến để sinh ra các luật kết hợp với độ tin cậy minconf nhất định.

3.1.1 Nguyên tắc Apriori

- Đếm số lượng của từng item , tìm các item xuất hiện nhiều nhất.

- Tìm các cặp ứng viên :Đếm các cặp => cặp item xuất hiện nhiều nhất.

- Tìm các bộ ứng viên : Đếm các bộ ba => bộ ba item xuất hiện nhiều nhất. Và

tiếp tục với các bộ 4, bộ 5….

- Nguyên tắc chủ yếu : Mọi tập con của tập phổ biến là tập con phổ biến.

3.1.2 Mô tả thuật toán Apriori trong việc tìm luật luật kết hợp

Bước 1. Duyệt (Scan)  toàn bộ transaction database để có được support S của 1-

itemset, so sánh S với min_sup, để có được 1-itemset (L1)

Bước 2. Sử dụng Lk-1 nối (join) Lk-1  để sinh ra candidate k-itemset. Loại bỏ các

itemsets không phải là frequent itemsets thu được k-itemset

Bước 3. Scan transaction database để có được support của mỗi candidate k-

itemset, so sánh S với min_sup để thu được frequent k –itemset (Lk)

Page 31: Khai phá dử liệu

29

Bước 4.    Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy

frequent itemsets)

Bước 5.    Với mỗi frequent itemset I, sinh tất cả các tập con s không rỗng của I

Bước 6.    Với mỗi tập con s không rỗng của I, sinh ra các luật  s => (I-s) nếu độ

tin cậy (Confidence)  của nó > =min_conf

3.2 Ứng dụng thuật toán Apriori tìm luật kết hợp trên Weka

Đầu tiên ta tiến hành nạp dử liệu file supermarket.arff vào Weka:

Sau đó loại bỏ 2 thuộc tính “Total” và “bread and cake”:

Hình 4 : Loại bỏ 2 thuộc tính “Total” và “bread and cake”

Page 32: Khai phá dử liệu

30

Hình 5 : Kết quả số thuộc tính còn lại

Tiếp tục ta áp dụng thuật toán Apriori để khai phá luật kết hợp, với các thông số

sau :

Hình 6: Khai phá luật kết hợp với các tham số minsup = 0.3; minconf = 0,7 ;

numRules = 10 trong apriori

Page 33: Khai phá dử liệu

31

Với tham số minsup = 0,3 ; minconf = 0,7 ; numRules(Số luật tìm được) = 10

thì ta chon ra 3 luật kết hợp có độ chính xác cao nhất dạng: M1 ^ M2 => M3(M là các

item) là :

R1 : biscuits ^ vegetables => fruit (conf = 80%)

R2 : baking needs ^ fruit => vegetables(conf= 78%)

R3: frozens foods ^ fruit => vegetables (conf = 78%)

Tổng số luật thu được là : 10

Thực hiện lần lượt với các tham số

minsup = 0.2; minconf = 0,7 ; numRules = 1000 thì ta thu được các luật

là :

Hình 7: Khai phá luật kết hợp với các tham số minsup = 0.2; minconf

= 0,7 ; numRules = 1000 trong apriori

R1 : beef ^ fruit => vegetables (conf = 83%)

R2 : dairy foods ^ vegetables => fruit(conf= 81%)

R3: breakfast food ^ vegetables => fruit (conf = 80%)

Tổng số luật thu được là 273

Page 34: Khai phá dử liệu

32

minsup = 0,1; minconf = 0,7 ; numRules = 1000 thì ta thu được kết quả

là:

Hình 8: Khai phá luật kết hợp với các tham số minsup = 0,1; minconf

= 0,7 ; numRules = 1000 trong apriori

R1: canned fruit ^ vegetables = > fruit = 744(conf=82%)

R2: canned vegetables ^ fruit => vegetables (conf = 82%)

R3: dairy foods ^ vegetables =>fruit(conf= 81%)

Tổng số luật thu được là 1000

minsup = 0,4; minconf = 0,7 ; numRules = 1000 thì ta thu được các luật

là:

Page 35: Khai phá dử liệu

33

Hình 9: Khai phá luật kết hợp với các tham số minsup = 0,4; minconf

= 0,7 ; numRules = 1000 trong apriori

R1:vegetables=>fruit (conf = 75% )

R2: fruit => vegetables(conf = 75%)

Tổng số luật tìm được là 2.

Như vậy ở trường hợp này ta không thu được luật nào thõa dạng :M1 ^

M2 => M3.

Nhận xét: Ta thấy dử liệu số giao dịch trong file supermarket.arff là dữ liệu

không nhỏ (4627 giao dịch ) , khi tiến hành khai phá luật kết hợp nếu ta đặt giá trị cho

minsup quá lớn cho dử liệu này thì không đảm bảo tìm được số luật theo yêu cầu.

Page 36: Khai phá dử liệu

34

TÀI LIỆU THAM KHẢOTiếng Anh

Ebook:  Jiawei Han, Micheline Kamber. Data Mining: Concepts and

Techniques, 3rd Edition. Boston, Morgan Kaufmann Publishers, 2012.

Website: https://en.wikipedia.org/wiki/Apriori_algorithm

Tiếng Việt

Website: http://bis.net.vn/forums/p/389/683.aspx

Slide: Tập slide bài giảng môn Data Mining , khoa Công Nghệ Thông Tin, Đai

học Tôn Đức Thắng

Page 37: Khai phá dử liệu

35