57
Chương 5: LUẬT KẾT HỢP Association Rules KHAI PHÁ DỮ LIỆU

Ch5 - Luat Ket Hop

Embed Size (px)

Citation preview

Page 1: Ch5 - Luat Ket Hop

Chương 5 LUẬT KẾT HỢP Association Rules

KHAI PHAacute DỮ LIỆU

Page 2

Chương 5 LUẬT KẾT HỢP

KHAacuteI NIỆM

Luật kết hợp (Association Rule)

Chỉ ra mối quan hệ tương quan phổ biến hay mối kết hợp giữa caacutec hạng mục (item) trong tập dữ liệu lớn

Viacute dụ

Hộ Tiện nghi sử dụng

1 Ti vi Maacutey Vitiacutenh

2 Tủ lạnh Maacutey lạnh

3 Tivi Maacuteygiặt Maacuteylạnh

4 Tivi Tủlạnh Maacuteylạnh

5 Tivi Maacuteygiặt MaacuteyVitiacutenh

6 Tivi Tủlạnh Maacuteygiặt

7 Tivi Tủlạnh MaacuteyVitiacutenh

8 Tivi Tủlạnh Maacuteygiặt Maacuteylạnh MaacuteyVitiacutenh

Page 3

Chương 5 LUẬT KẾT HỢP

Viacute dụ với dữ liệu trecircn ta coacute

Tivi Maacuteyvitiacutenh [50 57] hay Maacuteyvitiacutenh Tivi [50 57]

Nghĩa lagrave

ndash ldquo57 hộ gia đigravenh sử dụng Tivi thigrave cũng sử dụng Maacuteyvitiacutenh

ndash Tivi vagrave Maacuteyvitiacutenh xuất hiện chung trong 50 dograveng dữ liệuldquo

Những tri thức nagravey rất quan trọng hỗ trợ phacircn tiacutech dữ liệu trong nhiều lĩnh vực khaacutec nhau

Viacute dụ trong lĩnh vực marketing luật kết hợp dugraveng để phacircn tiacutech chiến lược baacuten hagraveng quản lyacute kho quảng caacuteo

Page 4

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỊNH NGHĨA CƠ BẢN

Tập hạng mục (Item Set)

ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)

ndash Một tập hạng mục (Itemset) X lagrave một tập con của I

ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục

Giao dịch (Transaction)

ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T

ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)

Page 5

Chương 5 LUẬT KẾT HỢP

I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol

Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)

Giao dịch thứ 6Tids(6)=Aspirin Cepacol

Page 6

Chương 5 LUẬT KẾT HỢP

Kyacute hiệu

Viacute dụ X=Aspirin Vitamin C

Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức

Viacute dụSup(Aspirin Vitamin C)=37

||

|)(|)sup(

T

XX

)(|)( kTXkX

741)( X

Page 7

Chương 5 LUẬT KẾT HỢP

Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)

Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu

minsup (lagrave một ngưỡng do người dugraveng xaacutec định

Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)

Caacutec tiacutenh chất của large itemset

Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)

Tiacutenh chất Apriori

ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

)sup(X

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 2: Ch5 - Luat Ket Hop

Page 2

Chương 5 LUẬT KẾT HỢP

KHAacuteI NIỆM

Luật kết hợp (Association Rule)

Chỉ ra mối quan hệ tương quan phổ biến hay mối kết hợp giữa caacutec hạng mục (item) trong tập dữ liệu lớn

Viacute dụ

Hộ Tiện nghi sử dụng

1 Ti vi Maacutey Vitiacutenh

2 Tủ lạnh Maacutey lạnh

3 Tivi Maacuteygiặt Maacuteylạnh

4 Tivi Tủlạnh Maacuteylạnh

5 Tivi Maacuteygiặt MaacuteyVitiacutenh

6 Tivi Tủlạnh Maacuteygiặt

7 Tivi Tủlạnh MaacuteyVitiacutenh

8 Tivi Tủlạnh Maacuteygiặt Maacuteylạnh MaacuteyVitiacutenh

Page 3

Chương 5 LUẬT KẾT HỢP

Viacute dụ với dữ liệu trecircn ta coacute

Tivi Maacuteyvitiacutenh [50 57] hay Maacuteyvitiacutenh Tivi [50 57]

Nghĩa lagrave

ndash ldquo57 hộ gia đigravenh sử dụng Tivi thigrave cũng sử dụng Maacuteyvitiacutenh

ndash Tivi vagrave Maacuteyvitiacutenh xuất hiện chung trong 50 dograveng dữ liệuldquo

Những tri thức nagravey rất quan trọng hỗ trợ phacircn tiacutech dữ liệu trong nhiều lĩnh vực khaacutec nhau

Viacute dụ trong lĩnh vực marketing luật kết hợp dugraveng để phacircn tiacutech chiến lược baacuten hagraveng quản lyacute kho quảng caacuteo

Page 4

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỊNH NGHĨA CƠ BẢN

Tập hạng mục (Item Set)

ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)

ndash Một tập hạng mục (Itemset) X lagrave một tập con của I

ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục

Giao dịch (Transaction)

ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T

ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)

Page 5

Chương 5 LUẬT KẾT HỢP

I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol

Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)

Giao dịch thứ 6Tids(6)=Aspirin Cepacol

Page 6

Chương 5 LUẬT KẾT HỢP

Kyacute hiệu

Viacute dụ X=Aspirin Vitamin C

Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức

Viacute dụSup(Aspirin Vitamin C)=37

||

|)(|)sup(

T

XX

)(|)( kTXkX

741)( X

Page 7

Chương 5 LUẬT KẾT HỢP

Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)

Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu

minsup (lagrave một ngưỡng do người dugraveng xaacutec định

Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)

Caacutec tiacutenh chất của large itemset

Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)

Tiacutenh chất Apriori

ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

)sup(X

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 3: Ch5 - Luat Ket Hop

Page 3

Chương 5 LUẬT KẾT HỢP

Viacute dụ với dữ liệu trecircn ta coacute

Tivi Maacuteyvitiacutenh [50 57] hay Maacuteyvitiacutenh Tivi [50 57]

Nghĩa lagrave

ndash ldquo57 hộ gia đigravenh sử dụng Tivi thigrave cũng sử dụng Maacuteyvitiacutenh

ndash Tivi vagrave Maacuteyvitiacutenh xuất hiện chung trong 50 dograveng dữ liệuldquo

Những tri thức nagravey rất quan trọng hỗ trợ phacircn tiacutech dữ liệu trong nhiều lĩnh vực khaacutec nhau

Viacute dụ trong lĩnh vực marketing luật kết hợp dugraveng để phacircn tiacutech chiến lược baacuten hagraveng quản lyacute kho quảng caacuteo

Page 4

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỊNH NGHĨA CƠ BẢN

Tập hạng mục (Item Set)

ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)

ndash Một tập hạng mục (Itemset) X lagrave một tập con của I

ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục

Giao dịch (Transaction)

ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T

ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)

Page 5

Chương 5 LUẬT KẾT HỢP

I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol

Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)

Giao dịch thứ 6Tids(6)=Aspirin Cepacol

Page 6

Chương 5 LUẬT KẾT HỢP

Kyacute hiệu

Viacute dụ X=Aspirin Vitamin C

Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức

Viacute dụSup(Aspirin Vitamin C)=37

||

|)(|)sup(

T

XX

)(|)( kTXkX

741)( X

Page 7

Chương 5 LUẬT KẾT HỢP

Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)

Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu

minsup (lagrave một ngưỡng do người dugraveng xaacutec định

Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)

Caacutec tiacutenh chất của large itemset

Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)

Tiacutenh chất Apriori

ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

)sup(X

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 4: Ch5 - Luat Ket Hop

Page 4

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỊNH NGHĨA CƠ BẢN

Tập hạng mục (Item Set)

ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)

ndash Một tập hạng mục (Itemset) X lagrave một tập con của I

ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục

Giao dịch (Transaction)

ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T

ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)

Page 5

Chương 5 LUẬT KẾT HỢP

I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol

Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)

Giao dịch thứ 6Tids(6)=Aspirin Cepacol

Page 6

Chương 5 LUẬT KẾT HỢP

Kyacute hiệu

Viacute dụ X=Aspirin Vitamin C

Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức

Viacute dụSup(Aspirin Vitamin C)=37

||

|)(|)sup(

T

XX

)(|)( kTXkX

741)( X

Page 7

Chương 5 LUẬT KẾT HỢP

Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)

Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu

minsup (lagrave một ngưỡng do người dugraveng xaacutec định

Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)

Caacutec tiacutenh chất của large itemset

Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)

Tiacutenh chất Apriori

ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

)sup(X

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 5: Ch5 - Luat Ket Hop

Page 5

Chương 5 LUẬT KẾT HỢP

I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol

Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol

Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)

Giao dịch thứ 6Tids(6)=Aspirin Cepacol

Page 6

Chương 5 LUẬT KẾT HỢP

Kyacute hiệu

Viacute dụ X=Aspirin Vitamin C

Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức

Viacute dụSup(Aspirin Vitamin C)=37

||

|)(|)sup(

T

XX

)(|)( kTXkX

741)( X

Page 7

Chương 5 LUẬT KẾT HỢP

Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)

Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu

minsup (lagrave một ngưỡng do người dugraveng xaacutec định

Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)

Caacutec tiacutenh chất của large itemset

Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)

Tiacutenh chất Apriori

ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

)sup(X

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 6: Ch5 - Luat Ket Hop

Page 6

Chương 5 LUẬT KẾT HỢP

Kyacute hiệu

Viacute dụ X=Aspirin Vitamin C

Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức

Viacute dụSup(Aspirin Vitamin C)=37

||

|)(|)sup(

T

XX

)(|)( kTXkX

741)( X

Page 7

Chương 5 LUẬT KẾT HỢP

Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)

Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu

minsup (lagrave một ngưỡng do người dugraveng xaacutec định

Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)

Caacutec tiacutenh chất của large itemset

Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)

Tiacutenh chất Apriori

ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

)sup(X

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 7: Ch5 - Luat Ket Hop

Page 7

Chương 5 LUẬT KẾT HỢP

Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)

Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu

minsup (lagrave một ngưỡng do người dugraveng xaacutec định

Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)

Caacutec tiacutenh chất của large itemset

Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)

Tiacutenh chất Apriori

ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave

YX nếu sup(X) minsup sup(Y) minsup

)sup(X

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 8: Ch5 - Luat Ket Hop

Page 8

Chương 5 LUẬT KẾT HỢP

Luật kết hợp

Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật

Viacute dụ

Aspirin Vitamin C

AspirinVitaminC Suface

helliphellip

Luật kết hợp chỉ coacute yacute nghĩa khi tần suất

thể hiện mối tương quan giữa caacutec tập

thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 9: Ch5 - Luat Ket Hop

Page 9

Caacutec loại luật kết hợp

1Luật kết hợp logic amp luật kết hợp định lượng

(Boolean vs quantitative associations)

2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều

(Single dimension vs multiple dimensional associations)

3 Luật kết hợp đơn mức amp luật kết hợp đa mức

(Single level vs multiple-level analysis)

Chương 5 LUẬT KẾT HỢP

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 10: Ch5 - Luat Ket Hop

Page 10

Chương 5 LUẬT KẾT HỢP

Độ hỗ trợ của luật kết hợp

Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y

Độ tin cậy của luật kết hợp

Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)

||

|)(|)sup(

T

YXYX

)(

)()(

X

YXYXconf

Tid Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Xeacutet luật kết hợpMilk DiaperrarrBeer

Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 11: Ch5 - Luat Ket Hop

Page 11

Chương 5 LUẬT KẾT HỢP

Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute

1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave

1048713 độ tin cậy ge giaacute trị ngưỡng minconf

Caacutech tiếp cận veacutet cạn (Brute-force)

Liệt kecirc tất cả caacutec luật kết hợp coacute thể

Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật

Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf

Độ phức tạp lagrave hagravem mũ

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 12: Ch5 - Luat Ket Hop

Page 12

Khai phaacute luật kết hợpXeacutet caacutec luật

MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)

TID Items

1 Bread Milk

2 Bread Diaper Beer Eggs

3 Milk Diaper Beer Coke

4 Bread Milk Diaper Beer

5 Bread Milk Diaper Coke

Nhận xeacutet

bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer

bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau

bullCoacute thể xử lyacute độc lập caacutec độ đo

Chương 5 LUẬT KẾT HỢP

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 13: Ch5 - Luat Ket Hop

Page 13

Chương 5 LUẬT KẾT HỢP

Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)

Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)

Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup

Sinh ra caacutec luật kết hợp

Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra

tất cả caacutec luật coacute độ tin cậy cao (ge minconf)

Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)

của một tập mục phổ biến

o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 14: Ch5 - Luat Ket Hop

Page 14

Tập caacutec hạng mục null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Với d mục thigrave coacute 2d tập hạng mục ứng viecircn

Chương 5 LUẬT KẾT HỢP

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 15: Ch5 - Luat Ket Hop

Page 15

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute TẬP PHỔ BIẾN

oThuật toaacuten APRIORI

Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ

null

AB AC AD AE BC BD BE CD CE DE

A B C D E

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 16: Ch5 - Luat Ket Hop

Page 16

Chương 5 LUẬT KẾT HỢP

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 17: Ch5 - Luat Ket Hop

Page 17

Chương 5 LUẬT KẾT HỢP

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 18: Ch5 - Luat Ket Hop

Page 18

TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5

Database Ditemset sup

1 22 33 34 15 3

itemset sup1 22 33 35 3

Scan D

itemset1 21 31 52 32 53 5

itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2

itemset sup1 3 22 3 22 5 33 5 2

Scan D

Scan Ditemset sup2 3 5 2

min_sup=05 (sup ge2)

Chương 5 LUẬT KẾT HỢP

Item set

2 3 5Item set Sup

2 3 5 2

501TC

502TC

502TC

503TC 50

3TC

μT1

μT2

μT3

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 19: Ch5 - Luat Ket Hop

Page 19

Một số lưu yacute về tập ứng viecircn

Giả sử =abc abd acd ace bcd

Kết nối 2 phần tử của

ndash abcd từ abc vagrave abd

ndash acde từ acd vagrave ace

Tỉa nhaacutenh

ndash acde bị xoacutea vigrave ade khocircng thuộc

=abcd

acd ace

acde

acd ace

ade cde X

X

T3

T3

T3

4TC

Chương 5 LUẬT KẾT HỢP

T3

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 20: Ch5 - Luat Ket Hop

Page 20

Viacute dụ về Apriori-gen

Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4

Trong bước tổ hợp

ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4

ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5

ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5

Trong bước tỉa

ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave

1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng

thuộc L3 necircn ứng viecircn nagravey bị loại

Do đoacute chỉ 1 2 3 4 thuộc C4

Chương 5 LUẬT KẾT HỢP

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 21: Ch5 - Luat Ket Hop

Page 21

Chương 5 LUẬT KẾT HỢP

BAgraveI TẬP

Cho tập caacutec hạng mục I = ABCDE

Tập caacutec giao taacutec xaacutec định trecircn I như sau

T1 = ABCDE

T2 = ABC

T3 = DCB

T4 = ABD

T5 = DC

T6 = DCAB

T7 = ABED

Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 22: Ch5 - Luat Ket Hop

Page 22

Chương 5 LUẬT KẾT HỢP

NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN

ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn

ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute

DUYỆT TẬP DỮ LIỆU NHIỀU LẦN

ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần

ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 23: Ch5 - Luat Ket Hop

Page 23

Chương 5 LUẬT KẾT HỢP

HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN

Tăng tốc độ tigravem kiếm vagrave so khớp

Ruacutet gọn số giao dịch

Giảm số lần duyệt tập giao dịch

Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet

Ruacutet gọn tập ứng viecircn

Dựa trecircn cơ sở

Kỹ thuật băm (hash-based technique)

Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến

Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 24: Ch5 - Luat Ket Hop

Page 24

Viacute dụ cho hash-tree đối với C3

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

Chương 5 LUẬT KẾT HỢP

Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 25: Ch5 - Luat Ket Hop

Page 25

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

Hash on 3rd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 26: Ch5 - Luat Ket Hop

Page 26

Hash function mod 3

H

14 25 36

H Hash on 1st item

H H234567

H145

124457

125458

159

345 356689

367368

Hash on 2nd item

12345

12345look for 1XX

2345look for 2XX

345look for 3XX

12345look for 12X

12345look for 13X (null)

12345look for 14X

Viacute dụ cho hash-tree đối với C3

Chương 5 LUẬT KẾT HỢP

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 27: Ch5 - Luat Ket Hop

Page 27

Chương 5 LUẬT KẾT HỢP

Ruacutet gọn giao dịch

Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau

Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo

Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn

Giảm số lần duyệt tập giao dịch

Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di

Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 28: Ch5 - Luat Ket Hop

Page 28

Chương 5 LUẬT KẾT HỢP

Thuật toaacuten tigravem tập phổ biến FP-growth

(JHan JPei YYim -2000)

FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một

cấu truacutec dữ liệu gọi lagrave FP-tree

FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)

Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến

Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy

Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung

Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

Jiawei Han

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 29: Ch5 - Luat Ket Hop

Page 29

Chương 5 LUẬT KẾT HỢP

Xacircy dựng FP-TREE

Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục

1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ

1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ

Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree

Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 30: Ch5 - Luat Ket Hop

Page 30

THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item

Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần

Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj

If (TMP) coacute chứa con lagrave (node Ii)

(node Ii)count++

elseTạo mới (node Ii) lagrave con (TMP)

(TMP) = (node Ii)

Mỗi lần tạo mới một node thigrave nodecount = 1

Chương 5 LUẬT KẾT HỢP

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 31: Ch5 - Luat Ket Hop

Page 31

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần

tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần

trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree

Chương 5 LUẬT KẾT HỢP

Tid Items Items phổ biến

1 facdgimp fcamp

2 abcflmo fcabm

3 bfhjo fb

4 bcksp cbp

5 afcelpmn fcamp

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 32: Ch5 - Luat Ket Hop

Page 32

root

f1

c1

a1

m1

p1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Chương 5 LUẬT KẾT HỢP

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 33: Ch5 - Luat Ket Hop

Page 33

root

f2

c2

a2

m1

p1

b1

m1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 34: Ch5 - Luat Ket Hop

Page 34

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 35: Ch5 - Luat Ket Hop

Page 35

root

f3

c2

a2

m1

p1

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 36: Ch5 - Luat Ket Hop

Page 36

root

f4

c3

a3

m2

p2

b1

m1

b1

Xacircy dựng FP-Tree từ cơ sở dữ liệu

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp c1

b1

p1

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 37: Ch5 - Luat Ket Hop

Page 37

root

f4

c3

a3

m2

p2

b1

m1

b1

c1

b1

p1

Header TableItem frequency head f 4c 4a 3b 3m 3p 3

Item sup count f 4c 4a 3b 3m 3p 3

min_support = 3

Chương 5 LUẬT KẾT HỢP

Tid Items phổ biến

1 fcamp

2 fcabm

3 fb

4 cbp

5 fcamp

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 38: Ch5 - Luat Ket Hop

Page 38

Chương 5 LUẬT KẾT HỢP

LỢI IacuteCH CỦA FP-TREE

Tiacutenh đầy đủ (Completeness)

ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo

ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến

Tiacutenh nhỏ gọn (Compactness)

ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại

ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)

ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ

ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 39: Ch5 - Luat Ket Hop

Page 39

Chương 5 LUẬT KẾT HỢP

KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE

THUẬT TOAacuteN FP-GROWTH

Yacute TƯỞNG Chia để trị (divide-and-conquer)

ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến

1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập

mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ

hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 40: Ch5 - Luat Ket Hop

Page 40

Chương 5 LUẬT KẾT HỢP

Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i

root

f4

c3

a3

m2

p2

b1

m1

Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 41: Ch5 - Luat Ket Hop

Page 41

Thuật toaacuten FP-GROWTH

ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute

ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới

ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn

ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến

Minh họa FP-GROWTH

Chương 5 LUẬT KẾT HỢP

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 42: Ch5 - Luat Ket Hop

Page 42

Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

Cơ sở mẫu điều kiện của p fcam2 cb1

f4

c3

a3

m2

p2

c1

b1

p1

p

Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp

Chương 5 LUẬT KẾT HỢP

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 43: Ch5 - Luat Ket Hop

Page 43

Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở

mẫu điều kiện (conditional pattern base)

f4

c3

a3

m2

m

m1

b1

m-conditional pattern base

fca2 fcab1

f3

c3

a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)

Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam

Chương 5 LUẬT KẾT HỢP

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 44: Ch5 - Luat Ket Hop

Page 44

EmptyEmptyf

(f3)|c(f3)c

(f3 c3)|a(fc3)a

Empty(fca1) (f1) (c1)b

(f3 c3 a3)|m(fca2) (fcab1)m

(c3)|p(fcam2) (cb1)p

Conditional FP-treeConditional pattern-baseItem

Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện

Chương 5 LUẬT KẾT HỢP

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 45: Ch5 - Luat Ket Hop

Page 45

Chương 5 LUẬT KẾT HỢP

CƠ SỞ SINH MẪU PHỔ BIẾN

Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B

Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B

Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 46: Ch5 - Luat Ket Hop

Page 46

Chương 5 LUẬT KẾT HỢP

KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 47: Ch5 - Luat Ket Hop

Page 47

Chương 5 LUẬT KẾT HỢP

ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH

Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL

Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn

Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 48: Ch5 - Luat Ket Hop

Page 48

Chương 5 LUẬT KẾT HỢP

KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN

Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu

1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB

1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 49: Ch5 - Luat Ket Hop

Page 49

Chương 5 LUẬT KẾT HỢP

Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả

1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)

conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)

1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD

conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)

1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 50: Ch5 - Luat Ket Hop

Page 50

ABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Lattice of rulesABCD=gt

BCD=gtA ACD=gtB ABD=gtC ABC=gtD

BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD

D=gtABC C=gtABD B=gtACD A=gtBCD

Pruned Rules

Low Confidence Rule

Chương 5 LUẬT KẾT HỢP

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 51: Ch5 - Luat Ket Hop

Page 51

Chương 5 LUẬT KẾT HỢP

Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)

CD=gtAB BD=gtAC

1048713 Viacute dụ Kết hợp 2 luật

(CD=gtAB BD=gtAC)

sẽ sinh ra luật cần xeacutet

D =gt ABC

1048713 Loại bỏ luật D=gtABC nếu bất kỳ một

luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)

BD=gtACCD=gtAB

D=gtABC

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 52: Ch5 - Luat Ket Hop

Page 52

Chương 5 LUẬT KẾT HỢP

CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP

ĐỘ ĐO LIFT L R

Chỉ ra sự tương quan giữa L vagrave R

Trong đoacute N lagrave số giao dịch

Yacute nghĩa của độ đo

oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)

oLift(L R)=1 L R khocircng tương quan

oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)

Chuacute yacute Lift(LR) = Lift(RL)

)()(

)(

)(

)|(

)()(

)()(

RPLP

LRP

RP

LRP

NRcountLcount

RLcountRLLift

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 53: Ch5 - Luat Ket Hop

Page 53

Chương 5 LUẬT KẾT HỢP

ĐỘ ĐO LEVERAGE L R

Leverage (LR) = sup(LR) ndash sup(L)sup(R)

Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao

Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập

Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos

Khai phaacute luật với min_sup=30 vagrave min_conf=60

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 54: Ch5 - Luat Ket Hop

Page 54

Chương 5 LUẬT KẾT HỢP

Luật kết hợp khai phaacute được

ldquocomputer games videos [support=40 confidence=66]

Ta coacute P(Computer game) = 06 P(video) = 075

P(Computer game video)= 04

Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1

Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video

Tương tự luật ldquoMusic CD videos [support=30 confidence=66]

Lift(Music CD videos) = 098 Tuy nhiecircn

Leverage(Computer game video) = 04 ndash 06075 = - 005

Leverage(Music CD video) = 03- 045075 = - 00375

Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 55: Ch5 - Luat Ket Hop

Page 55

Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến

- AprioriTid Apriori Hybird

- AIS SETM DHP DIC

Tham khảo caacutec độ quan tacircm

Subjective measures (Silberschatz amp Tuzhilin KDD95)

A rule (pattern) is interesting if

it is unexpected (surprising to the user) andor

actionable (the user can do something with it)

Chương 5 LUẬT KẾT HỢP

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 56: Ch5 - Luat Ket Hop

Page 56

Chương 5 LUẬT KẾT HỢP

TAgraveI LIỆU THAM KHẢO THEcircM

ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma

ndash Principles of Data Mining Max Bramer

ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan

ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei
Page 57: Ch5 - Luat Ket Hop

Caacutem ơn sự theo dotildei

  • Chương 5 LUẬT KẾT HỢP Association Rules
  • Caacutem ơn sự theo dotildei