Upload
nguyen-gia-tri
View
102
Download
0
Embed Size (px)
Citation preview
Chương 5 LUẬT KẾT HỢP Association Rules
KHAI PHAacute DỮ LIỆU
Page 2
Chương 5 LUẬT KẾT HỢP
KHAacuteI NIỆM
Luật kết hợp (Association Rule)
Chỉ ra mối quan hệ tương quan phổ biến hay mối kết hợp giữa caacutec hạng mục (item) trong tập dữ liệu lớn
Viacute dụ
Hộ Tiện nghi sử dụng
1 Ti vi Maacutey Vitiacutenh
2 Tủ lạnh Maacutey lạnh
3 Tivi Maacuteygiặt Maacuteylạnh
4 Tivi Tủlạnh Maacuteylạnh
5 Tivi Maacuteygiặt MaacuteyVitiacutenh
6 Tivi Tủlạnh Maacuteygiặt
7 Tivi Tủlạnh MaacuteyVitiacutenh
8 Tivi Tủlạnh Maacuteygiặt Maacuteylạnh MaacuteyVitiacutenh
Page 3
Chương 5 LUẬT KẾT HỢP
Viacute dụ với dữ liệu trecircn ta coacute
Tivi Maacuteyvitiacutenh [50 57] hay Maacuteyvitiacutenh Tivi [50 57]
Nghĩa lagrave
ndash ldquo57 hộ gia đigravenh sử dụng Tivi thigrave cũng sử dụng Maacuteyvitiacutenh
ndash Tivi vagrave Maacuteyvitiacutenh xuất hiện chung trong 50 dograveng dữ liệuldquo
Những tri thức nagravey rất quan trọng hỗ trợ phacircn tiacutech dữ liệu trong nhiều lĩnh vực khaacutec nhau
Viacute dụ trong lĩnh vực marketing luật kết hợp dugraveng để phacircn tiacutech chiến lược baacuten hagraveng quản lyacute kho quảng caacuteo
Page 4
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỊNH NGHĨA CƠ BẢN
Tập hạng mục (Item Set)
ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)
ndash Một tập hạng mục (Itemset) X lagrave một tập con của I
ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục
Giao dịch (Transaction)
ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T
ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)
Page 5
Chương 5 LUẬT KẾT HỢP
I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol
Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)
Giao dịch thứ 6Tids(6)=Aspirin Cepacol
Page 6
Chương 5 LUẬT KẾT HỢP
Kyacute hiệu
Viacute dụ X=Aspirin Vitamin C
Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức
Viacute dụSup(Aspirin Vitamin C)=37
||
|)(|)sup(
T
XX
)(|)( kTXkX
741)( X
Page 7
Chương 5 LUẬT KẾT HỢP
Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)
Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu
minsup (lagrave một ngưỡng do người dugraveng xaacutec định
Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)
Caacutec tiacutenh chất của large itemset
Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)
Tiacutenh chất Apriori
ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
)sup(X
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 2
Chương 5 LUẬT KẾT HỢP
KHAacuteI NIỆM
Luật kết hợp (Association Rule)
Chỉ ra mối quan hệ tương quan phổ biến hay mối kết hợp giữa caacutec hạng mục (item) trong tập dữ liệu lớn
Viacute dụ
Hộ Tiện nghi sử dụng
1 Ti vi Maacutey Vitiacutenh
2 Tủ lạnh Maacutey lạnh
3 Tivi Maacuteygiặt Maacuteylạnh
4 Tivi Tủlạnh Maacuteylạnh
5 Tivi Maacuteygiặt MaacuteyVitiacutenh
6 Tivi Tủlạnh Maacuteygiặt
7 Tivi Tủlạnh MaacuteyVitiacutenh
8 Tivi Tủlạnh Maacuteygiặt Maacuteylạnh MaacuteyVitiacutenh
Page 3
Chương 5 LUẬT KẾT HỢP
Viacute dụ với dữ liệu trecircn ta coacute
Tivi Maacuteyvitiacutenh [50 57] hay Maacuteyvitiacutenh Tivi [50 57]
Nghĩa lagrave
ndash ldquo57 hộ gia đigravenh sử dụng Tivi thigrave cũng sử dụng Maacuteyvitiacutenh
ndash Tivi vagrave Maacuteyvitiacutenh xuất hiện chung trong 50 dograveng dữ liệuldquo
Những tri thức nagravey rất quan trọng hỗ trợ phacircn tiacutech dữ liệu trong nhiều lĩnh vực khaacutec nhau
Viacute dụ trong lĩnh vực marketing luật kết hợp dugraveng để phacircn tiacutech chiến lược baacuten hagraveng quản lyacute kho quảng caacuteo
Page 4
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỊNH NGHĨA CƠ BẢN
Tập hạng mục (Item Set)
ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)
ndash Một tập hạng mục (Itemset) X lagrave một tập con của I
ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục
Giao dịch (Transaction)
ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T
ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)
Page 5
Chương 5 LUẬT KẾT HỢP
I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol
Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)
Giao dịch thứ 6Tids(6)=Aspirin Cepacol
Page 6
Chương 5 LUẬT KẾT HỢP
Kyacute hiệu
Viacute dụ X=Aspirin Vitamin C
Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức
Viacute dụSup(Aspirin Vitamin C)=37
||
|)(|)sup(
T
XX
)(|)( kTXkX
741)( X
Page 7
Chương 5 LUẬT KẾT HỢP
Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)
Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu
minsup (lagrave một ngưỡng do người dugraveng xaacutec định
Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)
Caacutec tiacutenh chất của large itemset
Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)
Tiacutenh chất Apriori
ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
)sup(X
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 3
Chương 5 LUẬT KẾT HỢP
Viacute dụ với dữ liệu trecircn ta coacute
Tivi Maacuteyvitiacutenh [50 57] hay Maacuteyvitiacutenh Tivi [50 57]
Nghĩa lagrave
ndash ldquo57 hộ gia đigravenh sử dụng Tivi thigrave cũng sử dụng Maacuteyvitiacutenh
ndash Tivi vagrave Maacuteyvitiacutenh xuất hiện chung trong 50 dograveng dữ liệuldquo
Những tri thức nagravey rất quan trọng hỗ trợ phacircn tiacutech dữ liệu trong nhiều lĩnh vực khaacutec nhau
Viacute dụ trong lĩnh vực marketing luật kết hợp dugraveng để phacircn tiacutech chiến lược baacuten hagraveng quản lyacute kho quảng caacuteo
Page 4
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỊNH NGHĨA CƠ BẢN
Tập hạng mục (Item Set)
ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)
ndash Một tập hạng mục (Itemset) X lagrave một tập con của I
ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục
Giao dịch (Transaction)
ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T
ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)
Page 5
Chương 5 LUẬT KẾT HỢP
I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol
Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)
Giao dịch thứ 6Tids(6)=Aspirin Cepacol
Page 6
Chương 5 LUẬT KẾT HỢP
Kyacute hiệu
Viacute dụ X=Aspirin Vitamin C
Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức
Viacute dụSup(Aspirin Vitamin C)=37
||
|)(|)sup(
T
XX
)(|)( kTXkX
741)( X
Page 7
Chương 5 LUẬT KẾT HỢP
Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)
Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu
minsup (lagrave một ngưỡng do người dugraveng xaacutec định
Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)
Caacutec tiacutenh chất của large itemset
Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)
Tiacutenh chất Apriori
ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
)sup(X
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 4
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỊNH NGHĨA CƠ BẢN
Tập hạng mục (Item Set)
ndash Giả sử I lagrave một tập hữu hạn mỗi phần tử của I gọi lagrave một hạng mục (Item)
ndash Một tập hạng mục (Itemset) X lagrave một tập con của I
ndash Một tập hạng mục mức k (k_itemset) X nếu X chứa k hạng mục
Giao dịch (Transaction)
ndash Một tập caacutec giao dịch xaacutec định trecircn I lagrave một aacutenh xạ T 12n P(I) Tập T(k) lagrave giao dịch thứ k của T
ndash Caacutec số 1n lagrave caacutec định danh giao dịch (tids)
Page 5
Chương 5 LUẬT KẾT HỢP
I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol
Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)
Giao dịch thứ 6Tids(6)=Aspirin Cepacol
Page 6
Chương 5 LUẬT KẾT HỢP
Kyacute hiệu
Viacute dụ X=Aspirin Vitamin C
Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức
Viacute dụSup(Aspirin Vitamin C)=37
||
|)(|)sup(
T
XX
)(|)( kTXkX
741)( X
Page 7
Chương 5 LUẬT KẾT HỢP
Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)
Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu
minsup (lagrave một ngưỡng do người dugraveng xaacutec định
Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)
Caacutec tiacutenh chất của large itemset
Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)
Tiacutenh chất Apriori
ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
)sup(X
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 5
Chương 5 LUẬT KẾT HỢP
I=Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Hạng mục (Item)Aspirin Vitamin C Sudafed Tylenon Suface Cepacol
Tập hạng mục (Itemset) X IViacute dụX= Sudafed Tylenon Suface Cepacol
Tập hạng mục mức k (k- Itemset)Viacute dụAspirin Vitamin C Sudafed lagrave tập hạng mục mức 3 (3-Itemset)Vitamin C Tylenon lagrave tập hạng mục mức 2 2-Itemset)
Giao dịch thứ 6Tids(6)=Aspirin Cepacol
Page 6
Chương 5 LUẬT KẾT HỢP
Kyacute hiệu
Viacute dụ X=Aspirin Vitamin C
Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức
Viacute dụSup(Aspirin Vitamin C)=37
||
|)(|)sup(
T
XX
)(|)( kTXkX
741)( X
Page 7
Chương 5 LUẬT KẾT HỢP
Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)
Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu
minsup (lagrave một ngưỡng do người dugraveng xaacutec định
Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)
Caacutec tiacutenh chất của large itemset
Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)
Tiacutenh chất Apriori
ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
)sup(X
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 6
Chương 5 LUẬT KẾT HỢP
Kyacute hiệu
Viacute dụ X=Aspirin Vitamin C
Độ hỗ trợ (Support)Độ hỗ trợ của một itemset X kyacute hiệu lagrave sup(X) được xaacutec định bởi cocircng thức
Viacute dụSup(Aspirin Vitamin C)=37
||
|)(|)sup(
T
XX
)(|)( kTXkX
741)( X
Page 7
Chương 5 LUẬT KẾT HỢP
Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)
Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu
minsup (lagrave một ngưỡng do người dugraveng xaacutec định
Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)
Caacutec tiacutenh chất của large itemset
Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)
Tiacutenh chất Apriori
ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
)sup(X
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 7
Chương 5 LUẬT KẾT HỢP
Tập phổ biến tập thường xuyecircn (Large itemset frequent itemset)
Một itemset X được gọi lagrave tập phổ biến hay tập thường xuyecircn nếu
minsup (lagrave một ngưỡng do người dugraveng xaacutec định
Cyacute ngược lại thigrave X được gọi lagrave tập khocircng phổ biến (small itemset)
Caacutec tiacutenh chất của large itemset
Nếu AB vagrave A B lagrave caacutec Itemset thigrave sup(A) sup(B)
Tiacutenh chất Apriori
ndash Mọi tập con của một tập phổ biến đều phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
ndash Mọi tập mẹ của tập khocircng phổ biến đều khocircng phổ biến nghĩa lagrave
YX nếu sup(X) minsup sup(Y) minsup
)sup(X
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 8
Chương 5 LUẬT KẾT HỢP
Luật kết hợp
Một luật kết hợp lagrave một cocircng thức coacute dạng X Y trong đoacute XY lagrave hai itemset (X I Y I) thỏa XY= X được gọi lagrave tiền đề vagrave Y được gọi lagrave hệ quả của luật
Viacute dụ
Aspirin Vitamin C
AspirinVitaminC Suface
helliphellip
Luật kết hợp chỉ coacute yacute nghĩa khi tần suất
thể hiện mối tương quan giữa caacutec tập
thuộc tiacutenh lagrave lớn hơn một ngưỡng nagraveo đoacute
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 9
Caacutec loại luật kết hợp
1Luật kết hợp logic amp luật kết hợp định lượng
(Boolean vs quantitative associations)
2 Luật kết hợp đơn chiều amp luật kết hợp đa chiều
(Single dimension vs multiple dimensional associations)
3 Luật kết hợp đơn mức amp luật kết hợp đa mức
(Single level vs multiple-level analysis)
Chương 5 LUẬT KẾT HỢP
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 10
Chương 5 LUẬT KẾT HỢP
Độ hỗ trợ của luật kết hợp
Độ hỗ trợ của một luật X Y kyacute hiệu sup(X Y) lagrave khả năng magrave tập giao dịch T hỗ trợ cho caacutec thuộc tiacutenh trong cả X vagrave Y
Độ tin cậy của luật kết hợp
Độ tin cậy của một luật X Y kyacute hiệu conf(X Y) lagrave xaacutec suất coacute điều kiện P(Y|X)
||
|)(|)sup(
T
YXYX
)(
)()(
X
YXYXconf
Tid Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Xeacutet luật kết hợpMilk DiaperrarrBeer
Caacutec độ đoSup(Milk DiaperrarrBeer)=25Conf((Milk DiaperrarrBeer)=23
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 11
Chương 5 LUẬT KẾT HỢP
Với một tập caacutec giao dịch T mục điacutech của bagravei toaacuten phaacutet hiện luật kết hợp lagrave tigravem ra tất cả caacutec luật coacute
1048713 độ hỗ trợ ge giaacute trị ngưỡng minsup vagrave
1048713 độ tin cậy ge giaacute trị ngưỡng minconf
Caacutech tiếp cận veacutet cạn (Brute-force)
Liệt kecirc tất cả caacutec luật kết hợp coacute thể
Tiacutenh toaacuten độ hỗ trợ vagrave độ tin cậy cho mỗi luật
Loại bỏ đi caacutec luật coacute độ hỗ trợ nhỏ hơn minsup hoặc coacute độ tin cậy nhỏ hơn minconf
Độ phức tạp lagrave hagravem mũ
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 12
Khai phaacute luật kết hợpXeacutet caacutec luật
MilkDiaper Beer (s=04 c=067)MilkBeer Diaper (s=04 c=10)DiaperBeer Milk (s=04 c=067)Beer MilkDiaper (s=04 c=067) Diaper MilkBeer (s=04 c=05) Milk DiaperBeer (s=04 c=05)
TID Items
1 Bread Milk
2 Bread Diaper Beer Eggs
3 Milk Diaper Beer Coke
4 Bread Milk Diaper Beer
5 Bread Milk Diaper Coke
Nhận xeacutet
bull Tất cả caacutec luật trecircn được sinh ra từ (chỉ) 1 tập caacutec hạng mụcMilk Diaper Beer
bull Tuy được sinh từ cugraveng mocirct tập hạng mục nhưng giaacute trị caacutec độ đo cugraveng độ hỗ trợ độ tin cậy lagrave khaacutec nhau
bullCoacute thể xử lyacute độc lập caacutec độ đo
Chương 5 LUẬT KẾT HỢP
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 13
Chương 5 LUẬT KẾT HỢP
Khai phaacute luật kết hợp tiến hagravenh 2 giai đoạn (bước)
Sinh ra caacutec tập mục phổ biến (frequentlarge itemsets)
Sinh ra tất cả caacutec tập mục coacute độ hỗ trợ ge minsup
Sinh ra caacutec luật kết hợp
Từ mỗi tập mục phổ biến (thu được ở bước trecircn) sinh ra
tất cả caacutec luật coacute độ tin cậy cao (ge minconf)
Mỗi luật lagrave một phacircn taacutech nhị phacircn (phacircn taacutech thagravenh 2 phần)
của một tập mục phổ biến
o Bước sinh ra caacutec tập mục phổ biến (bước thứ 1) coacute độ phức tạp cao
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 14
Tập caacutec hạng mục null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Với d mục thigrave coacute 2d tập hạng mục ứng viecircn
Chương 5 LUẬT KẾT HỢP
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 15
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute TẬP PHỔ BIẾN
oThuật toaacuten APRIORI
Thuật toaacuten do Agrawal đề nghị năm 1994 yacute tưởng của thuật toaacuten dựa vagraveo tiacutenh chất Apriori caacutec ứng viecircn k+1_itemset coacute độ hỗ trợ phải được sinh ra từ caacutec k_itemset coacute độ hỗ trợ
null
AB AC AD AE BC BD BE CD CE DE
A B C D E
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 16
Chương 5 LUẬT KẾT HỢP
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 17
Chương 5 LUẬT KẾT HỢP
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 18
TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5
Database Ditemset sup
1 22 33 34 15 3
itemset sup1 22 33 35 3
Scan D
itemset1 21 31 52 32 53 5
itemset sup1 2 11 3 21 5 12 3 22 5 33 5 2
itemset sup1 3 22 3 22 5 33 5 2
Scan D
Scan Ditemset sup2 3 5 2
min_sup=05 (sup ge2)
Chương 5 LUẬT KẾT HỢP
Item set
2 3 5Item set Sup
2 3 5 2
501TC
502TC
502TC
503TC 50
3TC
μT1
μT2
μT3
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 19
Một số lưu yacute về tập ứng viecircn
Giả sử =abc abd acd ace bcd
Kết nối 2 phần tử của
ndash abcd từ abc vagrave abd
ndash acde từ acd vagrave ace
Tỉa nhaacutenh
ndash acde bị xoacutea vigrave ade khocircng thuộc
=abcd
acd ace
acde
acd ace
ade cde X
X
T3
T3
T3
4TC
Chương 5 LUẬT KẾT HỢP
T3
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 20
Viacute dụ về Apriori-gen
Giả sử L3 lagrave 1 2 3 1 2 4 1 3 4 1 3 5 2 3 4
Trong bước tổ hợp
ndash 1 2 3 kết hợp 1 2 4 sinh ra 1 2 3 4
ndash 1 3 4 kết hợp 1 3 5 sinh ra 1 3 4 5
ndash Sau bước nagravey C4 sẽ lagrave 1 2 3 4 1 3 4 5
Trong bước tỉa
ndash 1 2 3 4 chứa caacutec 3-item subsets thuộc L3 lagrave
1 2 3 1 3 4 and 2 3 4ndash 1 3 4 5 coacute tổ hợp 1 3 4 1 4 5 vagrave 3 4 5 do coacute 1 4 5 khocircng
thuộc L3 necircn ứng viecircn nagravey bị loại
Do đoacute chỉ 1 2 3 4 thuộc C4
Chương 5 LUẬT KẾT HỢP
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 21
Chương 5 LUẬT KẾT HỢP
BAgraveI TẬP
Cho tập caacutec hạng mục I = ABCDE
Tập caacutec giao taacutec xaacutec định trecircn I như sau
T1 = ABCDE
T2 = ABC
T3 = DCB
T4 = ABD
T5 = DC
T6 = DCAB
T7 = ABED
Tigravem caacutec tập phổ biến coacute độ hỗ trợ ge 05 (Số lần xuất hiện ge 4)
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 22
Chương 5 LUẬT KẾT HỢP
NHẬN XEacuteT THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
TẠO RA QUAacute NHIỀU TẬP ỨNG VIEcircN
ndash 104 tập phổ biến 1 phần tử (1-Itemset) sẽ sinh ra nhiều hơn 107 (asymp104(104-1)2) tập 2-itemsets ứng viecircn
ndash Một tập k-itemset cần iacutet nhất 2k -1 itemsets ứng viecircn trước đoacute
DUYỆT TẬP DỮ LIỆU NHIỀU LẦN
ndash Chi phiacute lớn khi kiacutech thước caacutec itemsets tăng lecircn dần
ndash Muốn tigravem được một k-itemsets phổ biến thigrave cần duyệt tập dữ liệu k+1 lần
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 23
Chương 5 LUẬT KẾT HỢP
HƯỚNG CẢI THIỆN THUẬT TOAacuteN APRIORI KHAI PHAacute TẬP PHỔ BIẾN
Tăng tốc độ tigravem kiếm vagrave so khớp
Ruacutet gọn số giao dịch
Giảm số lần duyệt tập giao dịch
Ruacutet gọn số tập con caacutec giao dịch phải xem xeacutet
Ruacutet gọn tập ứng viecircn
Dựa trecircn cơ sở
Kỹ thuật băm (hash-based technique)
Giảm số lần duyệt qua tất cả caacutec k-1 Itemset phổ biến khi cần phaacutet hiện k-itemset phổ biến
Khocircng cần liệt kecirc tất cả caacutec tập con k phần tử của caacutec giao dịch
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 24
Viacute dụ cho hash-tree đối với C3
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
Chương 5 LUẬT KẾT HỢP
Xeacutet tập caacutec ứng viecircn 124 125 145 159 234 345 356 367 368 457 458 567 689
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 25
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
Hash on 3rd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 26
Hash function mod 3
H
14 25 36
H Hash on 1st item
H H234567
H145
124457
125458
159
345 356689
367368
Hash on 2nd item
12345
12345look for 1XX
2345look for 2XX
345look for 3XX
12345look for 12X
12345look for 13X (null)
12345look for 14X
Viacute dụ cho hash-tree đối với C3
Chương 5 LUẬT KẾT HỢP
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 27
Chương 5 LUẬT KẾT HỢP
Ruacutet gọn giao dịch
Một giao dịch khocircng chứa k-itemset phổ biến nagraveo thigrave khocircng cần xeacutet để phaacutet hiện caacutec K+i ndash itemset ở caacutec lần sau
Xoacutea caacutec giao dịch magrave caacutec item khocircng lagrave thagravenh viecircn của bất kỳ k-itemset ứng viecircn nagraveo
Cyacute Việc ruacutet gọn tập giao dịch lagravem caacutec thao taacutec đọc vagrave xử lyacute iacutet hơn nhưng caacutec thao taacutec ghi đĩa nhiều lecircn
Giảm số lần duyệt tập giao dịch
Phacircn hoạch tập giao dịch D thagravenh m thagravenh phần Di i=1m (Mỗi thagravenh phần coacute kiacutech thước phugrave hợp với dung lượng bộ nhớ) Tigravem tập caacutec phổ biến Fi trong caacutec thagravenh phần Di
Hợp caacutec Fi tạo thagravenh tập caacutec ứng viecircn trong D (Một phổ biến trong D thigrave noacute phải lagrave phổ biến trong Di )
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 28
Chương 5 LUẬT KẾT HỢP
Thuật toaacuten tigravem tập phổ biến FP-growth
(JHan JPei YYim -2000)
FP-Growth biểu diễn dữ liệu caacutec giao dịch bằng một
cấu truacutec dữ liệu gọi lagrave FP-tree
FP-Growth sử dụng cấu truacutec FP-tree để xaacutec định trực tiếp caacutec tập hạng mục phổ biến (khocircng sinh caacutec tập hạng mục ứng viecircn từ caacutec tập hạng mục ứng viecircn trước)
Khi một FP-tree đatilde được xacircy dựng FP-Growth sử dụng caacutech tiếp cận chia để trị đệ quy để khai thaacutec caacutec tập phổ biến
Với mỗi giao dịch FP-tree xacircy dựng một đường đi (path) trong cacircy
Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung
Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
Jiawei Han
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 29
Chương 5 LUẬT KẾT HỢP
Xacircy dựng FP-TREE
Ban đầu FP-tree chỉ chứa duy nhất nuacutet gốc (được biểu diễn bởi kyacute hiệu null)
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 1 để xaacutec định (tiacutenh) độ hỗ trợ của mỗi mục
1048708 Caacutec mục khocircng thường xuyecircn (infrequent items) bị loại bỏ
1048708 Caacutec mục thường xuyecircn (frequent items) được sắp xếp theo thứ tự giảm dần về độ hỗ trợ
Cơ sở dữ liệu caacutec giao dịch được duyệt lần thứ 2 để xacircy dựng FP-tree
Thuật toaacuten nagravey phugrave hợp khi bộ nhớ đủ để lưu trữ cấu truacutec FP-tree Dữ liệu khocircng lớn
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 30
THUẬT TOAacuteN XAcircY DỰNG FP-TREETừ tập giao dịch D tiacutenh sup-count của mỗi Item
Xacircy dựng tập giao dịch Drsquo từ D chứa caacutec giao dịch của D sau khi loại caacutec Item coacute sup-count lt min-sup-count caacutec giao dịch caacutec item được xếp sup-count theo thứ tự giảm dần
Tạo cacircy với gốc lagrave null ~ TRCho (TMP) = (TRgốc)For each Tid(j) Drsquo For i = 1 to |Tid(j)| do For each Ii Tj
If (TMP) coacute chứa con lagrave (node Ii)
(node Ii)count++
elseTạo mới (node Ii) lagrave con (TMP)
(TMP) = (node Ii)
Mỗi lần tạo mới một node thigrave nodecount = 1
Chương 5 LUẬT KẾT HỢP
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 31
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Caacutec bước1 Duyệt DB lần thứ nhất tigravem caacutec tập phổ biến 1 phần
tử (single item patterns)2 Sắp xếp caacutec mục phổ biến theo thứ tự giảm dần
trong mỗi giao dịch3 Duyệt DB đẻ xacircy dựng FP-tree
Chương 5 LUẬT KẾT HỢP
Tid Items Items phổ biến
1 facdgimp fcamp
2 abcflmo fcabm
3 bfhjo fb
4 bcksp cbp
5 afcelpmn fcamp
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 32
root
f1
c1
a1
m1
p1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Chương 5 LUẬT KẾT HỢP
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 33
root
f2
c2
a2
m1
p1
b1
m1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 34
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 35
root
f3
c2
a2
m1
p1
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 36
root
f4
c3
a3
m2
p2
b1
m1
b1
Xacircy dựng FP-Tree từ cơ sở dữ liệu
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp c1
b1
p1
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 37
root
f4
c3
a3
m2
p2
b1
m1
b1
c1
b1
p1
Header TableItem frequency head f 4c 4a 3b 3m 3p 3
Item sup count f 4c 4a 3b 3m 3p 3
min_support = 3
Chương 5 LUẬT KẾT HỢP
Tid Items phổ biến
1 fcamp
2 fcabm
3 fb
4 cbp
5 fcamp
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 38
Chương 5 LUẬT KẾT HỢP
LỢI IacuteCH CỦA FP-TREE
Tiacutenh đầy đủ (Completeness)
ndash Khocircng phaacute vỡ caacutec mẫu dagravei của bất kỳ giao dịch nagraveo
ndash Lưu giữ thocircng tin đầy đủ để khai thaacutec caacutec mẫu phổ biến
Tiacutenh nhỏ gọn (Compactness)
ndash Ruacutet gọn caacutec thocircng tin khocircng thiacutech hợp mdash caacutec item khocircng phổ biến bị loại
ndash Hai giao dịch coacute chứa cugraveng một số caacutec mục thigrave đường đi của chuacuteng sẽ coacute phần (đoạn) chung Cagraveng nhiều caacutec đường đi coacute caacutec phần chung thigrave việc biểu diễn bằng FP-tree sẽ cagraveng gọn (compressedcompacted)
ndash Nếu kiacutech thước của FP-tree đủ nhỏ để coacute thể lưu trữ trong bộ nhớ lagravem việc thigrave giải thuật FP-Growth coacute thể xaacutec định caacutec tập mục thường xuyecircn trực tiếp từ FP-tree lưu trong bộ nhớ
ndash Khocircng cần phải lặp lại việc duyệt dữ liệu lưu trecircn ổ cứng
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 39
Chương 5 LUẬT KẾT HỢP
KHAI THAacuteC CAacuteC MẪU PHỔ BIẾN TỪ FP-TREE
THUẬT TOAacuteN FP-GROWTH
Yacute TƯỞNG Chia để trị (divide-and-conquer)
ndash Sử dụng FP-tree phaacutet triển đệ qui caacutec mẫu phổ biến
1048713 Viacute dụ cần tigravem tất cả caacutec tập mục thường xuyecircn kết thuacutec bởi e Trước hết kiểm tra tập mục mức 1 (e) coacute phải lagrave tập mục thường xuyecircn1048708 Nếu noacute lagrave tập mục thường xuyecircn xeacutet caacutec bagravei toaacuten con tigravem tất cả caacutec tập
mục thường xuyecircn kết thuacutec bởi dehellip bởi cehellipbởi behellipvagrave bởi ae1048708 Mỗi bagravei toaacuten con necircu trecircn lại được phacircn taacutech thagravenh caacutec bagravei toaacuten con nhỏ
hơnhellip1048708 Kết hợp caacutec lời giải của caacutec bagravei toaacuten con chuacuteng ta sẽ thu đượccaacutec tập mục thường xuyecircn kết thuacutec bởi e
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 40
Chương 5 LUẬT KẾT HỢP
Tiacutenh chất Bất kỳ mẫu phổ biến nagraveo coacute chứa mục Ii đều được chứa trecircn caacutec nhaacutenh (đường dẫn) của cacircy FP-tree chứa Ii số lần xuất hiện của mẫu chứa caacutec nuacutet trong đường dẫn tiền tố bằng số lần xuất hiện của nuacutet I i
root
f4
c3
a3
m2
p2
b1
m1
Bất cứ mẫu phổ biến nagraveo chứa pfpcpapmp fcp fap fmp cap cmp ampfcap fcmp famp camp fcamp Đều coacute số lần xuất hiện lagrave 2
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 41
Thuật toaacuten FP-GROWTH
ndash Đối với mỗi mục (item) xacircy dựng caacutec cơ sở mẫu điều kiện (conditional pattern-base) vagrave sau đoacute lagrave caacutec FP-TREE điều kiện (conditional FP-tree) của noacute
ndash Lặp quaacute trigravenh nagravey để tạo lập caacutec FP-TREE điều kiện mới
ndash Cho đến khi cacircy FP-TREE kết quả lagrave rỗng hoặc chỉ chứa một đường dẫn
ndash Tổ hợp caacutec FP-TREE điều kiện (đệ qui) để sinh ra caacutec mẫu phổ biến
Minh họa FP-GROWTH
Chương 5 LUẬT KẾT HỢP
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 42
Bắt đầu với mục (item) cuối cugraveng trong bảng tổng sắp (trong vd trecircn lagrave p) Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục (item p) Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
Cơ sở mẫu điều kiện của p fcam2 cb1
f4
c3
a3
m2
p2
c1
b1
p1
p
Xacircy dựng một FP- TREE điều kiện từ mẫu nagravey bằng caacutech trộn tất cả caacutec đường dẫn vagrave giữ lại caacutec nuacutet coacute tổng caacutec số đếm sup Điều nagravey dẫn đến chỉ coacute một nhaacutenh c3Do đoacute suy caacutec mẫu phổ biến chứa p lagrave p cp
Chương 5 LUẬT KẾT HỢP
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 43
Đến mục cận cuối trong bảng sắp thứ tự lagrave m Theo caacutec con trỏ nuacutet thăm caacutec đường dẫn chứa mục m Tập hợp tất caacutec caacutec đường dẫn tiền tố của mục xacircy dựng necircn caacutec cơ sở
mẫu điều kiện (conditional pattern base)
f4
c3
a3
m2
m
m1
b1
m-conditional pattern base
fca2 fcab1
f3
c3
a3m-conditional FP-tree (chỉ bao gồm đường dẫn fca3)
Tất cả mẫu phổ biến chứa mm fm cm am fcm fam cam fcam
Chương 5 LUẬT KẾT HỢP
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 44
EmptyEmptyf
(f3)|c(f3)c
(f3 c3)|a(fc3)a
Empty(fca1) (f1) (c1)b
(f3 c3 a3)|m(fca2) (fcab1)m
(c3)|p(fcam2) (cb1)p
Conditional FP-treeConditional pattern-baseItem
Kết quả cơ sở mẫu điều kiện amp FP-TREE điều kiện
Chương 5 LUẬT KẾT HỢP
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 45
Chương 5 LUẬT KẾT HỢP
CƠ SỞ SINH MẪU PHỔ BIẾN
Bổ đề (Tăng trưởng đoạn) Gọi lagrave một itemset trong CSDL D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B Độ hỗ trợ (Support) của trong D lagrave tương đương với support của trong B
Hệ quả (Tăng trưởng mẫu) Gọi lagrave một mẫu phổ biến trong D B lagrave một cơ sở mẫu điều kiện của vagrave lagrave một itemset trong B lagrave phổ biến trong DB nếu vagrave chỉ nếu lagrave phổ biến trong B
Bổ đề (Sinh đường dẫn mẫu FP-Tree) Giả sử FP-Tree T coacute một đường dẫn P Tập đầy đủ caacutec mẫu phổ biến của T coacute thể được tạo ra bởi liệt kecirc tất cả tổ hợp của caacutec đường dẫn con của P với độ hỗ trợ lagrave giaacute trị minsupport của caacutec hạng mục chứa trong đường dẫn con
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 46
Chương 5 LUẬT KẾT HỢP
KẾT QUẢ CAacuteC MẪU PHỔ BIẾN KHAI THAacuteC ĐƯỢC
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 47
Chương 5 LUẬT KẾT HỢP
ƯU ĐIỂM CỦA THUẬT TOAacuteN FP-TREE GROWTH
Một CSDL lớn đatilde được neacuten lại với độ tập trung cao với cấu truacutec dữ liệu nhỏ hơn sẽ traacutenh được chi phiacute cao do caacutec lần duyệt CSDL
Phương phaacutep khai phaacute dựa trecircn FP-Tree sử dụng phương phaacutep tăng trưởng đoạn mẫu để traacutenh chi phiacute trong việc sinh một lượng lớn tập caacutec ứng viecircn
Phương phaacutep dựa trecircn kỹ thuật phacircn đoạn chia để trị Việc khai phaacute caacutec mẫu phổ biến đatilde được giới hạn trong cơ sở mẫu điều kiện điều nagravey giuacutep giảm khocircng gian tigravem kiếm
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 48
Chương 5 LUẬT KẾT HỢP
KHAI PHAacute LUẬT KẾT HỢP TỪ TẬP PHỔ BIẾN
Với mỗi tập mục thường xuyecircn L cần tigravem tất cả caacutec tập con khaacutec rỗng f L sao cho f rarr L ndash f thỏa matilden điềusub kiện về độ tin cậy tối thiểu
1048713 Vd Với tập mục thường xuyecircn ABCD caacutec luật cần xeacutet gồm coacuteABC rarrD ABD rarrC ACD rarrB BCD rarrAA rarrBCD B rarrACD C rarrABD D rarrABCAB rarrCD AC rarr BD AD rarr BC BC rarrADBD rarrAC CD rarrAB
1048708 Nếu |L| = k thigrave sẽ phải xeacutet (2k ndash 2) caacutec luật kết hợp coacute thể (bỏ qua 2 luật L rarr vagrave rarr L)empty empty
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 49
Chương 5 LUẬT KẾT HỢP
Lagravem thế nagraveo để sinh ra caacutec luật từ caacutec tập mục phổ biến hiệu quả
1048713 Xeacutet tổng quaacutet độ tin cậy khocircng coacute đặc tiacutenh khocircng đơn điệu (anti-monotone)
conf(ABC rarrD) coacute thể lớn hơn hoặc nhỏ hơn conf(AB rarrD)
1048713 Nhưng độ tin cậy của caacutec luật được sinh ra từ cugraveng một tập mục thường xuyecircn thigrave lại coacute đặc tiacutenh đơn điệu Viacute dụ Với L = ABCD
conf(ABC rarr D) ge conf(AB rarr CD) ge conf(A rarr BCD)
1048713 Độ tin cậy coacute đặc tiacutenh đơn điệu đối với số lượng caacutec mục ở vế phải của luật
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 50
ABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Lattice of rulesABCD=gt
BCD=gtA ACD=gtB ABD=gtC ABC=gtD
BC=gtADBD=gtACCD=gtAB AD=gtBC AC=gtBD AB=gtCD
D=gtABC C=gtABD B=gtACD A=gtBCD
Pruned Rules
Low Confidence Rule
Chương 5 LUẬT KẾT HỢP
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 51
Chương 5 LUẬT KẾT HỢP
Caacutec luật cần xeacutet được sinh ra bằng caacutech kết hợp 2 luật coacute cugraveng tiền tố (phần bắt đầu) của phần kết luận (rule consequent)
CD=gtAB BD=gtAC
1048713 Viacute dụ Kết hợp 2 luật
(CD=gtAB BD=gtAC)
sẽ sinh ra luật cần xeacutet
D =gt ABC
1048713 Loại bỏ luật D=gtABC nếu bất kỳ một
luật con của noacute (AD=gtBC BCD=gtA hellip) khocircng coacute độ tin cậy cao minconf)
BD=gtACCD=gtAB
D=gtABC
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 52
Chương 5 LUẬT KẾT HỢP
CAacuteC ĐỘ ĐO HỖ TRỢ ĐỘ QUAN TAcircM CỦA LUẬT KẾT HỢP
ĐỘ ĐO LIFT L R
Chỉ ra sự tương quan giữa L vagrave R
Trong đoacute N lagrave số giao dịch
Yacute nghĩa của độ đo
oLift(L R)lt1 L vagrave R tương quan acircm (L tăng dẫn đến R giảm)
oLift(L R)=1 L R khocircng tương quan
oLift(L R)gt1 L R tương quan dương (L tăng dẫn đến R tăng)
Chuacute yacute Lift(LR) = Lift(RL)
)()(
)(
)(
)|(
)()(
)()(
RPLP
LRP
RP
LRP
NRcountLcount
RLcountRLLift
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 53
Chương 5 LUẬT KẾT HỢP
ĐỘ ĐO LEVERAGE L R
Leverage (LR) = sup(LR) ndash sup(L)sup(R)
Trong một số trường hợp một luật kết hợp coacute độ hỗ trợ cao độ đo Lift thấp coacute thể được quan tacircm hơn một luật độ hỗ trợ thấp vagrave độ đo Lift cao
Piatetsky-Shapiro (1991) đề xuất độ đo mới Leverage độ đo nagravey chỉ ra sự khaacutec biệt giữa độ hỗ trợ khi caacutec tập hạng mục L R xảy ra đồng thời trong CSDL với độ hỗ trợ khi L R xuất hiện độc lập
Viacute dụ Giả sử chuacuteng ta quan tacircm đến việc phacircn tiacutech caacutec giao dịch tại một cửa hagraveng điện maacuteyTrong 10000 giao dịch được phacircn tiacutech coacute 6000 giao dịch chứa computer game 7500 giao dịch chứa video 4000 giao dịch chứa cả hai computer game vagrave video coacute 4500 giao dịch chứa CD Music 3000 giao dịch chứa cả hai CD Musicvagrave videos
Khai phaacute luật với min_sup=30 vagrave min_conf=60
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 54
Chương 5 LUẬT KẾT HỢP
Luật kết hợp khai phaacute được
ldquocomputer games videos [support=40 confidence=66]
Ta coacute P(Computer game) = 06 P(video) = 075
P(Computer game video)= 04
Lift(Computer game video) = P(Computer game video)(P(Computer game) x P(video)) = 089 lt1
Computer game vagrave video tương quan acircm Do đoacute việc mua nhiều Computer game coacute thể lagravem giảm việc mua video
Tương tự luật ldquoMusic CD videos [support=30 confidence=66]
Lift(Music CD videos) = 098 Tuy nhiecircn
Leverage(Computer game video) = 04 ndash 06075 = - 005
Leverage(Music CD video) = 03- 045075 = - 00375
Giaacute trị tuyệt đối Leverage của cacircu lệnh trước lớn hơn cacircu lệnh sau luật kết hợp trước đaacuteng quan tacircm hơn cacircu lệnh sau
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 55
Tham khảo caacutec thuật toaacuten khai thaacutec tập phổ biến
- AprioriTid Apriori Hybird
- AIS SETM DHP DIC
Tham khảo caacutec độ quan tacircm
Subjective measures (Silberschatz amp Tuzhilin KDD95)
A rule (pattern) is interesting if
it is unexpected (surprising to the user) andor
actionable (the user can do something with it)
Chương 5 LUẬT KẾT HỢP
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Page 56
Chương 5 LUẬT KẾT HỢP
TAgraveI LIỆU THAM KHẢO THEcircM
ndash The top ten algorithm in Data Mining Xindong Hu Vipin Kuma
ndash Principles of Data Mining Max Bramer
ndash Slide Lecture Notes for Chapter 89 wwwcsemsuedu~ptan
ndash wwwcsbuedufacgkolliosada05lect21-05pdf lect22-05pdf lect23-05pdf
Caacutem ơn sự theo dotildei
Caacutem ơn sự theo dotildei