Upload
kien-vu
View
39
Download
13
Embed Size (px)
DESCRIPTION
Giáo trình khai phá dữ liệu - Tiếng việt
Citation preview
1 2
Lêi giíi thiÖu 9
Ch¬ng 1. Giíi thiÖu chung vÒ khai ph¸ d÷ liÖu 15
1.1. Nhu cÇu ph¸t hiÖn tri thøc tõ d÷ liÖu 16
1.1.1. T×nh tr¹ng “bïng næ d÷ liÖu” 16
1.1.2. Ngµnh c«ng nghiÖp dùa trªn d÷ liÖu 24
1.2. Kh¸i niÖm Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu 29
1.2.1. Gi¶i thÝch mét sè thuËt ng÷ 31
1.2.2. Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu 37
1.2.3. Bíc khai ph¸ d÷ liÖu trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu 41
1.2.4. KiÕn tróc mét hÖ thèng khai ph¸ d÷ liÖu 42
1.3. Khai ph¸ d÷ liÖu vµ xö lý CSDL truyÒn thèng 43
1.4. Mét sè lÜnh vùc øng dông khai ph¸ d÷ liÖu ®iÓn h×nh 47
1.5. KiÓu d÷ liÖu trong khai ph¸ d÷ liÖu 50
1.5.1. C¬ së d÷ liÖu quan hÖ 50
1.5.2. Kho d÷ liÖu 51
1.5.3. C¬ së d÷ liÖu giao dÞch 53
1.5.4. C¸c hÖ thèng d÷ liÖu më réng 53
1.6. C¸c bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh 54
1.6.1. M« t¶ kh¸i niÖm 55
1.6.2. Quan hÖ kÕt hîp 56
1.6.3. Ph©n líp 57
1.6.4. Ph©n côm 58
1.6.5. Håi quy 59
1.6.6. M« h×nh phô thuéc 59
1.6.7. Ph¸t hiÖn biÕn ®æi vµ ®é lÖch 60
1.7. TÝnh liªn ngµnh cña khai ph¸ d÷ liÖu 60
C©u hái vµ Bµi tËp 66
Ch¬ng 2. C«ng nghÖ tri thøc vµ ph¸t hiÖn tri thøc tõ d÷ liÖu 68
2.1. Vai trß cña CNTT trong kinh tÕ tri thøc 69
2.1.1. NghÞch lý hiÖu qu¶ cña CNTT cña Robert Solow vµ luËn ®iÓm cña N.
Carr 69
2.1.2. Vai trß cña CNTT trong nÒn Kinh tÕ tri thøc 75
2.1.2. Vai trß cña gi¸m ®èc th«ng tin trong doanh nghiÖp vµ tæ chøc 79
2.2. C«ng nghÖ tri thøc 83
2.2.1. Kh¸i niÖm tri thøc 84
2.2.2. Nguån tri thøc cho c¸ nh©n vµ tæ chøc 87
2.2.3. C«ng nghÖ tri thøc 91
2.3. Bµi to¸n ph¸t hiÖn tri thøc tõ d÷ liÖu 95
2.3.1. Sù tiÕn hãa cña m« h×nh ph¸t hiÖn tri thøc 95
2.3.2 VÒ bµi to¸n khai ph¸ d÷ liÖu 108
2.4. §é ®o hÊp dÉn trong khai ph¸ d÷ liÖu 110
C©u hái vµ Bµi tËp 118
Ch¬ng 3. ChuÈn bÞ d÷ liÖu 119
3.1. Giíi thiÖu 119
3.2. HiÓu d÷ liÖu 120
3.2.1. §o ®é tËp trung cña d÷ liÖu 120
3.2.2. §o ®é ph©n t¸n cña d÷ liÖu 123
3.2.3. HiÓn thÞ d÷ liÖu tãm t¾t 125
3.3. TiÒn xö lý d÷ liÖu 128
3.4. Lµm s¹ch d÷ liÖu 131
3.4.1. C¸c gi¸ trÞ bÞ thiÕu 133
3.4.2. D÷ liÖu bÞ nhiÔu 134
3 4
3.4.3. Lµm s¹ch d÷ liÖu ph¶i lµ mét quy tr×nh 136
3.4. TÝch hîp d÷ liÖu 139
3.4.1. NhËn diÖn thùc thÓ 140
3.4.2. Sù d thõa vµ ph©n tÝch ®é t¬ng quan 141
3.4.3. Ph¸t hiÖn c¸c bé lÆp 145
3.4.4. Ph¸t hiÖn xung ®ét trong d÷ liÖu vµ møc ®é trõu tîng. 145
3.5. ChuyÓn ®æi d÷ liÖu 146
3.5.1. C¸c chiÕn lîc chuyÓn ®æi d÷ liÖu 146
3.5.2. ChuÈn hãa d÷ liÖu 147
3.6. Ph¬ng ph¸p thu gän d÷ liÖu 149
3.6.1. Gi¶m chiÒu d÷ liÖu 150
3.6.2. Gi¶m sè lîng d÷ liÖu 153
3.7. Rêi r¹c hãa d÷ liÖu vµ sinh c©y kh¸i niÖm ph©n cÊp 158
3.7.1. Ph¬ng ph¸p ¸p dông cho d÷ liÖu sè 158
3.7.Ph¬ng ph¸p ¸p dông cho d÷ liÖu ph©n lo¹i 160
3.8. Tæng kÕt 161
C©u hái vµ Bµi tËp 161
Ch¬ng 4. Ph¸t hiÖn luËt kÕt hîp 164
4.1 Giíi thiÖu vÒ luËt kÕt hîp 164
4.2 Ph¬ng ph¸p khai ph¸ tËp môc phæ biÕn 167
4.3. ThuËt to¸n FP-Growth 170
4.3.1. ý tëng thuËt to¸n 170
4.3.2. ThuËt to¸n FP-growth. 171
4.4 Mét sè thuËt to¸n song song 178
4.4.1. ThuËt to¸n ph©n phèi ®é hç trî 179
4.4.2. ThuËt to¸n ph©n phèi d÷ liÖu 180
4.4.3. ThuËt to¸n ph©n phèi tËp øng cö viªn 183
4.4.4. ThuËt to¸n sinh luËt song song 185
4.4.5. Mét sè thuËt to¸n kh¸c 187
4.5 Mét sè øng dông cña luËt kÕt hîp 188
C©u hái vµ Bµi tËp 189
Ch¬ng 5. Ph©n côm d÷ liÖu 191
5.1. Giíi thiÖu 191
5.1.1. Bµi to¸n ph©n côm 191
5.1.2. C¸c ph¬ng ph¸p ph©n côm 192
5.2. Mét sè ®é ®o c¬ b¶n dïng trong ph©n côm 196
5.2.1. §é ®o t¬ng ®ång 196
5.2.2. §é ®o kh¸c biÖt 197
5.3. ThuËt to¸n ph©n côm ph¼ng 200
5.3.1. ThuËt to¸n k-means 200
5.3.2 ThuËt to¸n k-mediods 204
5.3.3. T×m sè lîng côm thÝch hîp 206
5.4. ThuËt to¸n ph©n côm ph©n cÊp 208
5.4.1 Ph©n côm ph©n cÊp gép 208
5.4.2 C¸c thuËt ph©n côm ph©n cÊp BIRCH 215
5.4.3 ThuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng
DIANA 219
5.4.4 ThuËt to¸n ph©n côm ph©n cÊp ROCK 220
5.5. ThuËt to¸n ph©n côm dùa trªn mËt ®é 228
5.6. Gi¶i thuËt ph©n côm dùa trªn m« h×nh 231
5.7. NhËn xÐt s¬ bé c¸c thuËt to¸n ph©n côm 236
5.8. §¸nh gi¸ c¸c gi¶i thuËt ph©n côm 237
5 6
5.8.1 §¸nh gi¸ dùa trªn ®é t¬ng tù 237
5.8.2 §¸nh gi¸ dùa trªn d÷ liÖu g¸n nh·n 238
5.9. Mét sè øng dông cña ph©n côm 245
C©u hái vµ bµi tËp 248
Ch¬ng 6. Ph©n líp d÷ liÖu 250
6.1. Giíi thiÖu 250
6.2. Ph©n líp b»ng c©y quyÕt ®Þnh 253
6.2.1 §é lîi th«ng tin 257
6.2.2 TØ sè ®é lîi 260
6.2.3 ChØ sè Gini 261
6.2.4 TØa c©y quyÕt ®Þnh 264
6.3. ThuËt to¸n ph©n líp Naive Bayes 264
6.2.1 §Þnh lý Bayes 264
6.2.2 Ph©n líp Naive Bayes 265
6.3. ThuËt to¸n ph©n líp m¸y vector hç trî SVM 269
6.3.1 Trêng hîp d÷ liÖu cã thÓ ph©n lo¹i tuyÕn tÝnh 270
6.3.2 Trêng hîp d÷ liÖu kh«ng thÓ ph©n t¸ch tuyÕn
tÝnh 274
6.3.3 Ph©n líp ®a líp víi SVM 278
6.4. ThuËt to¸n ph©n líp kNN 279
6.5. §¸nh gi¸ c¸c gi¶i thuËt ph©n líp 284
6.6. Mét sè øng dông cña c¸c gi¶i thuËt ph©n líp 288
C©u hái vµ bµi tËp 289
Ch¬ng 7. Ph¬ng ph¸p häc b¸n gi¸m s¸t 291
7.1. Giíi thiÖu 291
7.2 ThuËt to¸n cùc ®¹i kú väng EM 295
7.3. ThuËt to¸n häc céng t¸c (co-training) 300
7.3.1. ThuËt to¸n häc céng t¸c dùa trªn nhiÒu khung
nh×n 300
7.3.2. ThuËt to¸n häc céng t¸c co-EM 305
7.3.3. ThuËt to¸n häc céng t¸c dùa trªn nhiÒu gi¶i thuËt häc gi¸m s¸t 306
7.4. ThuËt to¸n Tri-training 308
7.5. ThuËt to¸n tù huÊn luyÖn (Shelf-training) 312
7.6 Mét sè øng dông cña c¸c gi¶i thuËt häc b¸n gi¸m
s¸t 314
C©u hái vµ bµi tËp 314
Ch¬ng 8. Khai ph¸ d÷ liÖu b¶o vÖ tÝnh riªng t 316
8.1. KhÝa c¹nh ph¸p luËt b¶o vÖ tÝnh riªng t vµ khai ph¸ d÷ liÖu 317
8.1.1. Híng dÉn cña OECD vÒ d÷ liÖu riªng t vµ t¸c
®éng tíi ho¹t ®éng ph¸t hiÖn tri thøc tõ d÷ liÖu 318
8.1.2. TiÕp cËn ph¸p luËt b¶o vÖ tÝnh riªng t t¹i níc
Mü vµ t¸c ®éng tíi khai ph¸ d÷ liÖu 320
8.2. Ph¬ng ph¸p khai ph¸ d÷ liÖu b¶o vÖ tÝnh riªng
t 323
8.2.1. M« h×nh vµ ph¬ng ph¸p khai ph¸ d÷ liÖu b¶o vÖ
tÝnh riªng t 323
8.2.2. Mét sè thuËt to¸n khai ph¸ d÷ liÖu b¶o vÖ tÝnh
riªng t 326
C©u hái vµ Bµi tËp 333
Ch¬ng 9. TËp mê, tËp th« vµ tËp mê – th« trong khai
ph¸ d÷ liÖu 335
9.1. Ph¬ng ph¸p tËp mê trong khai ph¸ d÷ liÖu 336
7 8
9.1.1. Mét sè kiÕn thøc c¬ së cña lý thuyÕt tËp mê 336
9.1.2. Ph¬ng ph¸p tËp mê trong khai ph¸ d÷ liÖu 343
9.2. Ph¬ng ph¸p tËp th« trong khai ph¸ d÷ liÖu 350
9.2.1. Mét sè kiÕn thøc c¬ së vÒ lý thuyÕt tËp th« 352
9.2.2. Ph¬ng ph¸p tËp th« rót gän thuéc tÝnh 358
9.2.3. Ph¬ng ph¸p tËp th« rêi r¹c tËp gi¸ trÞ thuéc tÝnh 362
9.3. Ph¬ng ph¸p tËp mê-th« trong khai ph¸ d÷ liÖu 365
9.3.1. Lùa chän thuéc tÝnh dùa trªn tËp mê - th« 367
9.3.2. Ph©n líp k-NN dùa trªn tËp mê - th« 367
C©u hái vµ Bµi tËp 368
Ch¬ng 10. Mét sè bµi häc vµ khuynh híng ph¸t
triÓn trong khai ph¸ d÷ liÖu 369
10.1. Mét sè bµi häc trong khai ph¸ d÷ liÖu 370
10.1.1.Bµi häc vÒ kü thuËt 370
10.1.2. Bµi häc vÒ triÓn khai dù ¸n 376
10.1.3. §Æc trng cña chuyªn viªn khai ph¸ d÷ liÖu 378
10.2. Mét sè lçi thêng gÆp trong khai ph¸ d÷ liÖu 380
10.3. C«ng cô Khai ph¸ d÷ liÖu 390
10.3.1. Tiªu chÝ ph©n lo¹i c¸c c«ng cô khai ph¸ d÷ liÖu 391
10.3.2. C¸c kiÓu c«ng cô khai ph¸ d÷ liÖu 394
10.3.3. TËp vÝ dô ®¸nh gi¸ c«ng cô nghiªn cøu 399
10.4. Khuynh híng ph¸t triÓn cña khai ph¸ d÷ liÖu 401
10.4.1. Khuynh híng ph¸t triÓn cña khoa häc m¸y tÝnh 401
10.4.2. Khuynh híng ph¸t triÓn cña khai ph¸ d÷ liÖu 403
C©u hái vµ Bµi tËp 414
Tµi liÖu tham kh¶o 415
9 10
Lêi giíi thiÖu
Trong thêi ®¹i ngµy nay, sö dông tri thøc ®· trë thµnh ®éng lùc chñ chèt
cho t¨ng trëng kinh tÕ quèc gia, cho t¨ng cêng n¨ng lùc c¹nh tranh cña doanh
nghiÖp. §ång thêi, dung lîng d÷ liÖu sè t¨ng rÊt nhanh chãng, ®Æc biÖt lo¹i d÷
liÖu do ngêi sö dông t¹o ra (User-Generated Content: UGC) chiÕm tû träng
ngµy cµng cao, ®· trë thµnh nguån tµi nguyªn tiÒm Èn th«ng tin vµ tri thøc cã
tiÒm n¨ng lín h÷u Ých cho ph¸t triÓn kinh tÕ vµ t¨ng cêng n¨ng lùc c¹nh tranh.
Nghiªn cøu vµ triÓn khai c¸c ph¬ng ph¸p tù ®éng ph¸t hiÖn c¸c mÉu míi, cã
gi¸ trÞ, h÷u Ých tiÒm n¨ng vµ hiÓu ®îc trong khèi d÷ liÖu ®å sé, kh¾c phôc hiÖn
tîng "giµu vÒ d÷ liÖu mµ nghÌo vÒ th«ng tin, híng tíi môc tiªu t¨ng cêng tµi
nguyªn tri thøc lµ hÕt søc cÇn thiÕt vµ cã ý nghÜa. Khai ph¸ d÷ liÖu (Data
Mining) vµ Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (Knowledge Discovery in Data
Bases: KDD), thµnh phÇn quan träng cña c«ng nghÖ tri thøc (Knowledge
Technology), ®ang ph¸t triÓn rÊt m¹nh mÏ.
Khai ph¸ d÷ liÖu lµ m«n häc b¾t buéc trong ch¬ng tr×nh ®µo t¹o ngµnh HÖ
thèng th«ng tin (HTTT) bËc cö nh©n vµ chuyªn ngµnh HTTT bËc th¹c sü t¹i
Khoa CNTT, Trêng §¹i häc C«ng nghÖ (§HCN), §¹i häc Quèc gia Hµ Néi
(§HQGHN). Nhu cÇu ®µo t¹o, nghiªn cøu vµ ph¸t triÓn lÜnh vùc khai ph¸ d÷ liÖu
tríc hÕt t¹i Trêng §HCN, vµ sau ®ã t¹i c¸c c¬ së ®µo t¹o vµ nghiªn cøu trong
níc ®ßi hái mét gi¸o tr×nh cã néi dung toµn diÖn vÒ lÜnh vùc nghiªn cøu vµ
triÓn khai quan träng nµy.
Tríc khi giíi thiÖu néi dung cña gi¸o tr×nh nµy, chóng t«i muèn nªu lªn
mét vµi ®iÓm vÒ c¸ch tiÕp cËn cña chóng t«i. Thø nhÊt, gi¸o tr×nh ®îc viÕt ®Ó
phôc vô viÖc gi¶ng d¹y vµ häc tËp bËc ®¹i häc vµ bËc sau ®¹i häc t¹i Trêng
§HCN, §HQGHN. Néi dung trong gi¸o tr×nh ®îc tæng hîp vµ tãm lîc tõ mét
sè tµi liÖu næi tiÕng còng nh nh÷ng nghiªn cøu thêi sù nhÊt vÒ khai ph¸ d÷ liÖu.
Thø hai, néi dung vÒ kho d÷ liÖu ®îc viÕt thµnh gi¸o tr×nh "Kho d÷ liÖu" cho
nªn sÏ kh«ng ®îc ®a vµo gi¸o tr×nh nµy. Thø ba, gi¸o tr×nh nµy cßn cã môc
tiªu ®Þnh híng cho c¸c nghiªn cøu chuyªn s©u vÒ khai ph¸ d÷ liÖu, v× vËy, gi¸o
tr×nh bæ sung thªm mét sè néi dung kh¸c víi nhiÒu cuèn s¸ch hiÖn cã vÒ khai
ph¸ d÷ liÖu. Néi dung ®Çu tiªn ®îc bæ sung lµ mét sè kiÕn thøc vÒ tri thøc vµ
kinh tÕ tri thøc. Thªm n÷a, chóng t«i bæ sung mét sè néi dung vÒ khai ph¸ d÷
liÖu dùa trªn lý thuyÕt tËp mê, lý thuyÕt tËp th« vµ mét sè bµi häc thµnh c«ng
còng nh mét sè lçi thêng gÆp trong khai ph¸ d÷ liÖu. Khuynh híng nghiªn
cøu vµ triÓn khai khai ph¸ d÷ liÖu ®îc tr×nh bµy víi c¸c néi dung cËp nhËt nhÊt
cã thÓ ®îc.
Gi¸o tr×nh gåm 10 ch¬ng víi néi dung s¬ bé nh ®îc tr×nh bµy díi ®©y.
Ch¬ng 1. Giíi thiÖu chung vÒ khai ph¸ d÷ liÖu tr×nh bµy vÒ sù t¨ng trëng
m¹nh mÏ vÒ dung lîng d÷ liÖu (®Æc biÖt lµ d÷ liÖu néi dung do ngêi dïng sinh
ra: gerenated user content – GUC), vÒ c«ng nghÖ dùa trªn d÷ liÖu, vÒ nhu cÇu
ph¸t hiÖn tri thøc tõ d÷ liÖu, vÒ c¸c kh¸i niÖm c¬ b¶n nhÊt cña khai ph¸ d÷ liÖu
vµ ph¸t hiÖn tri thøc tõ d÷ liÖu. TÝnh liªn ngµnh cña khai ph¸ d÷ liÖu vµ sù ph©n
biÖt gi÷a hÖ thèng khai ph¸ d÷ liÖu vµ hÖ thèng qu¶n lý c¬ së d÷ liÖu, gi÷a bµi
to¸n khai ph¸ d÷ liÖu vµ bµi to¸n thèng kª còng ®îc ®Ò cËp.
Ch¬ng 2. C«ng nghÖ tri thøc vµ ph¸t hiÖn tri thøc tõ d÷ liÖu cung cÊp
nh÷ng kiÕn thøc c¬ b¶n nhÊt vÒ tri thøc vµ kinh tÕ tri thøc, vai trß cña CNTT vµ
c«ng nghÖ tri thøc cho ph¸t triÓn kinh tÕ vµ t¹o lîi thÕ c¹nh tranh. Qu¸ tr×nh tiÕn
hãa cña m« h×nh ph¸t hiÖn tri thøc tõ d÷ liÖu ®îc ph©n tÝch. Mét sè néi dung vÒ
®é ®o hÊp dÉn vµ tÝnh hÊp dÉn cña mÉu ®îc tr×nh bµy.
11 12
Ch¬ng 3 ChuÈn bÞ d÷ liÖu vµ kho d÷ liÖu cung cÊp c¸c kiÕn thøc vµ kü
n¨ng vÒ hiÓu d÷ liÖu, tiÒn xö lý d÷ liÖu, chuyÓn d¹ng d÷ liÖu, lùa chän thuéc
tÝnh.
Ch¬ng 4. Ph¸t hiÖn luËt kÕt hîp tr×nh bµy kh¸i niÖm luËt kÕt hîp, mét sè
thuËt to¸n khai ph¸ luËt kÕt hîp ®iÓn h×nh (thuËt to¸n Apriori, thuËt to¸n FP-
growth vµ vµ mét sè thuËt to¸n kh¸c), kh¸i niÖm luËt d·y vµ khai ph¸ luËt d·y.
Mét sè øng dông cña luËt kÕt hîp còng ®îc giíi thiÖu.
Ch¬ng 5. Ph©n côm d÷ liÖu vµ m« t¶ cung cÊp kiÕn thøc vÒ bµi to¸n ph©n
côm vµ mét sè thuËt to¸n ph©n côm ®iÓn h×nh (ph©n côm ph©n cÊp, ph©n côm
ph¨ng K-mean, ph©n côm EM, mét sè thuËt to¸n kh¸c). Ph¬ng ph¸p ®¸nh gi¸
ph©n côm vµ mét sè øng dông ph©n côm còng ®îc giíi thiÖu.
Ch¬ng 6. Ph©n líp d÷ liÖu tr×nh bµy vÒ kh¸i niÖm bµi to¸n ph©n líp, mét
sè thuËt to¸n ph©n líp ®iÓn h×nh (C4.5, Naive Bayes, k-NN, SVM vµ mét sè
thuËt to¸n kh¸c). Ph¬ng ph¸p ®¸nh gi¸ thuËt to¸n ph©n líp vµ mét sè øng dông
thuËt to¸n ph©n líp còng ®îc giíi thiÖu.
Ch¬ng 7. Ph¬ng ph¸p häc b¸n gi¸m s¸t ®îc b¾t ®Çu b»ng c¸c néi dung
c¬ b¶n cña ph¬ng ph¸p häc b¸n gi¸m s¸t. Mét sè thuËt to¸n b¸n gi¸m s¸t ®iÓn
h×nh (Adaboost, Co-training, Shelf-training vµ mét sè thuËt to¸n häc b¸n gi¸m
s¸t kh¸c) ®îc tr×nh bµy chi tiÕt. Mét sè øng dông häc b¸n gi¸m s¸t còng ®îc
giíi thiÖu.
Ch¬ng 8. Khai ph¸ d÷ liÖu b¶o vÖ tÝnh riªng t cung cÊp c¸c kiÕn thøc c¬
b¶n vÒ tÝnh riªng t, mét sè m« h×nh vµ gi¶I ph¸p khai ph¸ d÷ liÖu b¶o vÖi tÝnh
riªng t.
Ch¬ng 9. TËp mê, tËp th« vµ tËp mê-th« trong khai ph¸ d÷ liÖu tr×nh bµy
mét sè kiÕn thøc c¬ b¶n vÒ tËp mê, tËp th«, tËp mê-th« vµ øng dông c¸c tËp nãi
trªn trong khai ph¸ d÷ liÖu.
Ch¬ng 10. Mét sè bµi häc vµ khuynh híng ph¸t triÓn cña khai ph¸ d÷ liÖu tr×nh bµy mét sè bµi häc vµ lçi thêng gÆp trong khai ph¸ d÷ liÖu. PhÇn cuèi
cña ch¬ng ®Ò cËp tíi khung híng ph¸t triÓn khai ph¸ d÷ liÖu, tËp trung vµo,
khai ph¸ d÷ liÖu ph¬ng tiÖn x· héi, häc m¸y híng miÒn øng dôngvµ häc m¸y
kh«ng dõng ®îc chän lùa ®Ó giíi thiÖu chi tiÕt h¬n.
Gi¸o tr×nh nµy ®îc sö dông cho c¶ bËc ®¹i häc vµ bËc cao häc. Mét
ph¬ng ¸n ®Ò nghÞ cho ®µo t¹o bËc ®¹i häc lµ gãi néi dung bao gåm ch¬ng 1,
ch¬ng 2 (kh«ng kÓ môc 2.4), ch¬ng 3 (kh«ng kÓ môc 3.4), ch¬ng 4, ch¬ng
5, ch¬ng 6, ch¬ng 10 (hai môc 10.1, 10.2). ¤n l¹i néi dung dµnh cho bËc ®¹i
häc vµ nghiªn cøu c¸c néi dung cßn l¹i trong gi¸o tr×nh lµ ph¬ng ¸n néi dung
d¹y-häc cho bËc sau ®¹i häc.
§èi víi lÜnh vùc khai ph¸ d÷ liÖu, viÖc dïng thuËt ng÷ tiÕng ViÖt lµ rÊt khã
kh¨n v× ®©y lµ lÜnh vùc nghiªn cøu cßn rÊt míi kh«ng chØ ë ViÖt Nam mµ cßn
trªn thÕ giíi. Víi mçi thuËt ng÷ tiÕng Anh, thuËt ng÷ tiÕng ViÖt t¬ng øng ®¬c
coi lµ phæ biÕn ®îc chän lùa.
Nhãm t¸c gi¶ xin bµy tá lêi c¶m ¬n ch©n thµnh tíi TS. NguyÔn Lª Minh,
TS. §oµn S¬n, TS. Phan Xu©n HiÕu, TS. NguyÔn CÈm Tó, TS. NguyÔn ViÖt
Cêng, TS. §Æng Thanh H¶i ®· nhiÖt t×nh céng t¸c. Nhãm t¸c gi¶ ®¸nh gi¸ cao
vµ ch©n thµnh c¸m ¬n tËp thÓ c¸n bé, sinh viªn thuéc Phßng ThÝ nghiÖm C«ng
nghÖ tri thøc vµ Bé m«n HTTT, Khoa CNTT. Gi¸o tr×nh nµy còng lµ mét s¶n
phÈm cña qu¸ tr×nh céng t¸c nghiªn cøu cña chóng t«i víi Cè Gi¸o s Susumu
Horiguchi t¹i ViÖn Khoa häc & C«ng nghÖ tiªn tiÕn vµ §¹i häc Tohoku NhËt
B¶n, GS. Akira Shimazu t¹i ViÖn Khoa häc & C«ng nghÖ tiªn tiÕn NhËt B¶n,
TSKH NguyÔn Hïng S¬n t¹i §¹i häc Vasava Ba Lan.
Dï nhãm t¸c gi¶ ®· cè g¾ng thu thËp, nghiªn cøu vµ tæng hîp song gi¸o
tr×nh ch¾c ch¾n cßn kh«ng Ýt khiÕm khuyÕt. Chóng t«i mong muèn nhËn ®îc sù
c¶m th«ng còng nh c¸c ý kiÕn ®ãng gãp tõ c¸c nhµ khoa häc, c¸c gi¶ng viªn vµ
ngêi häc ®Ó gi¸o tr×nh ngµy cµng thªm hoµn thiÖn.
Nhãm t¸c gi¶ xin ch©n thµnh c¸m ¬n c¸c c¬ quan h÷u quan ®· tÝch cùc hç
trî ®Ó xuÊt b¶n gi¸o tr×nh.
13 14
Ch¬ng 1. Giíi thiÖu chung vÒ khai ph¸ d÷ liÖu
Ch¬ng më ®Çu cña gi¸o tr×nh tr×nh bµy mét sè nÐt kh¸i qu¸t nhÊt vÒ khai
ph¸ d÷ liÖu. Môc ®Çu tiªn giíi thiÖu vÒ tÝnh tù nhiªn cña t×nh tr¹ng bïng næ d÷
liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu nh mét thµnh phÇn nÒn t¶ng c«ng nghÖ cña
ngµnh kinh tÕ ®Þnh híng d÷ liÖu. Môc thø hai giíi thiÖu kh¸i niÖm ph¸t hiÖn tri
thøc trong c¬ së d÷ liÖu, kh¸i niÖm khai ph¸ d÷ liÖu. Ph¸t hiÖn tri thøc trong c¬
së d÷ liÖu lµ mét qu¸ tr×nh gåm nhiÒu bíc t×m ra nh÷ng mÉu cã gi¸ trÞ, míi,
h÷u Ých tiÒm n¨ng vµ hiÓu ®îc trong mét tËp d÷ liÖu lín. Khai ph¸ d÷ liÖu lµ
bíc xö lý ®Æc thï nhÊt cña qu¸ tr×nh nµy, v× vËy, trong kh«ng Ýt trêng hîp hai
kh¸i niÖm ph¸t hiÖn tri thøc tõ d÷ liÖu vµ khai ph¸ d÷ liÖu ®îc dïng thay thÕ
nhau. Môc tiÕp theo tr×nh bµy mét sè khÝa c¹nh ph©n biÖt hÖ thèng khai ph¸ d÷
liÖu (cung cÊp th«ng tin hç trî quyÕt ®Þnh) víi hÖ thèng c¬ së d÷ liÖu ®iÒu hµnh
t¸c nghiÖp truyÒn thèng (phôc vô xö lý giao dÞch t¸c nghiÖp). Môc thø t giíi
thiÖu mét sè lÜnh vùc øng dông khai ph¸ ®iÓn h×nh, trong ®ã kinh doanh lµ mét
trong nh÷ng lÜnh vùc øng dông phæ biÕn nhÊt. Môc thø n¨m cung cÊp mét sè
th«ng tin cho biÕt tÝnh ®a d¹ng cña kiÓu d÷ liÖu ®Çu vµo cña bµi to¸n khai ph¸ d÷
liÖu. Môc thø s¸u giíi thiÖu c¸c bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh thuéc vµo
hai líp bµi to¸n dù b¸o vµ m« t¶. Môc cuèi cïng cña ch¬ng nµy tr×nh bµy tÝnh
®a ngµnh cña lÜnh vùc khai ph¸ d÷ liÖu.
1.1. Nhu cÇu ph¸t hiÖn tri thøc tõ d÷ liÖu
1.1.1. T×nh tr¹ng “bïng næ d÷ liÖu”
Thêi ®¹i ngµy nay, mçi ngêi chóng ta ®· tõng nghe nãi vµ chøng kiÕn vÒ
sù t¨ng trëng liªn tôc víi tèc ®é vît bËc vÒ dung lîng d÷ liÖu do con ngêi
khëi t¹o, lu gi÷ vµ truyÒn dÉn; sù t¨ng trëng nµy cßn ®îc gäi lµ “hiÖn tîng
bïng næ th«ng tin”. Tríc khi xem xÐt mèi liªn hÖ gi÷a hiÖn tîng bïng næ
th«ng tin víi nhu cÇu khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu, chóng ta
t×m hiÓu vÒ c¸c nguyªn nh©n t¹o nªn hiÖn tîng bïng næ th«ng tin ®ã. Nãi mét
c¸ch kh¸i qu¸t, hiÖn tîng bïng næ th«ng tin cã nguyªn nh©n tõ nhu cÇu ho¹t
®éng mäi mÆt cña ®êi sèng x· héi, tuy nhiªn, nh÷ng néi dung tr×nh bµy díi ®©y
sÏ lµm chi tiÕt h¬n vÒ c¸c khÝa c¹nh c«ng nghÖ vµ x· héi ®· gãp phÇn thóc ®Èy
sù t¨ng trëng d÷ liÖu vît bËc ®ã.
H×nh 1.1. Xu thÕ tèi u chi phÝ s¶n xuÊt m¹ch b¸n dÉn: Sè lîng thµnh phÇn b¸n dÉn trong mét m¹ch tÝch hîp t¨ng vµ chi phÝ s¶n xuÊt mét thµnh phÇn b¸n dÉn gi¶m (G.E. Moore, 1965
[Moore65]).
15 16
1.1.1.1. VÒ mÆt c«ng nghÖ
B¶ng 1.1. Tæng giao vËn IP n¨m 2009 vµ dù b¸o c¸c n¨m 2010-2014. Chó thÝch: Consumer: Lu lîng IP cè ®Þnh do hé gia ®×nh, c d©n trêng ®¹i häc, vµ cµ phª Internet t¹o ra; Business: Lu lîng IP hoÆc WAN cè ®Þnh (kh«ng bao gåm lu lîng sao lu) do doanh nghiÖp vµ chÝnh quyÒn t¹o ra; Mobility: Lu lîng d÷ liÖu di ®éng vµ truy cËp Internet tõ thiÕt bÞ cÇm tay, thÎ m¸y tÝnh x¸ch tay, WiMAX; Internet: toµn bé lu lîng IP ®i qua ®êng trôc Internet. Nguån: S¸ch tr¾ng CISCO 2010
Sù t¨ng trëng d÷ liÖu víi tèc ®é cao nh ®îc ®Ò cËp ®îc dÉn xuÊt tõ c¸c
nguyªn nh©n c«ng nghÖ sau ®©y:
+ C«ng nghÖ chÕ t¹o c¸c thiÕt bÞ xö lý, lu gi÷ vµ truyÒn dÉn d÷ liÖu ®· vµ
®ang ph¸t triÓn kh«ng ngõng, t¹o ra c¸c s¶n phÈm thiÕt bÞ cã tèc ®é ho¹t ®éng
ngµy cµng cao vµ gi¸ thµnh ngµy cµng h¹. Sù ph¸t triÓn c«ng nghÖ nµy ®îc dÉn
d¾t bëi ®Þnh luËt Moore, mét ®Þnh luËt cã xuÊt ph¸t ®iÓm tõ néi dung mét bµi
b¸o ®îc Gordon E. Moore, mét ®ång s¸ng lËp c«ng ty Intel (INTegrated
ELectronics) c«ng bè vµo n¨m 1965 [Moore65]. Néi dung ®îc coi lµ quan
träng nhÊt trong bµi b¸o nµy cña G. E. Moore lµ dù b¸o vÒ xu thÕ t¨ng sè lîng
thµnh phÇn b¸n dÉn ®Ó ®¹t ®îc chi phÝ s¶n xuÊt hiÖu qu¶ nhÊt (H×nh 1.1).
Sau nµy, dù b¸o nãi trªn cña G.E. Moore ®îc ph¸t biÓu díi d¹ng
“ph¬ng ng«n 2x” nh sau “Sè lîng b¸n dÉn tÝch hîp trong mét chÝp sÏ t¨ng
gÊp ®«i sau mét chu kú kho¶ng hai n¨m”. Mét d¹ng ph¸t biÓu kh¸c cña ®Þnh luËt
Moore lµ “chi phÝ s¶n xuÊt m¹ch b¸n dÉn víi cïng tÝnh n¨ng gi¶m mét nöa sau
kho¶ng hai n¨m”. Phiªn b¶n “18 th¸ng” cña ph¬ng ng«n 2x rót ng¾n chu kú
thêi gian tõ hai n¨m xuèng cßn 18 th¸ng.
§Þnh luËt Moore ®· vµ ®ang dÉn d¾t ngµnh c«ng nghiÖp m¹ch b¸n dÉn mµ
“vÒ b¶n chÊt, nã lµ m« h×nh c¬ b¶n cho ngµnh c«ng nghiÖp b¸n dÉn”. Theo Paul
S. Otellini, Chñ tÞch vµ Gi¸m ®èc ®iÒu hµnh TËp ®oµn Intel, th× “§Þnh luËt
Moore vÉn t¹o kh¶ n¨ng c¬ b¶n cho sù ph¸t triÓn cña chóng t«i, vµ nã vÉn cßn
hiÖu lùc tèt t¹i Intel. Nhng c¸ch chóng t«i vµ kh¸ch hµng xem xÐt ®Þnh luËt Moore ®· cã sù thay ®æi. §Þnh luËt Moore kh«ng chØ lµ m¹ch b¸n dÉn. Nã còng
lµ c¸ch sö dông s¸ng t¹o m¹ch b¸n dÉn”1. Theo Daniel Grupp, Gi¸m ®èc ph¸t
triÓn c«ng nghÖ tiªn tiÕn cña Acorn Technologies, Inc. (http://acorntech.com/)
th× “toµn bé chu tr×nh thiÕt kÕ, ph¸t triÓn, s¶n xuÊt, ph©n phèi vµ b¸n hµng ®îc
coi lµ cã tÝnh bÒn v÷ng khi tu©n theo ®Þnh luËt Moore... NÕu ®¸nh b¹i ®Þnh luËt
Moore, thÞ trêng kh«ng thÓ hÊp thô hÕt c¸c s¶n phÈm míi, vµ kü s bÞ mÊt viÖc lµm. NÕu bÞ tôt sau ®Þnh luËt Moore, kh«ng cã g× ®Ó mua, vµ g¸nh nÆng ®Ì lªn
®«i vai cña chuçi nhµ ph©n phèi s¶n phÈm”2.
Cuéc c¸ch m¹ng trong c«ng nghiÖp m¹ch b¸n dÉn (nÒn t¶ng cña c«ng
nghiÖp ®iÖn tö) t¸c ®éng m¹nh mÏ ®èi víi c«ng nghiÖp phÇn cøng m¸y tÝnh, t¹o
ra sù bïng næ vÒ n¨ng lùc xö lý tÝnh to¸n vµ dung lîng lu tr÷ d÷ liÖu; kÕt qu¶
lµ c¸c thiÕt bÞ t¹o lËp vµ lu tr÷ d÷ liÖu mang theo sù tiÕn bé c«ng nghÖ kh«ng
ngõng ®îc s¶n xuÊt vµ ®a vµo sö dông.
Lich sö ph¸t triÓn c¸c bé xö lý Intel lµ mét minh häa ®iÓn h×nh, thÓ hiÖn sù
ph¸t triÓn c«ng nghÖ bé xö lý ®îc dÉn d¾t bëi ®Þnh luËt Moore3. Mét vÝ dô
1 “Intel Silicon Innovation”. http://download.intel.com/museum/Moores_Law/ Printed_Materials/Intel_Silicon_Brochure.pdf 2 http://www.edavision.com/200111/feature.pdf 3 “Intel 40th Anniversary backgrounder”.
http://www.intel.com/pressroom/enhanced/40th_Anniversary/
40th_anniversary_backgrounder.pdf?iid=pr_smrelease_40th_addlmat1
17 18
kh¸c, ho¹t ®éng thu thËp d÷ liÖu cña Sloan Digital Sky Survey (SDSS) - tæ chøc
hîp t¸c quèc tÕ lín nhÊt vÒ kh¶o s¸t thiªn v¨n b¾t ®Çu lµm viÖc tõ n¨m 2000 –
lµ mét minh chøng ®iÓn h×nh vÒ sù ph¸t triÓn cña c«ng nghÖ thu thËp d÷ liÖu.
Trong vµi tuÇn ho¹t ®éng ®Çu tiªn, kÝnh viÔn väng ®Çu tiªn cña SDSS t¹i New
Mexico ®· thu thËp ®îc lîng d÷ liÖu nhiÒu h¬n dung lîng d÷ liÖu ®îc tÝch
lòy trong toµn bé lÞch sö thiªn v¨n häc tríc ®ã. HiÖn t¹i, sau mét thËp kû, kho
tµi nguyªn d÷ liÖu cña SDSS lªn tíi 140 TB. KÝnh viÔn väng kÕ tiÕp cña SDSS
(Large Synoptic Survey Telescope) ®Æt t¹i Chile, ®îc b¾t ®Çu ho¹t ®éng vµo
n¨m 2016, sÏ thu nhËn ®îc khèi lîng d÷ liÖu nh vËy (140 TB) chØ trong n¨m
ngµy.
C¸c kÕt qu¶ cña sù ph¸t triÓn c«ng nghÖ phÇn cøng m¸y tÝnh ®· t¹o ®iÒu
kiÖn thuËn lîi cho sù ph¸t triÓn c«ng nghÖ c¬ së d÷ liÖu (liªn quan tíi ho¹t ®éng
tæ chøc vµ qu¶n lý d÷ liÖu) vµ c«ng nghÖ m¹ng (liªn quan tíi ho¹t ®éng truyÒn
dÉn d÷ liÖu), hîp thµnh mét nÒn t¶ng kü thuËt tæng hîp cho sù bïng næ th«ng
tin.
+ C«ng nghÖ CSDL ®· vµ ®ang ph¸t triÓn kh«ng ngõng nh»m ®¸p øng nhu
cÇu qu¶n lý d÷ liÖu ngµy cµng n©ng cao cña x· héi loµi ngêi (nãi chung) vµ
trong ho¹t ®éng qu¶n lý (nãi riªng). H×nh 1.2 tr×nh bµy qu¸ tr×nh tiÕn hãa c«ng
nghÖ CSDL theo quan ®iÓm cña J. Han vµ M. Kamber [HK0106].
Trong qu¸ tr×nh tiÕn hãa cña c«ng nghÖ CSDL, nhiÒu hÖ qu¶n trÞ c¬ së d÷
liÖu ®îc ph¸t triÓn vµ n¨ng lùc cña hÖ qu¶n trÞ c¬ së d÷ liÖu còng ngµy ®îc
n©ng cao. Sù t¨ng trëng næi bËt vÒ kÝch thíc cña c¬ së d÷ liÖu qu¶n lý ®· dÉn
®Õn cã nhiÒu c¬ së d÷ liÖu víi kÝch thíc hµng tr¨m TB (1TB = 1000 GB) xuÊt
hiÖn. Ch¼ng h¹n, c¬ së d÷ liÖu cña Trung t©m tÝnh to¸n khoa häc nghiªn cøu
n¨ng lîng quèc gia Mü (National Energy Research Scientific Computing
Center: NERSC) tíi th¸ng 3/2010 ®· ®¹t kho¶ng 460 TB4. C¬ së d÷ liÖu cña
YouTube sau hai n¨m ho¹t ®éng ®· cã tíi hµng tr¨m triÖu video, dung lîng c¬
së d÷ liÖu cña YouTube t¨ng gÊp ®«i sau mçi chu kú 5 th¸ng. HÖ thèng siªu thÞ
4 http://www.nersc.gov/news/annual_reports/annrep0809/annrep0809.pdf
b¸n lÎ Wal-Mart, mçi giê cã h¬n 1 M giao dÞch kh¸ch hµng, cung cÊp c¸c c¬ së
d÷ liÖu mµ dung lîng chung íc tÝnh lªn tíi h¬n 2,5 PB (1 PB = 1000 TB5).
+ Sù ph¸t triÓn c«ng nghÖ m¹ng c¶ vÒ quy m« vµ tèc ®é ®· t¹o ra sù t¨ng
trëng m¹nh mÏ vÒ n¨ng lùc truyÒn dÉn th«ng tin. Theo b¸o c¸o tæng hîp cña
CISCO, tæng dung lîng d÷ liÖu th«ng qua giao vËn IP trong mét th¸ng ®· t¨ng
tõ 14.686 PB vµo n¨m 2009 lªn 20.396 PB vµo n¨m 2010 vµ dù b¸o lªn tíi
63.463 PB vµo n¨m 2014. Theo dù b¸o, ®é t¨ng trung b×nh hµng n¨m vÒ dung
lîng d÷ liÖu qua giao vËn IP trong giai ®o¹n 2009-2014 ®¹t kho¶ng 34% (B¶ng
1.1).
§Æc biÖt, World Wide Web ®· trë thµnh m¹ng th«ng tin khæng lå, trong ®ã
sè lîng trang Web ®îc ®¸nh chØ sè ®· lªn tíi con sè hµng chôc tû (theo sè liÖu
c«ng bè vµo ngµy 23/01/2011 cña WorldWideWeb.com, ®· cã h¬n 13 tû rìi
trang Web ®îc ®¸nh chØ sè)6.
H×nh 1.3. Dung lîng d÷ liÖu tæng thÓ n¨m 2010 ®¹t kho¶ng 1.260 EB (1EB = 1tû GB) [IDC10]. Chó thÝch: (1) Ngêi dïng vµ nh©n viªn t¹o, lu gi÷, hoÆc sao chÐp th«ng tin c¸ nh©n; (2) Doanh nghiÖp t¹o, vËn chuyÓn, lu tr÷, qu¶n lý, hoÆc b¶o mËt.
5 D·y ®¬n vÞ ®o dung l-îng nhí ®-îc xÕp theo chiÒu t¨ng 1000 lÇn: Byte (B), Kilo bytes (KB), Mega B (MB), Giga B (GB), Texa B (TB), Peta B (PB), Exa B (EB), Zetta B (ZB), Yotta B (YB). Nh- vËy, 1 EB = 1 tû GB vµ 1 ZB = 1 ngh×n tû GB. 6 http://www.worldwidewebsize.com/
19 20
1.1.1.2. VÒ mÆt x· héi
Xu thÕ ph¸t triÓn x· héi th«ng tin ®· më réng ®éi ngò t¸c nh©n t¹o lËp vµ
sö dông d÷ liÖu. Nguån d÷ liÖu ®îc t¹o lËp, khai th¸c vµ truyÒn dÉn kh«ng chØ
cã trong ho¹t ®éng t¸c nghiÖp t¹i c¸c c«ng ty, mµ mét lîng d÷ liÖu khæng lå
kh¸c ®· ®îc mét lùc lîng hïng hËu c¸c c¸ nh©n t¹o lËp vµ phæ biÕn trªn
Internet trªn c¸c trang web c¸ nh©n, c¸c m¹ng x· héi... Tíi th¸ng 2/2011, m¹ng
x· héi Facebook ®· bao gåm kho¶ng 40 tû ¶nh7.
T¹i H×nh 1.3, vµo n¨m 2010, dung lîng d÷ liÖu tæng thÓ toµn thÕ giíi ®·
®¹t kho¶ng 1.260 EB, trong ®ã cã tíi 900 EB d÷ liÖu do ngêi sö dông t¹o ra
(UGC: User-Genegated Content); dung lîng d÷ liÖu lo¹i nµy ®· gÊp gÇn 4 lÇn
dung lîng d÷ liÖu ®îc c¸c doanh nghiÖp t¹o lËp ra (kho¶ng 240 EB).
1.1.1.3. Chi phÝ t¹o lËp d÷ liÖu míi ngµy cµng gi¶m
Theo tÝnh to¸n dù b¸o cña IDC ®îc c«ng bè vµo th¸ng 5/2010, gi¸ thµnh
t¹o míi 1 GB d÷ liÖu lµ gÇn 0,5 xu Mü vµo n¨m 2009; gi¸ thµnh nµy sÏ tiÕp tôc
gi¶m trong c¸c n¨m tiÕp theo vµ dù kiÕn gi¸ t¹o míi mét GB d÷ liÖu sÏ vµo
kho¶ng 0,02 xu Mü vµo n¨m 2020 (H×nh 1.4). §iÒu cã lîi nµy võa lµ kÕt qu¶ cña
cuéc c¸ch m¹ng c«ng nghÖ võa lµ mét nguyªn nh©n gãp phÇn t¨ng trëng dung
lîng d÷ liÖu.
7 http://www.economist.com/node/15557443?story_id=15557443, ®¨ng ngµy 25/2/2010.
H×nh 1.4. Dung lîng d÷ liÖu tæng thÓ vµ gi¸ thµnh t¹o lËp d÷ liÖu giai ®o¹n 2009-2020 [IDC10].
Sau ®©y lµ mét sè vÝ dô minh häa vÒ tÝnh phong phó cña hiÖn tîng “bïng
næ d÷ liÖu”. D÷ liÖu tæng thÓ tiÕp tôc ph¸t sinh, lu tr÷ bao gåm giao dÞch
th¬ng m¹i, cuéc gäi diÖn tho¹i, d÷ liÖu khoa häc: thiªn v¨n, sinh häc, Web, v¨n
b¶n, ¶nh,... Theo tæng hîp cña IDC, tuy cã bÞ ¶nh hëng cña khñng ho¶ng kinh
tÕ trong c¸c n¨m 2008-2009 song dung lîng d÷ liÖu tæng thÓ vµo n¨m 2010 ®·
t¨ng 62% so víi gÇn 0,8 ZB (800 EB) vµo n¨m 2009 ®Ó ®¹t tíi 1,26 ZB (1260
EB).
Còng theo IDC, nguån d÷ liÖu tæng thÓ ®îc dù b¸o lªn tíi 35 ZB vµo n¨m
2020. §é dèc cña ®êng biÓu diÔn dung lîng nguån d÷ liÖu tæng thÓ trong
H×nh 1.4 ngµy cµng lín, chøng tá ®é t¨ng trëng d÷ liÖu ngµy cµng cao.
1.1.2. Ngµnh c«ng nghiÖp dùa trªn d÷ liÖu
ViÖc t¹o lËp, thu thËp vµ lu tr÷ d÷ liÖu víi kÕt qu¶ lµ xuÊt hiÖn c¸c kho
chøa d÷ liÖu khæng lå ®îc liÖt kª trªn ®©y kh«ng ngoµi môc ®Ých khai ph¸ d÷
liÖu nh»m ph¸t hiÖn c¸c tri thøc míi gióp Ých cho ho¹t ®éng cña con ngêi trong
tËp hîp d÷ liÖu.
Theo Jim Gray, chuyªn gia cña Microsoft, ngêi ®îc nhËn gi¶i thëng
Turing n¨m 1998, th× “Chóng ta ®ang ngËp trong d÷ liÖu khoa häc, d÷ liÖu y tÕ,
d÷ liÖu nh©n khÈu häc, d÷ liÖu tµi chÝnh, vµ c¸c d÷ liÖu tiÕp thÞ. Con ngêi kh«ng
cã ®ñ thêi gian ®Ó xem xÐt d÷ liÖu nh vËy… V× vËy, chóng ta ph¶i t×m c¸ch tù
®éng ph©n tÝch d÷ liÖu, tù ®éng ph©n lo¹i nã, tù ®éng tãm t¾t nã, tù ®éng ph¸t
hiÖn vµ m« t¶ c¸c xu híng trong nã, vµ tù ®éng chØ dÉn c¸c dÞ thêng. §©y lµ
mét trong nh÷ng lÜnh vùc n¨ng ®éng vµ thó vÞ nhÊt cña céng ®ång nghiªn cøu c¬
së d÷ liÖu. C¸c nhµ nghiªn cøu vÒ thèng kª, trùc quan hãa, trÝ tuÖ nh©n t¹o, vµ
häc m¸y ®ang ®ãng gãp cho lÜnh vùc nµy. TÝnh réng lín cña lÜnh vùc ®· lµm cho
nã trë nªn khã kh¨n ®Ó n¾m b¾t nh÷ng tiÕn bé phi thêng trong vµi thËp kû gÇn
®©y” [HK0106].
21 22
Kenneth Cukier ®a ra nhËn ®Þnh t¬ng tù “Th«ng tin tõ khan hiÕm tíi d
dËt. §iÒu ®ã mang l¹i lîi Ých míi to lín... t¹o nªn kh¶ n¨ng lµm ®îc nhiÒu viÖc
mµ tríc ®©y kh«ng thÓ thùc hiÖn ®îc: nhËn ra c¸c xu híng kinh doanh, ng¨n ngõa bÖnh tËt, chèng téi ph¹m...§îc qu¶n lý tèt, d÷ liÖu nh vËy cã thÓ ®îc sö
dông ®Ó më khãa c¸c nguån míi cã gi¸ trÞ kinh tÕ, cung cÊp nh÷ng hiÓu biÕt míi
vµo khoa häc vµ t¹o ra lîi Ých tõ qu¶n lý..."7.
Nh ®· ®îc tr×nh bµy, nhiÒu tri thøc cã Ých ®ang tiÒm Èn trong tËp d÷ liÖu
®å sé ®îc thu thËp vµ lu gi÷. Tuy nhiªn, dung lîng khæng læ cña d÷ liÖu ®îc
t¹o lËp, thu thËp vµ lu tr÷ l¹i t¹o nªn c¸c th¸ch thøc míi cho con ngêi trong
viÖc hiÓu vµ xö lý d÷ liÖu, dÉn ®Õn t×nh tr¹ng con ngêi “ngËp trong d÷ liÖu”.
Còng theo Kenneth Cukier7 th× th«ng tin tõ khan hiÕm tíi d dËt “còng lµ mét
nçi ®au ®Çu lín... Con ngêi ®· tõ l©u phµn nµn r»ng hä ®· ph¶i b¬i trong th«ng tin (d÷ liÖu)”. “Nçi ®au ®Çu” mµ Kenneth Cukier muèn nãi ®Õn lµ hiÖn tîng
con ngêi ngµy cµng khã tiÕp cËn ®îc nguån d÷ liÖu to lín ®ang ngµy cµng gia
t¨ng còng nh khã tiÕp cËn ®îc c¸ch thøc ®Ó qu¶n lý tèt ®îc nguån d÷ liÖu
khæng lå ®ã nh»m mang l¹i lîi Ých to lín trong viÖc nhËn ra c¸c xu híng kinh
doanh, ng¨n ngõa bÖnh tËt, chèng téi ph¹m…
H×nh 1.5 cung cÊp mét dù b¸o IDC Digital Universe Study vÒ ®é t¨ng d÷
liÖu tæng thÓ trong “vò trô sè” giai ®o¹n 2009-2020. So víi n¨m 2009, vµo n¨m
2020, sè lîng ®èi tîng chøa tin t¨ng 67 lÇn, dung lîng d÷ liÖu íc ®¹t 35 ZB
t¨ng 44 lÇn, tuy nhiªn lùc lîng lao ®éng vÒ CNTT chØ t¨ng 1,4 lÇn. Sù chªnh
lÖch gi÷a tèc ®é t¨ng dung lîng d÷ liÖu so víi tèc ®é t¨ng lùc lîng lao ®éng
CNTT còng trë thµnh mét th¸ch thøc lín trong xö lý vµ sö dông d÷ liÖu.
H¬n n÷a, thÕ giíi ngµy nay ®ang trong thêi kú qu¸ ®é chuyÓn tõ kinh tÕ
hµng hãa (good economy, hay kinh tÕ híng hµng hãa: good-dominant
economy) sang kinh tÕ dÞch vô (service economy, hay kinh tÕ híng dÞch vô:
service-dominant economy), mµ tri thøc ®· trë thµnh ®éng lùc chñ chèt cho t¨ng
trëng kinh tÕ (Ch¬ng 2). Trong xu thÕ chuyÓn sang nÒn kinh tÕ híng dÞch vô,
yªu cÇu qu¶n lý tèt d÷ liÖu lín cµng trë nªn cÊp b¸ch ®èi víi con ngêi trong
viÖc gi¶i quyÕt t×nh tr¹ng “ngËp trong d÷ liÖu mµ kh¸t tri thøc”.
Nh vËy, mét yªu cÇu cÊp thiÕt ®Æt ra lµ ph¶i x©y dùng ®îc c¸c ph¬ng
ph¸p míi xö lý (tù ®éng) d÷ liÖu ®Ó phï hîp víi hoµn c¶nh khèi lîng d÷ liÖu ®·
rÊt lín vµ ®ang t¨ng trëng víi tèc ®é ngµy cµng cao. C¸c nhµ nghiªn cøu vµ
triÓn khai ®· ®Ò cËp tíi cuéc c¸ch m¹ng c«ng nghiÖp d÷ liÖu (“the industrial
revolution of data”). Mét lÜnh vùc khoa häc míi mang tªn “khoa häc d÷ liÖu
lín”7 (science of big data) ®· ®îc h×nh thµnh. Tõ nguån d÷ liÖu khæng lå ®îc
qu¶n lý tèt, chóng ta sÏ thu nhËn ®îc c¸c tri thøc vÒ xu híng kinh doanh, vÒ
ng¨n ngõa bÖnh tËt, vÒ chèng téi ph¹m.
H×nh 1.5. §é t¨ng cña d÷ liÖu tæng thÓ vµ lùc lîng lao ®éng CNTT giai ®o¹n 2009-2020 [IDC10].
Còng theo Kenneth Cukier, c«ng nghiÖp qu¶n lý vµ ph©n tÝch d÷ liÖu ®Ó
nhËn ®îc tri thøc tiÒm Èn tõ d÷ liÖu (c«ng nghiÖp dùa trªn d÷ liÖu) ®îc ®Þnh
gi¸ lªn tíi h¬n 100 tû ®« la Mü t¹i thêi ®iÓm n¨m 2010 vµ cã tèc ®é t¨ng trëng
kho¶ng 10% hµng n¨m (gÇn gÊp ®«i so víi tèc ®é t¨ng trëng cña kinh doanh
phÇn mÒm nãi chung). Trong mét vµi n¨m cuèi cña thËp niªn 2000, c¸c tËp ®oµn
CNTT hµng ®Çu thÕ giíi nh Oracle, IBM, Microsoft vµ SAP ®· chi tíi h¬n 15 tû
®« la Mü ®Ó mua l¹i c¸c c«ng ty phÇn mÒm chuyªn vÒ qu¶n lý vµ ph©n tÝch d÷
liÖu.
23 24
§Þnh nghÜa c«ng nghÖ d÷ liÖu lín cña IDC vµo n¨m 2011 [GR11] cung cÊp
mét c¸ch hiÓu vÒ néi dung cña c«ng nghÖ míi nµy: C«ng nghÖ d÷ liÖu lín m« t¶
mét thÕ hÖ míi cña c«ng nghÖ vµ kiÕn tróc h¹ tÇng, ®îc thiÕt kÕ tiÕt kiÖm nhÊt
®Ó thu ®îc gi¸ trÞ tõ khèi lîng rÊt lín cña d÷ liÖu ®a d¹ng, b»ng c¸ch cho phÐp
chôp tèc ®é cao, ph¸t hiÖn vµ/hoÆc ph©n tÝch8.
Song hµnh víi xu híng ho¹t ®éng qu¶n lý, ph¸t hiÖn vµ ph©n tÝch d÷ liÖu
ngµy cµng ®îc t¨ng cêng, ngêi gi¸m ®èc th«ng tin (Chief information
officer: CIO) cã vai trß ngµy cµng næi bËt trong bé m¸y ®iÒu hµnh cña tæ chøc.
Hä lµ c¸c nhµ khoa häc d÷ liÖu (data scientist), nh÷ng ngêi tÝch hîp ®îc c¸c
kü n¨ng cña lËp tr×nh viªn, nhµ thèng kª vµ nghÖ nh©n nh»m “®µo ®îc vµng
cèm Èn trong nói d÷ liÖu”. §Æc ®iÓm “nghÖ nh©n” cña nhµ khoa häc d÷ liÖu cßn
®îc chØ dÉn nh lµ “ngêi kÓ chuyÖn” (storyteller). §iÒu nµy cã thÓ ®îc gi¶i
thÝch lµ nhµ khoa häc d÷ liÖu cã n¨ng lùc “kÓ l¹i ®îc c©u chuyÖn cña d÷ liÖu”,
®Ó tõ ®ã cho phÐp nhËn ra ®îc c¸c tri thøc h÷u Ých, cÇn thiÕt tõ “nói d÷ liÖu ®å
sé”. Theo Quü khoa häc quèc gia Mü (NSF), nhµ khoa häc d÷ liÖu cã c¸c chøc
n¨ng sau ®©y “thi hµnh s¸ng t¹o ho¹t ®éng kh¶o s¸t vµ ph©n tÝch, t¨ng cêng t
vÊn, hîp t¸c, vµ phèi hîp n¨ng lùc cña nh÷ng ngêi kh¸c ®Ó tiÕn hµnh nghiªn
cøu vµ gi¸o dôc b»ng c¸c bé d÷ liÖu sè; ®i tiªn phong trong viÖc ph¸t triÓn s¸ng
t¹o trong lÜnh vùc c«ng nghÖ c¬ së d÷ liÖu vµ khoa häc th«ng tin, bao gåm
ph¬ng ph¸p trùc quan hãa d÷ liÖu vµ ph¸t hiÖn tri thøc ®Ó ¸p dông vµo c¸c lÜnh
vùc khoa häc vµ gi¸o dôc liªn quan ®Õn c¸c bé d÷ liÖu; thi hµnh mét c¸ch tèt
nhÊt c¶ theo khÝa c¹nh thùc tiÔn lÉn khÝa c¹nh c«ng nghÖ; ®ãng vai trß cè vÊn ®Ó
khëi t¹o hoÆc chuyÓn ®æi d÷ liÖu cho c¸c nhµ ®iÒu tra, sinh viªn vµ nh÷ng ngêi
kh¸c cã quan t©m tíi khoa häc d÷ liÖu; thiÕt kÕ vµ thi hµnh c¸c ch¬ng tr×nh gi¸o
dôc vµ tiÕp cËn céng ®ång lµm cho lîi Ých cña c¸c bé d÷ liÖu vµ th«ng tin khoa
häc kü thuËt sè tíi c¸c nghiªn cøu viªn, gi¶ng viªn, sinh viªn vµ c«ng chóng
trong mét ph¹m vi réng nhÊt cã thÓ ®îc” [NSF05]. A. Swan vµ S. Brown [SB08]
quan niÖm r»ng nhµ khoa häc d÷ liÖu lµ nh÷ng ngêi nghiªn cøu vµ thùc hiÖn
8 Nguyªn v¨n: "Big data technologies describe a new generation of technologies and
architectures, designed to economically extract value from very large volumes of a wide
variety of data, by enabling high-velocity capture, discovery, and/or analysis".
toµn bé hoÆc bé phËn tËp hîp c¸c chøc n¨ng nh ®Þnh nghÜa trªn ®©y cña NSF.
Hai t¸c gi¶ ph©n biÖt nhµ khoa häc d÷ liÖu víi nhµ t¹o lËp d÷ liÖu (t¸c gi¶ d÷
liÖu), ngêi qu¶n lý d÷ liÖu, vµ chuyªn viªn th viÖn. Mét nhµ khoa häc d÷ liÖu
hoÆc lµ nhµ khoa häc m¸y tÝnh cã kü n¨ng ®¸ng kÓ miÒn øng dông hoÆc lµ nhµ
khoa häc miÒn øng dông cã kü n¨ng ®¸ng kÓ vÒ tÝnh to¸n.
ThÝch øng víi hoµn c¶nh d÷ liÖu lín, hç trî ®¾c lùc cho nhµ khoa häc d÷
liÖu lµ c¸c ph¬ng ph¸p xö lý d÷ liÖu míi vµ c¸c bé c«ng cô tiÖn Ých thi hµnh víi
c¸c ph¬ng ph¸p nµy ®Ó ph¸t hiÖn ra c¸c tri thøc míi, cã gi¸ trÞ, h÷u dông ®ang
tiÒm Èn trong d÷ liÖu lín ®ã. X©y dùng vµ ph¸t triÓn ph¬ng ph¸p vµ c«ng cô xö
lý d÷ liÖu lín nh»m môc ®Ých ph¸t hiÖn tri thøc tiÒm Èn lµ néi dung cña lÜnh vùc
ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (Knowledge Discovery in Databases:
KDD). Khai ph¸ d÷ liÖu (Data Mining) lµ bµi to¸n xö lý d÷ liÖu c¬ b¶n nhÊt
trong qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu. Trong nhiÒu trêng hîp,
hai kh¸i niÖm Khai ph¸ d÷ liÖu vµ Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu cßn
mang cïng mét néi dung.
Nh ®îc m« t¶ trong H×nh 1.2, J. Han vµ M. Kamber [HK0106] cho r»ng
qu¸ tr×nh tiÕn hãa cña lÜnh vùc c«ng nghÖ c¬ së d÷ liÖu (CSDL), trong ®ã c«ng
nghÖ khai ph¸ d÷ liÖu (Data Mining) ®îc coi lµ giai ®o¹n tiÕn hãa míi cña c«ng
nghÖ CSDL. Qu¸ tr×nh tiÕn hãa nµy ®îc b¾t ®Çu tõ cuèi nh÷ng n¨m 1980 vµ
kh«ng ngõng ®îc ph¸t triÓn vÒ bÒ réng vµ chiÒu s©u.
1.2. Kh¸i niÖm Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu
LÜnh vùc khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL lµ mét lÜnh vùc
réng lín, ®· cuèn hót c¸c ph¬ng ph¸p, thuËt to¸n vµ kü thuËt tõ nhiÒu chuyªn
ngµnh nghiªn cøu kh¸c nhau nh häc m¸y, thu nhËn mÉu, CSDL, thèng kª, trÝ
tuÖ nh©n t¹o, thu nhËn tri thøc trong hÖ chuyªn gia cïng híng tíi mét môc tiªu
thèng nhÊt lµ trÝch läc ra ®îc c¸c "tri thøc" tõ d÷ liÖu trong c¸c kho chøa khæng
lå. TÝnh phong phó vµ ®a d¹ng cña lÜnh vùc khai ph¸ d÷ liÖu dÉn ®Õn mét thùc
25 26
tr¹ng lµ tån t¹i c¸c quan niÖm kh¸c nhau vÒ c¸c chuyªn ngµnh khoa häc - c«ng
nghÖ gÇn gòi nhÊt víi lÜnh vùc ®ã.
H×nh 1.6. Ngìng ®¬n T theo thu nhËp ®Ó ph©n líp cho vay: Vïng bÞ phñ bëi ngìng T (vïng c¸c dÊu chÊm) t¬ng øng quyÕt ®Þnh kh«ng cho vay (FPS96] (Lu ý, vïng phÝa trªn ®êng
nghiªng rêi nÐt cho quyÕt ®Þnh tèt h¬n).
Gi¸o tr×nh nµy t¸n thµnh quan niÖm cña J. Han vµ M. Kamber coi lÜnh vùc
khai ph¸ d÷ liÖu lµ giai ®o¹n ph¸t triÓn míi cña c«ng nghÖ CSDL vµ cã liªn quan
mËt thiÕt víi nhiÒu ngµnh. Nh vËy, cã thÓ g¾n lÜnh vùc nµy víi chuyªn ngµnh
hÖ thèng th«ng tin.
VÝ dô 1.1. (Frawley, Piatetski-Shapiro vµ Matheus [FPS96])
H×nh 1.6. tr×nh bµy mét tËp d÷ liÖu gi¶ ®Þnh vÒ vay nî ng©n hµng gåm 23
trêng hîp ®îc biÓu diÔn trong kh«ng gian hai chiÒu. Mçi ®iÓm trªn ®å thÞ biÓu
diÔn mét trêng hîp vay nî ë ng©n hµng trong qu¸ khø. Trôc hoµnh biÓu diÔn
thu nhËp cßn trôc tung biÓu diÔn tæng nî c¸ nh©n cña ngêi ®i vay (tiÒn thÕ
chÊp, tiÒn chi tr¶ « t«...). D÷ liÖu ®îc ph©n thµnh hai líp: líp gåm nh÷ng
ngêi thiÕu kh¶ n¨ng tr¶ nî ng©n hµng vµ líp o gåm nh÷ng ngêi cã t×nh tr¹ng
tèt.
H×nh 1.7. Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu [FPS96]
Kh¸i niÖm 1.1. [FPS96]
Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (®«i khi cßn ®îc gäi lµ khai ph¸ d÷
liÖu) lµ mét qu¸ tr×nh kh«ng tÇm thêng t×m ra nh÷ng mÉu cã gi¸ trÞ, míi, h÷u
Ých tiÒm n¨ng vµ hiÓu ®îc trong d÷ liÖu.
Lµ lÜnh vùc nghiªn cøu vµ triÓn khai ®îc ph¸t triÓn rÊt nhanh chãng vµ cã
ph¹m vi rÊt réng lín, l¹i ®îc rÊt nhiÒu nhãm nghiªn cøu t¹i nhiÒu trêng ®¹i
häc, viÖn nghiªn cøu, c«ng ty ë nhiÒu quèc gia trªn thÕ giíi quan t©m, cho nªn
tån t¹i rÊt nhiÒu c¸ch tiÕp cËn kh¸c nhau ®èi víi lÜnh vùc ph¸t hiÖn tri thøc trong
CSDL. ChÝnh v× lý do ®ã mµ trong nhiÒu tµi liÖu, nh ®· nãi ë trªn, c¸c nhµ khoa
häc trªn thÕ giíi ®· dïng nhiÒu thuËt ng÷ kh¸c nhau, mµ c¸c thuËt ng÷ nµy ®îc
coi lµ mang cïng nghÜa víi KDD nh chiÕt läc tri thøc (knowledge extraction),
ph¸t hiÖn th«ng tin (information discovery), thu ho¹ch th«ng tin (information
harvesting), khai quËt d÷ liÖu (data archaeology), xö lý mÉu d÷ liÖu (data pattern
processing)... H¬n n÷a, trong nhiÒu trêng hîp, hai kh¸i niÖm "Ph¸t hiÖn tri thøc
trong c¬ së d÷ liÖu" vµ "khai ph¸ d÷ liÖu" cßn ®îc dïng thay thÕ nhau [FPS96].
Hai kh¸i niÖm khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¸c CSDL thêng cÆp
®«i víi nhau.
1.2.1. Gi¶i thÝch mét sè thuËt ng÷
Mét sè thuËt ng÷ cã trong ®Þnh nghÜa 1.1 trªn ®©y cÇn ®îc gi¶i thÝch lµ
"mÉu", "cã gi¸ trÞ", "míi", "h÷u Ých" vµ "hiÓu ®îc". Díi ®©y tr×nh bµy mét sè
gi¶i thÝch s¬ bé vÒ c¸c kh¸i niÖm nµy nh»m lµm têng minh thªm ng÷ nghÜa cña
kh¸i niÖm KDD trong ®Þnh nghÜa 1.1.
D÷ liÖu (chÝnh x¸c h¬n lµ tËp d÷ liÖu) ®îc hiÓu nh lµ mét tËp F gåm
h÷u h¹n c¸c trêng hîp (sù kiÖn). Theo néi dung cña ph¸t hiÖn tri thøc trong c¸c
CSDL, d÷ liÖu ph¶i bao gåm nhiÒu trêng hîp. Trong vÝ dô 1.1, F lµ tËp hîp
gåm 23 trêng hîp (b¶n ghi) víi 3 trêng th«ng tin (thuéc tÝnh) t¬ng øng chøa
c¸c gi¸ trÞ vÒ sè nî, thu nhËp vµ t×nh tr¹ng vay nî. Trong bµi to¸n khai ph¸ v¨n
27 28
b¶n, tËp d÷ liÖu F chÝnh tËp hîp c¸c v¨n b¶n cã thÓ cã trong miÒn øng dông.
Trong bµi to¸n khai ph¸ luËt kÕt hîp giao dÞch, tËp F bao gåm tÊt c¶ c¸c giao
dÞch cã thÓ cã ®îc xem xÐt trong miÒn ¸p dông cña bµi to¸n.
MÉu: Trong qu¸ tr×nh KDD, ngêi ta sö dông mét ng«n ng÷ L ®Ó biÓu
diÔn c¸c tËp con c¸c sù kiÖn (d÷ liÖu) thuéc vµo tËp sù kiÖn F, theo ®ã mçi biÓu
thøc E trong ng«n ng÷ L sÏ biÓu diÔn mét tËp con FE t¬ng øng c¸c sù kiÖn trong
F. E ®îc gäi lµ mÉu nÕu nã ®¬n gi¶n h¬n (theo mét ng÷ c¶nh nµo ®ã) so víi
viÖc liÖt kª c¸c sù kiÖn thuéc FE. Ch¼ng h¹n, biÓu thøc "THUNHËP < $t" (m«
h×nh chøa mét biÕn THUNHËP) trong mÖnh ®Ò "NÕu THUNHËP < $t th× ngêi
vay nî r¬i vµo t×nh tr¹ng kh«ng thÓ chi tr¶" sÏ lµ mét mÉu khi cho biÕn t nhËn
mét gi¸ trÞ thÝch hîp. Nh tr×nh bµy b»ng ®å thÞ t¹i H×nh 1.6, khi biÕn t nhËn mét
gi¸ trÞ cô thÓ T mÉu nµy (biÓu diÔn mäi trêng hîp cã THUNHËP < T) hiÓn
nhiªn lµ gän h¬n so víi viÖc liÖt kª 14 trêng hîp cô thÓ. T¬ng tù, nÕu F lµ tËp
c¸c trang Web trong kho lu tr÷ cña mét m¸y t×m kiÕm (ch¼ng h¹n Google) th×
mÉu "tµi liÖu cã chøa tõ côm tõ "Search Engine" sÏ biÓu diÔn mét tËp bao gåm
mét sè lîng rÊt lín c¸c tµi liÖu Web cã chøa côm tõ "Search Engine" ®ã.
Qu¸ tr×nh KDD thêng bao gåm nhiÒu bíc lµ chuÈn bÞ d÷ liÖu, t×m kiÕm
mÉu, íc lîng tri thøc, tinh chÕ sù t¬ng t¸c néi t¹i sau khi chuyÓn d¹ng d÷
liÖu. Qu¸ tr×nh ®îc thõa nhËn lµ kh«ng tÇm thêng theo nghÜa lµ qu¸ tr×nh ®ã
kh«ng chØ nhiÒu bíc mµ cßn ®îc thùc hiÖn lÆp ®i lÆp l¹i, vµ quan träng h¬n,
qu¸ tr×nh ®ã bao hµm mét møc ®é t×m kiÕm tù ®éng. Ch¼ng h¹n trong VÝ dô 1.1,
khi tÝnh to¸n ý nghÜa vÒ thu nhËp cña mét ngêi, nÕu chØ th«ng qua c¸c t¸c ®éng
®¬n gi¶n mµ chóng ta thu nhËn ®îc mét kÕt luËn nµo ®ã cã thÓ lµ h÷u Ých vÒ
mèi quan hÖ gi÷a thu nhËp vµ t×nh trang vay ng©n hµng, ch¼ng h¹n nh “ngêi
cã thu nhËp cao th× kh¶ n¨ng th× cã t×nh tr¹ng vay nî tèt”, th× ®õng véi cho r»ng
®ã ®· lµ mét kh¸m ph¸ (hoÆc ®õng cho r»ng mét tri thøc ®· ®îc ph¸t hiÖn).
Cã gi¸ trÞ: MÉu ®îc ph¸t hiÖn cÇn ph¶i cã gi¸ trÞ ®èi víi c¸c d÷ liÖu míi
(xuÊt hiÖn trong t¬ng lai) theo mét møc ®é ch©n thùc nµo ®Êy. TÝnh chÊt "cã
gi¸ trÞ" ®îc hiÓu theo nghÜa liªn quan tíi mét ®é ®o tÝnh cã gi¸ trÞ (ch©n thùc) lµ
mét hµm C ¸nh x¹ mét biÓu thøc thuéc ng«n ng÷ biÓu diÔn mÉu L tíi mét kh«ng
gian ®o ®îc (bé phËn hoÆc toµn bé) MC. Mét biÓu thøc E trong L biÓu diÔn mét
tËp con FE F cã thÓ ®îc g¸n mét ®é ®o ch©n thùc c = C(E,F).
Ch¼ng h¹n, nÕu ®êng biªn x¸c ®Þnh mÉu "THUNHËP < $t" nh chØ dÉn
trong H×nh 1.6 ®îc dÞch sang ph¶i (biÕn THUNHËP nhËn gi¸ trÞ lín h¬n) th× ®é
ch©n thùc cña mÉu míi sÏ bÞ gi¶m xuèng bëi v× nã ®· bao gãi thªm c¸c t×nh
huèng vay tèt l¹i bÞ ®a vµo vïng kh«ng cho vay nî.
T¬ng tù, mÉu "NÕu a*THUNHËP + b*Nî < 0 (thuéc m« h×nh tuyÕn tÝnh
hai biÕn THUNHËP vµ Nî trong a*THUNHËP + b*Nî) th× ngêi vay nî r¬i vµo
t×nh tr¹ng kh«ng thÓ chi tr¶" biÓu diÔn mét nöa mÆt ph¼ng phÝa trªn cña ®êng
rêi nÐt trong H×nh 1.6 sÏ cho ®é ch©n thùc cao h¬n (hay ®îc coi lµ "cã gi¸ trÞ
h¬n") so víi mäi mÉu thuéc m« h×nh mét biÕn "THUNHËP < $t".
TÝnh míi: MÉu ph¶i lµ míi trong mét miÒn xem xÐt nµo ®ã, Ýt nhÊt lµ hÖ
thèng ®ang ®îc xem xÐt. TÝnh míi cã thÓ ®o ®îc khi quan t©m tíi sù thay ®æi
trong d÷ liÖu (b»ng viÖc so s¸nh gi¸ trÞ hiÖn t¹i víi gi¸ trÞ qu¸ khø hoÆc gi¸ trÞ kú
väng) hoÆc tri thøc (tri thøc míi quan hÖ nh thÕ nµo víi c¸c tri thøc ®· cã).
Tæng qu¸t, ®iÒu nµy cã thÓ ®îc ®o b»ng mét hµm N(E,F) hoÆc lµ ®é ®o vÒ tÝnh
míi hoÆc lµ ®é ®o kú väng.
H÷u Ých tiÒm n¨ng: MÉu cÇn cã kh¶ n¨ng chØ dÉn tíi c¸c t¸c ®éng h÷u
dông vµ ®îc ®o bëi mét hµm tiÖn Ých. Ch¼ng h¹n, hµm U ¸nh x¹ c¸c biÓu thøc
trong L tíi mét kh«ng gian ®o cã thø tù (bé phËn hoÆc toµn bé) MU, theo ®ã u =
U (E,F). VÝ dô, trong tËp d÷ liÖu vay nî, hµm nµy cã thÓ lµ sù t¨ng hy väng theo sù t¨ng l·i cña nhµ b¨ng (tÝnh theo ®¬n vÞ tiÒn tÖ) kÕt hîp víi quy t¾c quyÕt ®Þnh
®îc tr×nh bµy trong H×nh 1.6.
Cã thÓ hiÓu ®îc: Mét môc tiªu cña KDD lµ t¹o ra c¸c mÉu mµ con ngêi hiÓu chóng dÔ dµng h¬n c¸c d÷ liÖu nÒn (d÷ liÖu s½n cã trong hÖ thèng). ChÝnh v×
lý do tiªu chÝ nµy lµ khã mµ ®o ®îc mét c¸ch chÝnh x¸c cho nªn thêng tÝnh
chÊt "cã thÓ hiÓu ®îc" ®îc thay b»ng mét ®é ®o vÒ sù dÔ hiÓu. Tån t¹i mét sè
®é ®o vÒ sù dÔ hiÓu, c¸c ®é ®o nh vËy ®îc s¾p xÕp tõ có ph¸p (tøc lµ cì cña
mÉu theo bit) tíi ng÷ nghÜa (tøc lµ dÔ dµng ®Ó con ngêi nhËn thøc ®îc theo
mét t¸c ®éng nµo ®ã). Bëi lý do ®ã, chóng ta gi¶ ®Þnh r»ng tÝnh hiÓu ®îc lµ ®o
29 30
®îc b»ng mét hµm S ¸nh x¹ biÓu thøc E trong L tíi mét kh«ng gian ®o ®îc cã
thø tù (bé phËn hoÆc toµn bé) MS; theo ®ã, s = S(E,F).
§é hÊp dÉn: Mét tiªu chÝ quan träng, ®îc gäi lµ ®é hÊp dÉn (interestingness), thêng ®îc coi nh mét ®é ®o tæng thÓ vÒ mÉu lµ sù kÕt hîp
cña c¸c tiªu chÝ gi¸ trÞ, míi, h÷u Ých vµ cã thÓ hiÓu ®îc. Mét sè hÖ thèng KDD
thêng sö dông mét hµm hÊp dÉn díi d¹ng hiÓn i = I (E, F, C, N, U, S) thùc
hiÖn ¸nh x¹ mét biÓu thøc trong L vµo mét kh«ng gian ®o ®îc Mi. Mét sè hÖ
thèng KDD kh¸c l¹i cã thÓ x¸c ®Þnh gi¸ trÞ hÊp dÉn cña mÉu mét c¸ch trùc tiÕp
th«ng qua thø tù cña c¸c mÉu ®îc ph¸t hiÖn.
Trong thùc tiÔn gi¶i quyÕt c¸c bµi to¸n khai ph¸ d÷ liÖu, ngêi ta thêng
chØ quan t©m ®Õn ®é hÊp dÉn, cßn c¸c ®é ®o kh¸c ®îc mÆc ®Þnh coi lµ thµnh
phÇn cña ®é hÊp dÉn. Cô thÓ lµ, khi thi hµnh mét lo¹i bµi to¸n ph¸t hiÖn tri thøc
cô thÓ, mét sè ®é ®o t¬ng øng ®îc tÝnh to¸n nh»m x¸c ®Þnh ®é hÊp dÉn cña tri
thøc ("mÉu", "luËt") ®ang ®îc xem xÐt. Ch¼ng h¹n, trong bµi to¸n khai ph¸ luËt
kÕt hîp, hai ®é ®o ®îc xem xÐt, ®ã lµ ®é hç trî (x¸c ®Þnh ph¹m vi ¶nh hëng
cña luËt) vµ ®é tin cËy (x¸c ®Þnh tÝnh tin cËy cña luËt) hîp thµnh ®é hÊp dÉn cña
luËt kÕt hîp ®· ®îc khai ph¸. T¬ng tù, trong bµi to¸n ph©n líp, ngêi ta sö
dông hai ®é ®o c¬ b¶n lµ ®é håi tëng (recall - kh¶ n¨ng bao gãi vÝ dô ®óng) vµ
®é chÝnh x¸c (precision - kh¶ n¨ng chÝnh x¸c khi x¸c ®Þnh vÝ dô ®óng); ®ång
thêi, mét sè ®é ®o mang ý nghÜa kÕt hîp tõ hai ®é ®o nµy còng ®îc sö dông.
Tri thøc: Mét mÉu E L ®îc gäi lµ tri thøc nÕu nh ®èi víi mét líp
ngêi sö dông nµo ®ã, chØ ra ®îc mét ngìng i Mi mµ ®é hÊp dÉn
I(E,F,C,N,U,S) > i.
Chó ý r»ng ®Þnh nghÜa trªn ®©y vÒ kh¸i niÖm "tri thøc" kh«ng mang mét
nghÜa tuyÖt ®èi mµ phô thuéc vµo quan ®iÓm cña ngêi sö dông hÖ thèng KDD
("mét líp ngêi sö dông nµo ®ã"). Nh mét néi dung cña sù kiÖn, nã chØ lµ mét
®Þnh híng cho ngêi sö dông vµ ®îc x¸c ®Þnh b»ng bÊt kú hµm vµ ngìng nµo
®îc ngêi sö dông chän. Ch¼ng h¹n, trong bµi to¸n khai ph¸ luËt kÕt hîp,
chóng ta chØ quan t©m tíi c¸c "tËp phæ biÕn" lµ nh÷ng tËp cã ®é hç trî vît qua
mét ngìng minsup nµo ®ã. H¬n n÷a, chØ c¸c luËt kÕt hîp cã ®é tin cËy vît qu¸
ngìng minconf míi ®îc khai ph¸ ®Ó cung cÊp tri thøc tíi ngêi sö dông. C¸c
ngìng minsup vµ minconf cã thÓ ®îc thay ®æi theo lùa chän cña ngêi sö
dông.
Theo c¸ch h×nh thøc hãa, thuyÕt minh chÝnh x¸c cho ®Þnh nghÜa trªn ®©y vÒ
"tri thøc" lµ chän ngìng nµo ®ã c MC (vÒ tÝnh "cã gi¸ trÞ"), s MS (vÒ tÝnh
"cã thÓ hiÓu ®îc") vµ u MU (vÒ tÝnh "h÷u Ých") vµ khi ®ã gäi mÉu E lµ tri thøc
nÕu vµ chØ nÕu:
C(E,F) > c vµ S(E,F) > s vµ U(E,F) >u
Th«ng qua viÖc ®Æt c¸c ngìng thÝch hîp víi môc ®Ých ph¸t hiÖn tri thøc,
ngêi sö dông cã thÓ nhÊn m¹nh mét dù b¸o chÝnh x¸c hoÆc c¸c mÉu h÷u Ých
(vît qua mét ngìng ®é ®o ®¸nh gi¸ nµo ®ã) qua nh÷ng ®é ®o liªn quan. Râ
rµng lµ tån t¹i mét kh«ng gian v« h¹n cho phÐp ¸nh x¹ I x¸c ®Þnh "tri thøc cÇn
ph¸t hiÖn". QuyÕt ®Þnh nh vËy lµ tù do ®èi víi ngêi sö dông vµ ®îc ®Æc trng
®èi víi tõng miÒn øng dông.
Nghiªn cøu vÒ tÝnh hÊp dÉn cña mÉu vµ tri thøc (®îc gäi lµ ®é ®o hÊp dÉn:
interestingness measures) lµ mét néi dung nghiªn cøu quan träng trong khai ph¸
d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu. NhiÒu c«ng tr×nh nghiªn cøu kh¸i qu¸t vµ
chuyªn s©u vÒ néi dung nµy ®· ®îc c«ng bè, ch¼ng h¹n [Garry05, Grube09,
HGEK07, Yao03, HZ10, GH06, ZZNS09]. Ch¬ng 2 sÏ giíi thiÖu chi tiÕt h¬n
vÒ ®é ®o hÊp dÉn.
Nh÷ng ®iÒu tr×nh bµy trªn ®©y cho thÊy vai trß cña hÖ thèng KDD còng
nh vai trß cña ngêi sö dông trong mét phiªn lµm viÖc cña m×nh, t¹o nªn sù
céng t¸c gi÷a ngêi sö dông vµ hÖ thèng KDD. Trong sù céng t¸c ®ã, hÖ thèng
KDD t¹o thuËn tiÖn cho ngêi sö dông cã c¸ch thøc linh ho¹t dïng c¸c ngìng
®Ó ®îc cung cÊp "tri thøc" tõ hÖ thèng phï hîp víi nh÷ng dù ®o¸n chñ quan
cña m×nh. Nh vËy, cã thÓ thÊy r»ng, cïng dïng mét phÇn mÒm KDD song mçi
ngêi sö dông l¹i cã thÓ khai th¸c nã theo c¸ch thøc riªng cña m×nh.
Khi ph©n tÝch néi dung ba cuèn s¸ch hµng ®Çu vÒ khai ph¸ d÷ liÖu vµo n¨m
2003, Z.H Zhou [Zhou03] cho biÕt sù kh¸c biÖt kh«ng nhá vÒ néi dung kh¸i
niÖm ph¸t hiÖn tri thøc tõ d÷ liÖu cña ba nhãm t¸c gi¶ (J. Han vµ M. Kamber; IH
Witten vµ E. Frank; D. Hand, H. Mannila vµ P. Smyth) ®Òu lµ c¸c chuyªn gia
31 32
hµng ®Çu vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL. Tµi liÖu nµy tiÕp
nhËn quan niÖm cña Fayyad, Piatetsky-Shapiro, Smyth (®îc Z.H Zhou gäi lµ
quan niÖm truyÒn thèng) coi KDD lµ mét qu¸ tr×nh bao gåm nhiÒu bíc thùc
hiÖn (xem Kh¸i niÖm 1.1,), trong ®ã, khai ph¸ d÷ liÖu lµ mét bíc thùc hiÖn
chÝnh yÕu. C¸ch hiÓu nh vËy ®· quy ®Þnh cã sù ph©n biÖt gi÷a hai kh¸i niÖm
khai ph¸ d÷ liÖu vµ KDD.
Kh¸i niÖm 1.2. (Frawley, Piatetski-Shapiro vµ Matheus [FPS96])
Khai ph¸ d÷ liÖu lµ mét bíc trong qu¸ tr×nh Ph¸t hiÖn tri thøc trong c¬ së
d÷ liÖu, thi hµnh mét thuËt to¸n khai ph¸ d÷ liÖu ®Ó t×m ra c¸c mÉu tõ d÷ liÖu
theo khu«n d¹ng thÝch hîp.
Còng vÒ kh¸i niÖm khai ph¸ d÷ liÖu, theo B.Kovalerchuk vµ E.Vityaev
[KV01], Friedman ®· tæng hîp mét sè quan niÖm liªn quan sau ®©y:
- Qu¸ tr×nh kh«ng tÇm thêng ®Ó nhËn biÕt tõ d÷ liÖu ra c¸c mÉu cã gi¸ trÞ,
míi, h÷u dông vµ hiÓu ®îc (Fayyad),
- Qu¸ tr×nh trÝch läc c¸c th«ng tin cha biÕt tríc, cã thÓ nhËn thøc ®îc,
cã thÓ t¸c ®éng ®îc tõ CSDL lín vµ sö dông chóng ®Ó t¹o ra quyÕt ®Þnh c«ng
t¸c (Zekulin),
- TËp c¸c ph¬ng ph¸p ®îc dïng trong qu¸ tr×nh ph¸t hiÖn tri thøc nh»m
têng minh c¸c quan hÖ vµ c¸c mÉu cha biÕt tríc chøa trong d÷ liÖu
(Ferruzza),
- Qu¸ tr×nh hç trî quyÕt ®Þnh khi t×m kiÕm nh÷ng mÉu th«ng tin cha biÕt
vµ h÷u Ých tõ CSDL lín (Parsaye).
Z.H Zhou [Zhou03] giíi thiÖu ba tiÕp cËn sau ®©y vÒ néi dung kh¸i niÖm
khai ph¸ d÷ liÖu qua ph©n tÝch néi dung ba cuèn s¸ch nªu trªn:
- Qu¸ tr×nh kh¸m ph¸ tri thøc thó vÞ tõ lîng lín d÷ liÖu ®îc lu tr÷
trong CSDL, hoÆc kho d÷ liÖu, hoÆc c¸c kho th«ng tin kh¸c (J. Han vµ M.
Kamber),
- Sù khai th¸c th«ng tin tiÒm Èn, tríc ®ã cha biÕt, vµ cã kh¶ n¨ng h÷u
Ých tõ d÷ liÖu (IH Witten vµ E. Frank),
- Ph©n tÝch tËp d÷ liÖu quan s¸t (thêng lín) ®Ó t×m ra c¸c mèi quan hÖ
têng minh vµ tãm t¾t d÷ liÖu theo c¸ch míi ®Ó chóng võa dÔ hiÓu võa h÷u Ých
cho chñ së hữu d÷ liÖu (D. Hand, H. Mannila, P. Smyth).
1.2.2. Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu
Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ®îc m« t¶ trong H×nh 1.7
vµ tr×nh bµy chi tiÕt h¬n trong H×nh 1.8. T¬ng øng víi s¬ ®å m« t¶ chi tiÕt qu¸
tr×nh KDD (H×nh 1.8), c¸c nhãm bíc thùc hiÖn sau ®©y ®îc tiÕn hµnh trong
qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL:
H×nh 1.8. Mét m« t¶ chi tiÕt qu¸ tr×nh KDD
(1) Më réng hiÓu biÕt vÒ miÒn øng dông, vÒ c¸c tri thøc víi ®é u tiªn thÝch
hîp vµ vÒ môc ®Ých cña ngêi dïng cuèi. Cã thÓ coi néi dung c«ng viÖc nµy
t¬ng øng víi néi dung kh¶o s¸t bµi to¸n trong qu¸ tr×nh x©y dùng mét hÖ thèng
th«ng tin nãi chung.
33 34
Mét nhiÖm vô quan träng cña bíc nµy lµ x¸c ®Þnh bµi to¸n khai ph¸ d÷
liÖu. Môc 1.6 sÏ giíi thiÖu hai líp bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh nhÊt lµ m«
t¶ vµ dù b¸o vµ c¸c bµi toµn khai ph¸ d÷ liÖu ®iÓn h×nh thuéc vµo hai líp nµy.
Khëi t¹o tËp d÷ liÖu ®Ých, t¹o kho d÷ liÖu: chän tËp d÷ liÖu vµ/hoÆc híng
träng t©m tíi tËp con c¸c biÕn hoÆc mÉu d÷ liÖu mµ trªn ®ã c«ng viÖc ph¸t hiÖn
tri thøc ®îc tiÕn hµnh. Tri thøc miÒn øng dông cã ®îc th«ng qua viÖc më réng
hiÓu biÕt vÒ miÒn øng dông nãi trªn ®ãng vai trß lµ nÒn t¶ng tri thøc ®Ó khëi t¹o
tËp d÷ liÖu ®Ých, kho d÷ liÖu.
Ch¬ng 2 sÏ th¶o luËn chi tiÕt vÒ vai trß cña tri thøc vµ bµi to¸n ph¸t hiÖn
tri thøc trong mét miÒn øng dông.
(2) TiÒn xö lý d÷ liÖu: thùc hiÖn c¸c thao t¸c c¬ së nh gi¶i quyÕt thiÕu
v¾ng gi¸ trÞ, lo¹i bá nhiÔu hoÆc yÕu tè ngo¹i lai, kÕt nèi c¸c th«ng tin cÇn thiÕt
tíi m« h×nh hoÆc lo¹i bá nhiÔu, quyÕt ®Þnh chiÕn lîc nh»m n¾m b¾t c¸c trêng
d÷ liÖu (c¸c thuéc tÝnh), tÝnh to¸n d·y th«ng tin thêi gian vµ sù biÕn ®æi ®îc
®Þnh tríc.
ChÊt lîng cña hÖ thèng khai ph¸ d÷ liÖu phô thuéc vµo chÊt lîng cña
d÷ liÖu ®Çu vµo. Môc tiªu cña lµm s¹ch d÷ liÖu nh»m ®¶m b¶o d÷ liÖu ®Çu vµo cã
chÊt lîng tèt.
Thu gän vµ tr×nh diÔn d÷ liÖu cã môc tiªu t×m ®îc c¸c ®Æc trng h÷u
Ých nh»m tr×nh bµy mèi phô thuéc d÷ liÖu theo môc ®Ých cña bµi to¸n. Thu gän
d÷ liÖu ®îc thi hµnh vÒ chiÒu ngang (gi¶m sè lîng ®èi tîng), chiÒu däc
(gi¶m sè lîng trêng d÷ liÖu) hoÆc c¶ hai nh»m lµm cho kÝch thíc d÷ liÖu
®îc xö lý, t¨ng tèc ®é ho¹t ®éng cña hÖ thèng. Sö dông c¸c ph¬ng ph¸p thu
gän hoÆc biÕn ®æi chiÒu nh»m rót gän sè lîng c¸c biÕn cÇn quan t©m hoÆc ®Ó
t×m ra c¸c m« t¶ bÊt biÕn ®èi víi d÷ liÖu nh»m tr×nh diÔn d÷ liÖu phï hîp nhÊt.
Do khèi lîng d÷ liÖu trong bµi to¸n KDD lµ rÊt lín cho nªn viÖc thi hµnh bíc
nµy lµ rÊt cÇn thiÕt. Khi thu gän theo chiÒu ngang cÇn lu ý lµ tËp d÷ liÖu ®îc
chän lùa sau khi thu gän ph¶i cã tÝnh ®¹i diÖn cho tËp toµn bé d÷ liÖu cña miÒn
øng dông. ViÖc chän lùa d÷ liÖu vµo x©y dùng m« h×nh khai ph¸ d÷ liÖu (x©y
dùng nhµ kho d÷ liÖu) th«ng thêng cÇn ®îc tiÕn hµnh theo mét ph¬ng ph¸p
®¶m b¶o tÝnh "ngÉu nhiªn" khi chän lùa d÷ liÖu trong miÒn øng dông. T¬ng tù,
khi thu gän theo chiÒu däc cÇn lu ý c¸c thuéc tÝnh cßn l¹i ®¶m b¶o tÝnh ®¹i diÖn
cho ®èi tîng trong bµi to¸n khai ph¸ d÷ liÖu ®ang xem xÐt. Trong kh«ng Ýt bµi
to¸n khai ph¸ d÷ liÖu, khi thu gän theo chiÒu däc l¹i nhËn ®îc kÕt qu¶ tèt h¬n
kh«ng chØ vÒ thêi gian vµ kh«ng gian mµ cßn c¶ vÒ chÊt lîng cña bµi to¸n khai
ph¸ d÷ liÖu khi ®¹t ®îc ®é chÝnh x¸c cao h¬n v× ®· lo¹i bá ®îc mét sè thuéc
tÝnh g©y nhiÔu. Ph¬ng ph¸p phÇn tö chÝnh (Principal Component Analysis:
PCA, xem ch¬ng 3) thêng ®îc sö dông trong bµi to¸n thu gän theo chiÒu
däc.
Ch¬ng 3 sÏ th¶o luËn c¸c néi dung chi tiÕt vÒ c¸c bµi to¸n tiÒn xö lý d÷
liÖu vµ mét sè ph¬ng ph¸p ®iÓn h×nh gi¶i quyÕt c¸c bµi to¸n nµy.
(3) Khai ph¸ d÷ liÖu bao gåm ba néi dung lµ lùa chän bµi to¸n vµ ph¬ng
ph¸p khai ph¸ d÷ liÖu thÝch hîp vµ thi hµnh thuËt to¸n khai ph¸ d÷ liÖu.
Lùa chän bµi to¸n khai ph¸ d÷ liÖu quyÕt ®Þnh môc tiªu cña qu¸ tr×nh
KDD lµ lo¹i bµi to¸n khai ph¸ d÷ liÖu cô thÓ nµo, ch¼ng h¹n nh bµi to¸n ph©n
líp, håi quy, ph©n ®o¹n... Tri thøc miÒn øng dông thu nhËn thªm ®îc tõ bíc
më réng hiÓu biÕt vÒ miÒn øng dông rÊt cÇn thiÕt cho viÖc lùa chän bµi to¸n khai
ph¸ d÷ liÖu.
Chän lùa thuËt to¸n khai ph¸ d÷ liÖu: lùa chän ph¬ng ph¸p vµ thuËt to¸n
®îc dïng ®Ó t×m mÉu trong d÷ liÖu. Néi dung nµy bao gåm c¶ viÖc quyÕt ®Þnh
c¸c m« h×nh vµ tham sè cã thÓ ®îc chÊp nhËn vµ thuËt to¸n khai ph¸ d÷ liÖu
phï hîp víi tiªu chuÈn tæng thÓ cña qu¸ tr×nh KDD.
Thi hµnh thuËt to¸n khai ph¸ d÷ liÖu: tiÕn hµnh viÖc dß t×m c¸c mÉu cÇn
quan t©m díi d¹ng tr×nh bµy riªng biÖt hoÆc mét tËp c¸c tr×nh bµy nh quy t¾c
ph©n líp, c©y, håi quy, ph©n ®o¹n... Trong bíc nµy, sù hç trî cña ngêi dïng
vÉn ®ãng mét vai trß quan träng. C¸c ch¬ng 4-7 cña gi¸o tr×nh nµy tr×nh bµy
c¸c ph¬ng ph¸p cho c¸c khai ph¸ d÷ liÖu c¬ b¶n nhÊt.
Môc 1.2.3 tr×nh bµy mét sè néi dung chi tiÕt h¬n vÒ bíc khai ph¸ d÷ liÖu
trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu.
35 36
(4) Gi¶i thÝch mÉu ®èi víi c¸c mÉu ®îc kh¸m ph¸, cã thÓ quay vÒ mét
c¸ch hîp lý tíi bÊt kú bíc nµo tõ bíc ®Çu tiªn tíi bíc thi hµnh thuËt to¸n
khai ph¸ d÷ liÖu ®Ó thùc hiÖn lÆp.
(5) Hîp nhÊt c¸c tri thøc ®· ®îc kh¸m ph¸, kÕt hîp c¸c tri thøc nµy thµnh
mét hÖ thèng tr×nh diÔn hoÆc ®îc biªn so¹n dÔ dµng vµ kÕt xuÊt thµnh nh÷ng
thµnh phÇn hÊp dÉn. KiÓm tra vµ gi¶i quyÕt xung ®ét ®èi víi tri thøc ®îc trÝch
chän.
Trong qu¸ tr×nh ph¸t hiÖn tri thøc trong c¸c CSDL nh ®äc m« t¶ ë trªn,
chóng ta nhËn thÊy cã sù tham gia cña c¸c kho d÷ liÖu (Data Warehouse).
M« h×nh khai ph¸ d÷ liÖu ngµy cµng ®îc tiÕn hãa theo ®Þnh híng hç trî
chiÕn lîc ph¸t triÓn cña tæ chøc, nãi riªng trong c¸c doanh nghiÖp, m« h×nh
khai ph¸ d÷ liÖu ®îc tÝch hîp víi m« h×nh kinh doanh. Ch¬ng 2 sÏ tr×nh bµy
qu¸ tr×nh tiÕn hãa cña m« h×nh khai ph¸ d÷ liÖu.
1.2.3. Bíc khai ph¸ d÷ liÖu trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu
Trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu, khai ph¸ d÷ liÖu lµ bíc thùc
hiÖn chÝnh yÕu cã nhiÖm vô t¹o ra c¸c mÉu míi tõ d÷ liÖu ®· ®îc tiÒn xö lý vµ
chuyÓn d¹ng.
ViÖc chän lùa bµi to¸n khai ph¸ d÷ liÖu nµo ®· ®îc x¸c ®Þnh chñ yÕu tõ
bíc më réng hiÓu biÕt vÒ miÒn øng dông. KÕt qu¶ tiÒn xö lý d÷ liÖu cung cÊp
thªm th«ng tin ®Ó lµm râ vÒ bµi to¸n khai ph¸ d÷ liÖu ®· ®îc x¸c ®Þnh.
§èi víi bµi to¸n khai ph¸ d÷ liÖu ®· ®îc chän, tån t¹i nhiÒu thuËt to¸n
gi¶i quyÕt. VÒ c¬ b¶n, hiÓu biÕt miÒn øng dông vµ tiÒn xö lý d÷ liÖu ®· c¬ b¶n
®Þnh h×nh ®îc thuËt to¸n (hoÆc sù kÕt hîp cña mét nhãm thuËt to¸n) ®îc tiÕn
hµnh, trong ®ã viÖc chuyÓn d¹ng d÷ liÖu lµ híng tíi thuËt to¸n hay nhãm thuËt
to¸n nµy. C¸c ch¬ng 5-8 sÏ tr×nh bµy mét sè thuËt to¸n ®iÓn h×nh cho tõng lo¹i
bµi to¸n khai ph¸ d÷ liÖu. Ch¬ng 10 giíi thiÖu mét vµi chØ dÉn liªn quan tíi
c¸ch sö dông c¸c thuËt to¸n trong bµi to¸n khai ph¸ d÷ liÖu.
1.2.4. KiÕn tróc mét hÖ thèng khai ph¸ d÷ liÖu
KiÕn tróc ®iÓn h×nh cña mét hÖ thèng khai ph¸ d÷ liÖu ®îc tr×nh bµy trong
H×nh 1.9 [HK0106]. Trong kiÕn tróc hÖ thèng nµy, c¸c nguån d÷ liÖu cho c¸c hÖ
thèng khai ph¸ d÷ liÖu bao gåm hoÆc C¬ së d÷ liÖu, hoÆc Kho d÷ liÖu, hoÆc
World Wide Web, hoÆc kho chøa d÷ liÖu kiÓu bÊt kú kh¸c, hoÆc tæ hîp c¸c kiÓu
®· liÖt kª nãi trªn.
H×nh 1.9. KiÕn tróc ®iÓn h×nh hÖ thèng khai ph¸ d÷ liÖu [HK0106]
C¬ së tri thøc, bao chøa c¸c tri thøc miÒn øng dông hiÖn cã, ®îc sö dông
trong thµnh phÇn hÖ thèng khai ph¸ d÷ liÖu ®Ó lµm t¨ng tÝnh hiÖu qu¶ cña thµnh
phÇn nµy. Mét sè tham sè cña thuËt to¸n khai ph¸ d÷ liÖu t¬ng øng sÏ ®îc tinh
chØnh theo tri thøc miÒn s½n cã tõ c¬ së tri thøc trong hÖ thèng. C¬ së tri thøc
cßn ®îc sö dông trong viÖc ®¸nh gi¸ c¸c mÉu ®· khai ph¸ ®îc xem chóng cã
thùc sù hÊp dÉn hay kh«ng, trong ®ã cã viÖc ®èi chøng mÉu míi víi c¸c tri thøc
37 38
®· cã trong c¬ së tri thøc. NÕu mÉu khai ph¸ ®îc lµ thùc sù hÊp dÉn th× chóng
®îc bæ sung vµo c¬ së tri thøc ®Ó phôc vô cho ho¹t ®éng tiÕp theo cña hÖ thèng.
Nh vËy, nguån tri thøc bæ sung vµo c¬ së tri thøc ë ®©y kh«ng chØ tõ lËp luËn
l«gic theo c¸c hÖ to¸n l«gic ®Ó cã tri thøc míi, kh«ng chØ do con ngêi hiÓu biÕt
thªm vÒ thÕ giíi kh¸ch quan ®Ó bæ sung vµo mµ cßn lµ tri thøc ®îc ph¸t hiÖn
mét c¸ch tù ®éng tõ nguån d÷ liÖu.
1.3. Khai ph¸ d÷ liÖu vµ xö lý CSDL truyÒn thèng
Nh ®· giíi thiÖu, khai ph¸ d÷ liÖu lµ mét thÕ hÖ ph¸t triÓn míi trong thêi
gian gÇn ®©y cña c«ng nghÖ CSDL. §iÒu ®ã cã nghÜa lµ cã mèi quan hÖ gÇn gòi
gi÷a bµi to¸n khai ph¸ d÷ liÖu vµ bµi to¸n xö lý (t¸c nghiÖp) CSDL truyÒn thèng
trong mèi liªn quan tíi mét ®èi tîng chung lµ CSDL. Tuy nhiªn, hai bµi to¸n
nµy còng cã sù ph©n biÖt. DÊu hiÖu ph©n biÖt ®Çu tiªn gi÷a khai ph¸ d÷ liÖu vµ
xö lý CSDL truyÒn thèng lµ ®èi tîng t¸c ®éng cña bµi to¸n khai ph¸ d÷ liÖu
ph¶i lµ c¸c CSDL, c¸c kho d÷ liÖu cã dung lîng rÊt lín, trong khi ®ã bµi to¸n
t¸c nghiÖp CSDL truyÒn thèng liªn quan tíi c¸c CSDL víi mäi kÝch thíc. Thªm
n÷a, nh÷ng néi dung díi ®©y cung cÊp thªm c¸c th«ng tin bæ sung vÒ bµi to¸n
khai ph¸ d÷ liÖu [KV01]. Mèi quan hÖ gi÷a hÖ thèng qu¶n trÞ CSDL víi hÖ thèng
khai ph¸ d÷ liÖu ®îc m« t¶ trong H×nh 1.10 [KV01].
H×nh 1.10. Mçi quan hÖ gi÷a hÖ thèng CSDL vµ hÖ thèng khai ph¸ d÷ liÖu [KV01]
HÖ qu¶n trÞ CSDL truyÒn thèng ®îc ®Þnh híng viÖc t×m kiÕm tíi:
- Ghi nhËn riªng lÎ, ch¼ng h¹n nh cÇn t×m kiÕm c©u tr¶ lêi cho truy vÊn
"H·y hiÓn thÞ sè tiÒn cña ¤ng NguyÔn V¨n A cã trong ngµy 5 th¸ng Giªng n¨m
nay". ViÖc t×m kiÕm c¸c ghi nhËn riªng lÎ thêng ®îc chØ dÉn lµ xö lý giao dÞch
trùc tuyÕn (on-line transaction processing - OLTP).
- Ghi nhËn thèng kª, ch¼ng h¹n nh ®Ó tr¶ lêi c©u hái "Cã bao nhiªu nhµ
®Çu t níc ngoµi mua cæ phiÕu X trong th¸ng tríc ?". ViÖc t×m kiÕm ghi nhËn
thèng kª thêng ®îc chØ dÉn lµ hÖ thèng hç trî quyÕt ®Þnh thèng kª (stastical
decision suppport system - DSS).
- Ghi nhËn vÒ d÷ liÖu ®a chiÒu, ch¼ng h¹n nh ®Ó ®¸p øng yªu cÇu "HiÓn
thÞ mäi cæ phiÕu trong CSDL víi mÖnh gi¸ t¨ng". ViÖc t×m kiÕm c¸c ghi nhËn d÷
39 40
liÖu ®a chiÒu thêng ®îc hiÓu lµ cung cÊp xö lý ph©n tÝch trùc tuyÕn (on-line
analytic processing - OLAP) vµ xö lý ph©n tÝch trùc tuyÕn quan hÖ (relational
OLAP - ROLAP).
§Ó c¸c lo¹i truy vÊn (nh nh÷ng truy vÊn nãi trªn) ®Æt ra ®îc vÊn ®Ò cÇn
gi¶i quyÕt mét c¸ch ®óng ®¾n, vµ qua ®ã t¹o ra ®îc c¸c quyÕt ®Þnh h÷u Ých th×
cÇn ph¶i c«ng nhËn ®· tån t¹i mét gi¶ thiÕt vÒ tri thøc miÒn phøc hîp "®Çy ®ñ"
(sophisticated domain knowledge) mµ c¸c lo¹i truy vÊn nãi trªn ®îc ®a ra dùa
trªn c¬ së tri thøc miÒn ®ã. Trong CSDL quan hÖ th× tËp rµng buéc, ®iÓn h×nh lµ
tËp phô thuéc hµm cïng c¸c luËt suy diÔn Armstrong lµ mét bé phËn cña tri thøc
miÒn øng dông nãi trªn. Tuy nhiªn, víi c¸c CSDL lín cã dung lîng tíi hµng
tr¨m Gigabytes (GB) th× rÊt khã kh¨n ®Ó c«ng nhËn mét tri thøc miÒn phøc hîp
®Çy ®ñ.
VÒ môc tiªu cña hÖ thèng, ph¬ng ph¸p khai ph¸ d÷ liÖu hç trî viÖc më
réng môc tiªu cña CSDL truyÒn thèng b»ng c¸ch cho phÐp t×m kiÕm c¸c c©u tr¶
lêi cho c¸c truy vÊn tuy th« s¬ song l¹i quan träng, cã t¸c dông c¶i tiÕn miÒn tri
thøc (trong trêng hîp nµy tri thøc miÒn phøc hîp ®îc coi lµ cha ®Çy ®ñ) nh:
- C¸c cæ phiÕu t¨ng gi¸ cã ®Æc trng g× ?
- Tû gi¸ US$ - DMark cã ®Æc trng g× ?
- Hy väng g× vÒ cæ phiÕu X trong tuÇn tiÕp theo ?
- Trong th¸ng tiÕp theo, sÏ cã bao nhiªu ®oµn viªn c«ng ®oµn kh«ng
tr¶ ®îc nî cña hä ?
- Nh÷ng ngêi mua s¶n phÈm Y cã ®Æc trng g× ?
- T«i nªn mua lo¹i « t« nµo ?
- T«i nªn vµo trêng ®¹i häc nµo ?
- Nh÷ng bµi b¸o nÒn t¶ng vÒ chñ ®Ò nghiªn cøu sinh cña t«i lµ
nh÷ng bµi b¸o nµo ?
- v.v.
Tr¶ lêi c¸c truy vÊn nµy dêng nh lµ chóng ta ®· kh¸m ph¸ ra ®îc c¸c
quy t¾c (luËt) tiÒm Èn trong d÷ liÖu vµ trªn c¬ së c¸c quy t¾c ®ã mµ ®a ra ®îc
c¸c dù b¸o. Nh vËy môc tiªu cña khai ph¸ d÷ liÖu lµ cung cÊp th«ng tin, tri thøc
hç trî quyÕt ®Þnh th«ng qua c¸c mÉu, c¸c luËt ®îc kh¸m ph¸. C¸c mÉu (luËt)
®îc kh¸m ph¸ lµ kh«ng tuyÖt ®èi, kh«ng mang tÝnh "bÊt di bÊt dÞch" mµ cã tÝnh
chÊt "®a sè trêng hîp lµ ®óng" vµ cã thÓ thay ®æi tõ thêi ®iÓm nµy ®Õn thêi
®iÓm kh¸c. Ch¼ng h¹n nh luËt kÕt hîp "cã ®Õn 80% ngêi nÕu ®· mua bia th×
còng mua thªm t· trÎ em" ®îc ph¸t hiÖn cho thÊy t¹i thêi ®iÓm ®ang xem xÐt
phÇn ®«ng ngêi mua bia th× còng mua thªm t· trÎ em. Ph¸t hiÖn nµy ®îc gi¶i
thÝch nh sau. T¹i mét sè vïng ë ph¬ng T©y, ngêi chång thêng ®îc “ph©n
c«ng” tr«ng con nhá trong khi ngêi vî lµm viÖc gia ®×nh. §Ó ngêi chång
“thuËn tiÖn nhÊt” khi tr«ng con trÎ th× bÐ ®îc ®ãng bØm trÎ em cßn ngêi chång
ngåi uèng bia vµ ch¬i víi con. Cã thÓ ®Õn thêi ®iÓm nµo ®ã kh¸c trong t¬ng lai
cña c¸c vïng d©n c nãi trªn hoÆc t¹i c¸c vïng d©n c kh¸c, khi mµ thÞ hiÕu cña
ngêi ®µn «ng tr«ng trÎ cã sù thay ®æi, theo ®ã hä sÏ kh«ng mua bia n÷a th×
trong c¬ së d÷ liÖu giao dÞch sÏ kh«ng tiÒm Èn "luËt" nãi trªn n÷a.
Nh vËy, trong khai ph¸ d÷ liÖu th× gi¶ thiÕt ®· biÕt vÒ mét tri thøc miÒn
phøc t¹p "®Çy ®ñ"lµ kh«ng cßn lµ yÕu tè cèt lâi, vµ qu¸ tr×nh ph¸t hiÖn tri thøc cã
t¸c dông bæ sung thªm c¸c tri thøc "míi" vµo miÒn tri thøc ®ã. TÝnh chÊt kh«ng
®Çy ®ñ cña tri thøc miÒn cho phÐp tri thøc miÒn cã thÓ cã s¾n, cã thÓ ®îc bæ
sung, thay ®æi nhê qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu.
1.4. Mét sè lÜnh vùc øng dông khai ph¸ d÷ liÖu ®iÓn h×nh
Theo J. Han vµ M. Kamber [HK0106], øng dông cña KDD ®îc chia thµnh
hai líp chÝnh bao gåm líp c¸c øng dông ph©n tÝch d÷ liÖu - hç trî quyÕt ®Þnh vµ
líp c¸c lÜnh vùc øng dông kh¸c.
Líp c¸c øng dông trong ph©n tÝch d÷ liÖu vµ hç trî quyÕt ®Þnh bao gåm c¸c
øng dông trong ph©n tÝch vµ qu¶n lý thÞ trêng, ph©n tÝch vµ qu¶n lý rñi ro,
kh¸m ph¸ ngo¹i lai vµ c¸c mÉu kh«ng h÷u Ých. D÷ liÖu trong c¸c øng dông nµy
lµ kh¸ phong phó cã ®îc tõ c¸c giao dÞch thÎ tÝn dông, nghiªn cøu ®êi sèng
c«ng ®ång...
41 42
Mét sè môc tiªu khai ph¸ d÷ liÖu lµ nh t×m ra c¸c nhãm kh¸ch hµng ®Þnh
híng tiÕp thÞ dùa trªn c¸c ®Æc trng vÒ niÒm høng thó, møc thu nhËp… còng
nh ph©n tÝch thÞ trêng chÐo nh t×m ra c¸c mèi liªn kÕt, ®ång quan hÖ trong
viÖc b¸n hµng ®Ó dù b¸o theo c¸c kÕt hîp ®ã.
Mét sè øng dông ®iÓn h×nh nhÊt lµ ph©n tÝch híng kh¸ch hµng theo tõng
lo¹i s¶n phÈm ®Ó ®Þnh híng tiÕp thÞ phï hîp, ph©n tÝch nhu cÇu kh¸ch hµng,
®Þnh danh lo¹i s¶n phÈm thÝch hîp cho tõng líp kh¸c hµng ®Ó ®a ra chiÕn lîc
kinh doanh ®èi víi nhãm kh¸ch hµng míi, ®a ra c¸c b¸o c¸o tãm t¾t ®a chiÒu
còng nh nh÷ng th«ng tin tãm t¾t vÒ mÆt thèng kª...
Ngoµi ra, øng dông trong lËp kÕ ho¹ch tµi chÝnh vµ ®¸nh gi¸ lu lîng tiÒn
tÖ… trong tµi chÝnh – ng©n hµng còng ®îc ph¸t triÓn. Trong c«ng t¸c lËp kÕ
ho¹ch tµi nguyªn còng ®· xuÊt hiÖn nhiÒu øng dông cña KDD. H¬n n÷a, ®· cã
nhiÒu c¸ch tiÕp cËn kh¸c nhau nh»m ph¸t hiÖn tri thøc ®· ®îc sö dông trong c¸c
øng dông nh vËy.
Trong nhãm ph©n tÝch d÷ liÖu vµ hç trî quyÕt ®Þnh, KDD cßn ®îc øng
dông kh¸ réng r·i trong lÜnh vùc b¶o hiÓm y tÕ, phôc vô thÎ tÝn dông, viÔn th«ng,
thÓ thao, chinh phôc vò trô.
Líp c¸c lÜnh vùc øng dông ®iÓn h×nh kh¸c bao gåm khai ph¸ Text, khai
ph¸ Web, khai ph¸ d÷ liÖu dßng, khai ph¸ d÷ liÖu sinh häc… Mét sè s¶n phÈm
®iÓn h×nh vÒ khai ph¸ Text vµ khai ph¸ Web ®· ®îc kh¼ng ®Þnh ®îc tÝnh hiÖu
qu¶, ch¼ng h¹n c¸c s¶n phÈm TextAnalyst*, TextracterTM, WebAnalyst vµ
PolyAnalyst... cña c«ng ty Megaputer9, hoÆc WebFountain cña IBM…
Sù ph¸t triÓn nhanh chãng cña khai ph¸ d÷ liÖu lµm cho miÒn øng dông
lÜnh vùc ngµy cµng thªm phong phó vµ ®a d¹ng, ch¼ng h¹n quan niÖm cña J. Han
vµ M. Kamber vÒ c¸c khu vùc øng dông khai ph¸ d÷ liÖu ®· cã sù thay ®æi tõ
phiªn b¶n 2001 tíi phiªn b¶n 2006 [HK0106]. Trong phiªn b¶n 2006, J. Han vµ
M. Kamber coi r»ng c¸c lÜnh vùc ®iÓn h×nh cña khai ph¸ d÷ liÖu lµ ph©n tÝch d÷
9 http://www.megaputer.com/
liÖu tµi chÝnh, c«ng nghiÖp b¶n lÎ, c«ng nghiÖp truyÒn th«ng, ph©n tÝch d÷ liÖu
sinh häc, øng dông c¸c ngµnh khoa häc kh¸c, sù x©m nhËp sai tr¸i...
Cßn theo Gregory Piatetsky-Shapiro [Pia06], c¸c miÒn øng dông ®iÓn h×nh
cña khai ph¸ d÷ liÖu lµ:
- øng dông trong khoa häc nh thiªn v¨n häc, tin sinh häc, y häc (s¸ng chÕ
c¸c dîc phÈm)...
- øng dông trong th¬ng m¹i nh qu¶n lý quan hÖ kh¸ch hµng (Customer
Relationship Management: CRM), ph¸t hiÖn gian lËn, th¬ng m¹i ®iÖn tö, s¶n
xuÊt, thÓ thao/gi¶i trÝ, dÞch vô viÔn th«ng, tiÕp thÞ ®Þnh híng, b¶o hiÓm y tÕ...
- øng dông trong World Wide Web nh m¸y t×m kiÕm, qu¶ng c¸o trùc
tuyÕn, khai ph¸ web vµ khai ph¸ text...
- øng dông trong ho¹t ®éng chÝnh quyÒn nh ph¸t hiÖn téi ph¹m, ph¸t hiÖn
lõa ®¶o thuÕ thu nhËp c¸ nh©n...
43 44
B¶ng 1.2. C¸c øng dông khai ph¸ d÷ liÖu næi bËt (Sè trong ngoÆc lµ sè ngêi bá phiÕu tõng n¨m: mét ngêi cã thÓ lµm nhiÒu øngdông)
Khai ph¸ d÷ liÖu lµ lÜnh vùc øng dông cã sù ph¸t triÓn nhanh, thÝch hîp víi
sù ph¸t triÓn xu thÕ "bïng næ d÷ liÖu" vµ xu thÕ biÕn ®éng cña nhu cÇu x· héi.
Ch¼ng h¹n, trong thêi gian gÇn ®©y, m¹ng x· héi (social network) vµ ph¬ng
tiÖn x· héi (social media) ®· trë thµnh mét trong nh÷ng lÜnh vùc øng dông næi
bËt cña khai ph¸ d÷ liÖu. B¶ng 1.2 cho biÕt t×nh h×nh vÒ c¸c øng dông khai ph¸
d÷ liÖu næi bËt qua th¨m dß t¹i trang web KDnuggets10. Khuynh híng ph¸t
triÓn øng dông cña khai ph¸ d÷ liÖu sÏ ®îc tr×nh bµy t¹i Ch¬ng 10.
1.5. KiÓu d÷ liÖu trong khai ph¸ d÷ liÖu
B¶ng 1.3 cho biÕt t×nh h×nh vÒ c¸c kiÓu d÷ liÖu ®îc khai ph¸ qua th¨m dß
t¹i trang web KDnuggets 11. VÒ nguyªn lý chung, nguån d÷ liÖu ®îc sö dông ®Ó
tiÕn hµnh khai ph¸ d÷ liÖu nh»m ph¸t hiÖn tri thøc lµ rÊt phong phó vµ ®a d¹ng,
trong ®ã ®iÓn h×nh nhÊt lµ CSDL quan hÖ, kho d÷ liÖu, CSDL giao dÞch, c¸c hÖ
thèng d÷ liÖu vµ th«ng tin më réng kh¸c.
1.5.1. C¬ së d÷ liÖu quan hÖ
Thø nhÊt, tÝnh phæ biÕn cña hÖ thèng CSDL quan hÖ hiÖn nay t¹o ra mét hÖ
qu¶ tù nhiªn quy ®Þnh CSDL quan hÖ lµ mét nguån ®Çu vµo ®iÓn h×nh nhÊt, ®îc
quan t©m tríc hÕt cña khai ph¸ d÷ liÖu. Thø hai, mét trong nh÷ng mÉu ®îc
quan t©m lµ mÉu vÒ c¸c lo¹i "quan hÖ" mµ víi b¶n chÊt cña m×nh, hÖ thèng
CSDL quan hÖ tiÒm Èn c¸c mÉu d¹ng nh thÕ. Nh ®· biÕt trong lý thuyÕt CSDL,
hÖ thèng CSDL quan hÖ thêng bao gåm mét tËp c¸c b¶ng (hai chiÒu däc vµ
ngang). Theo chiÒu däc, b¶ng gåm mét sè cét (cßn ®îc gäi lµ thuéc tÝnh,
trêng hay ®Æc trng) vµ theo chiÒu ngang b¶ng chøa mét tËp rÊt lín c¸c dßng
(cßn ®îc gäi là b¶n ghi hay bé). Sè lîng cét cña b¶ng cßn ®îc gäi lµ sè
10 http://www.kdnuggets.com/polls/ 11 http://www.kdnuggets.com/polls/
45 46
chiÒu. HÖ thèng CSDL quan hÖ cßn bao gåm mét m« h×nh ng÷ nghÜa mµ th«ng
thêng lµ m« h×nh thùc thÓ - quan hÖ.
B¶ng 1.3. KiÓu d÷ liÖu ®îc khai ph¸ (Sè trong ngoÆc lµ sè ngêi bá phiÕu tõng n¨m: mét ngêi cã thÓ dïng nhiÒu kiÓu d÷ liÖu)
1.5.2. Kho d÷ liÖu
Theo J. Han vµ M. Kamber, tån t¹i nhiÒu c¸ch hiÓu vÒ kho d÷ liÖu, nhng
c¸ch hiÓu phæ dông nhÊt lµ theo ®Þnh nghÜa cña W.H. Inmon, mét chuyªn gia
hµng ®Çu vÒ kho d÷ liÖu. Theo W.H. Inmon [Inm02], "kho d÷ liÖu lµ tËp hîp c¸c
d÷ liÖu ®Þnh híng theo chñ ®Ò, ®îc tÝch hîp l¹i, cã tÝnh phiªn b¶n theo thêi
gian vµ kiªn ®Þnh ®îc dïng ®Ó hç trî viÖc t¹o quyÕt ®Þnh qu¶n lý". Tªn gäi cña
bèn thuéc tÝnh "®Þnh híng theo chñ ®Ò", "®îc tÝch hîp l¹i", "cã tÝnh phiªn b¶n theo thêi gian" vµ "kiªn ®Þnh" trªn ®©y cña kho d÷ liÖu míi chØ cung cÊp mét sè
nÐt c¬ b¶n nhÊt vÒ c¸c ®Æc trng cña kho d÷ liÖu. W.H. Inmon (còng nh J. Han
vµ M. Kamber) ®· gi¶i thÝch néi dung chi tiÕt vÒ bèn thuéc tÝnh nµy.
Kho d÷ liÖu lµ mét kÕt qu¶ xuÊt hiÖn trong qu¸ tr×nh tiÕn hãa c¸c hÖ hç trî
quyÕt ®Þnh. ThuËt ng÷ "t¹o kho d÷ liÖu" (Data warehousing) ®îc dïng ®Ó chØ
qu¸ tr×nh x©y dùng vµ sö dông kho d÷ liÖu. Nh vËy, qu¸ tr×nh ph¸t hiÖn tri thøc
trong CSDL tiÕp nhËn ®Çu vµo lµ c¸c hÖ thèng CSDL, c¸c nhµ kho tæ chøc d÷
liÖu tõ c¸c nguån vµ c¸c d÷ liÖu m« t¶. CÇn chó ý r»ng, ®Ó ®¸p øng bèn thuéc
tÝnh trªn ®©y kho d÷ liÖu ®îc coi chØ bao gåm c¸c d÷ liÖu ®îc coi lµ "cã chÊt
lîng" th«ng qua c¸c kh©u chän lùa, tiÒn xö lý vµ cã thÓ bao gåm c¶ kh©u
chuyÓn d¹ng trong qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL (H×nh 1.4).
C¸c nghiªn cøu vµ triÓn khai liªn quan tíi kho d÷ liÖu chØ dÉn khuynh
híng hiÖn t¹i cña c¸c hÖ thèng th«ng tin qu¶n lý (MIS: Managment
Information Systems) phæ biÕn lµ nh»m vµo viÖc thu thËp, lµm s¹ch d÷ liÖu giao
dÞch vµ t¹o cho chóng ®é linh ho¹t khi t×m kiÕm trùc tuyÕn. Mét tiÖm cËn phæ
biÕn ®èi víi ph©n tÝch kho d÷ liÖu gäi lµ OLAP (On-Line Analytical Processing),
th«ng qua mét tËp c¸c nguyªn lý ®îc Codd ®Ò xuÊt vµo n¨m 1993. C¸c bé c«ng
cô OLAP chó träng tíi viÖc cung cÊp tíi SQL c¸c tiÖn Ých ph©n tÝch d÷ liÖu ®a
chiÒu chÊt lîng cao b»ng c¸c tÝnh to¸n gi¶n lîc vµ ph©n t¸ch nhiÒu chiÒu. C¶
ph¸t hiÖn tri thøc lÉn OLAP ®îc coi lµ hai khÝa c¹nh quan hÖ mËt thiÕt nhau
®îc tÝch hîp trong mét thÕ hÖ míi c¸c bé c«ng cô trÝch läc vµ qu¶n lý th«ng
tin.
§ång thêi víi sù ph¸t triÓn cña c«ng nghÖ kho d÷ liÖu, c¸c hÖ thèng tÝch
hîp c¸c nguån d÷ liÖu c¶ d÷ liÖu trong qu¸ khø lÉn d÷ liÖu t¸c nghiÖp ®· ®îc
x©y dùng. NhiÒu hÖ thèng khai ph¸ d÷ liÖu cã ®Çu vµo tõ siªu d÷ liÖu (metadata)
cïng c¸c d÷ liÖu nguån trong c¸c kho d÷ liÖu.
1.5.3. C¬ së d÷ liÖu giao dÞch
Mét líp bµi to¸n khai ph¸ d÷ liÖu phè biÕn lµ khai ph¸ quan hÖ kÕt hîp,
trong ®ã ®iÓn h×nh lµ bµi to¸n khai ph¸ luËt kÕt hîp, ®îc xuÊt ph¸t tõ viÖc xem
xÐt c¸c CSDL giao dÞch (b¸n hµng). D÷ liÖu giao dÞch chÝnh lµ d÷ liÖu nguyªn
thñy xuÊt hiÖn trong ®Þnh nghÜa vÒ luËt kÕt hîp cïng víi c¸c ®é ®o cña luËt nh
®é hç trî vµ ®é tin cËy. Khi më réng d÷ liÖu tõ d÷ liÖu giao dÞch sang d÷ liÖu v«
híng hoÆc d÷ liÖu phøc t¹p h¬n cã trong c¸c CSDL quan hÖ, c¸c gi¶i ph¸p khai
ph¸ luËt kÕt hîp ®îc c¶i tiÕn ®Ó thÝch øng víi sù biÕn ®æi nµy (bao gãi bíc
chuyÓn d¹ng d÷ liÖu trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¸c CSDL).
47 48
1.5.4. C¸c hÖ thèng d÷ liÖu më réng
Trong qu¸ tr×nh ph¸t triÓn, c¸c ph¬ng ph¸p vµ thuËt to¸n khai ph¸ d÷ liÖu
thÝch hîp ®èi víi c¸c CSDL më réng vµ c¸c kiÓu kho chøa d÷ liÖu ®îc ®Ò xuÊt.
C¸c ph¬ng ph¸p vµ thuËt to¸n nµy ®îc phï hîp víi d÷ liÖu trong CSDL híng
®èi tîng, CSDL kh«ng gian-thêi gian, CSDL t¹m thêi, d÷ liÖu chuçi thêi gian
(bao gåm d÷ liÖu tµi chÝnh), d÷ liÖu dßng, CSDL Text vµ CSDL ®a ph¬ng tiÖn,
CSDL hçn t¹p vµ CSDL thõa kÕ, vµ World Wide Web.
HÖ thèng CSDL quan hÖ - ®èi tîng cã thÓ ®îc coi lµ sù bæ sung theo tiÕp
cËn híng ®èi tîng tíi c¸c hÖ thèng CSDL quan hÖ. M« h×nh d÷ liÖu quan hÖ -
®èi tîng m« t¶ ng÷ nghÜa cña hÖ thèng CSDL quan hÖ - ®èi tîng, ®îc ph¸t
triÓn tõ m« h×nh quan hÖ víi viÖc bæ sung c¸c kiÓu d÷ liÖu giµu ng÷ nghÜa. Thùc
thÓ tõ m« h×nh quan hÖ thùc thÓ ®îc ph¸t triÓn thµnh ®èi tîng trong m« h×nh
quan hÖ ®èi tîng. §Ó khai ph¸ d÷ liÖu ®èi víi CSDL quan hÖ - ®èi tîng.
1.6. C¸c bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh
Khai ph¸ d÷ liÖu lµ lÜnh vùc nghiªn cøu mang tÝnh thùc tiÔn cao, ®ång thêi
l¹i ®ßi hái mét nÒn t¶ng to¸n häc m¹nh trong viÖc x©y dùng c¸c m« h×nh to¸n
häc phï hîp nhÊt cho miÒn d÷ liÖu cña bµi to¸n ®ang ®îc quan t©m. Bíc khai
ph¸ d÷ liÖu trong qu¸ tr×nh KDD thêng ¸p dông mét ph¬ng ph¸p khai ph¸ d÷
liÖu cô thÓ, liªn quan ®Õn c¸c kh¸i niÖm mÉu vµ m« h×nh. Nh ®· ®îc giíi thiÖu
trong môc 1.1, mÉu lµ mét biÓu thøc trong mét ng«n ng÷ m« t¶ L nµo ®ã ®îc
chän. M« h×nh ®îc coi lµ mét biÓu thøc tæng qu¸t trong ng«n ng÷ m« t¶ L nãi
trªn; tÝnh tæng qu¸t cña m« h×nh ®îc thÓ hiÖn th«ng qua c¸c tham sè m« h×nh,
trong trêng hîp ®ã, mét mÉu lµ mét thÓ hiÖn cña m« h×nh. Ch¼ng h¹n, biÓu
thøc ax2 + bx (víi hai tham sè a vµ b) lµ m« h×nh cßn 3x2 + x lµ mét mÉu trong
m« h×nh ®ã (®èi víi mÉu nµy th× c¸c tham sè m« h×nh a vµ b ®· ®îc cho gi¸ trÞ
cô thÓ, a=3 vµ b= 1).
NhiÖm vô cña bµi to¸n khai ph¸ d÷ liÖu tõ mét tËp d÷ liÖu quan s¸t (tËp c¸c
sù kiÖn) ®· cã th× hoÆc cÇn ph¶i x¸c ®Þnh m« h×nh phï hîp víi tËp d÷ liÖu quan
s¸t ®ã, hoÆc cÇn t×m ra c¸c mÉu tõ tËp d÷ liÖu ®ã.
Bµi to¸n khai ph¸ d÷ liÖu thêng híng tíi mét trong hai lo¹i m« h×nh ®ã
lµ m« h×nh theo tiÕp cËn thèng kª (m« h×nh thèng kª) hoÆc m« h×nh l«gic. M«
h×nh thèng kª ®îc ®Þnh híng tíi lo¹i m« h×nh bao hµm c¸c yÕu tè cha x¸c
®Þnh, ch¼ng h¹n nh m« h×nh ax + e, trong m« h×nh nµy th× x lµ biÕn trong ng«n
ng÷ m« t¶ L, cßn e cã thÓ lµ biÕn ngÉu nhiªn Gauss (thÓ hiÖn tÝnh cha x¸c ®Þnh
cña m« h×nh). Ngîc l¹i, m« h×nh l«gic ®Þnh híng tíi lo¹i m« h×nh x¸c ®Þnh
hoµn toµn, ch¼ng h¹n ax, trong ®ã kh«ng thõa nhËn yÕu tè kh«ng râ rµng khi m«
h×nh hãa. M« h×nh thèng kª ®îc dïng hÇu kh¾p ®èi víi c¸c øng dông khai ph¸
d÷ liÖu thùc tÕ.
HÇu hÕt c¸c ph¬ng ph¸p khai ph¸ d÷ liÖu ®· ®îc x©y dùng cã néi dung tõ
c¸c ph¬ng ph¸p häc m¸y, thiÕt kÕ mÉu vµ thèng kª (ph©n líp, ph©n ®o¹n, m«
h×nh ®å thÞ…). ThuËt to¸n gi¶i quyÕt mçi bµi to¸n nãi trªn cuèn hót mét ph¹m vi
ngêi quan t©m ®a d¹ng bao gåm c¶ c¸c chuyªn gia ph©n tÝch d÷ liÖu lÉn nh÷ng
ngêi cha hÒ cã kinh nghiÖm.
ë møc cao - tæng qu¸t, hai môc tiªu chñ yÕu cña khai ph¸ d÷ liÖu lµ dù b¸o
vµ m« t¶, mµ chóng ta coi hai môc tiªu nµy t¬ng øng víi hai bµi to¸n tæng qu¸t
cña khai ph¸ d÷ liÖu. Bµi to¸n dù b¸o sö dông mét sè biÕn (hoÆc trêng) trong
CSDL ®Ó dù ®o¸n vÒ hoÆc gi¸ trÞ cha biÕt (®ï ®· cã) hoÆc gi¸ trÞ sÏ cã trong
t¬ng lai cña c¸c biÕn. Bµi to¸n m« t¶ híng tíi viÖc t×m ra c¸c mÉu m« t¶ d÷
liÖu. Dù ®o¸n vµ m« t¶ cã tÇm quan träng kh¸c nhau ®èi víi c¸c thuËt to¸n khai
ph¸ d÷ liÖu riªng. Trong ng÷ c¶nh KDD th× vÊn ®Ò m« t¶ cã khuynh híng quan
träng h¬n vÊn ®Ò dù b¸o, vµ ®iÒu nµy lµ tr¸i ngîc víi néi dung chñ yÕu cña c¸c
øng dông nhËn d¹ng mÉu vµ häc m¸y th× vÊn ®Ò dù b¸o lµ quan träng h¬n. §iÒu
cã vÎ tr¸i ngîc ®ã cã thÓ ®îc gi¶i thÝch khi xem xÐt, ph©n tÝch néi dung cña
chÝnh kh¸i niÖm "ph¸t hiÖn tri thøc trong CSDL"; kh¸i niÖm nµy ®· bao hµm t×nh
huèng s½n cã d÷ liÖu ®Ó ph¸t hiÖn c¸c mÉu tiÒm Èn trong d÷ liÖu ®ã, c¸c mÉu
tiÒm Èn ®ã liªn quan tíi bµi to¸n m« t¶ d÷ liÖu. MÆt kh¸c, m« t¶ ®îc m« h×nh
d÷ liÖu th× còng rÊt thuËn tiÖn cho dù b¸o.
49 50
ë møc chi tiÕt - cô thÓ, dù b¸o vµ m« t¶ ®îc thÓ hiÖn th«ng qua c¸c bµi
to¸n cô thÓ nh m« t¶ kh¸i niÖm, quan hÖ kÕt hîp, ph©n côm, ph©n líp, håi quy,
m« h×nh phô thuéc, ph¸t hiÖn biÕn ®æi vµ ®é lÖch, vµ mét sè bµi to¸n cô thÓ kh¸c
nh tr×nh bµy díi ®©y.
1.6.1. M« t¶ kh¸i niÖm
Néi dung cña bµi to¸n m« t¶ kh¸i niÖm (concept description) lµ t×m ra c¸c
®Æc trng vµ tÝnh chÊt cña kh¸i niÖm ®Ó "m« t¶" kh¸i niÖm ®ã. §iÓn H×nh nhÊt
trong líp bµi to¸n nµy lµ c¸c bµi to¸n nh tæng qu¸t hãa, tãm t¾t, ph¸t hiÖn c¸c
®Æc trng d÷ liÖu rµng buéc.
Bµi to¸n tãm t¾t lµ mét bµi to¸n m« t¶ ®iÓn h×nh, ¸p dông c¸c ph¬ng ph¸p
®Ó t×m ra mét m« t¶ c« ®äng ®èi víi mét tËp con d÷ liÖu. Mét vÝ dô ®iÓn h×nh vÒ
bµi to¸n tãm t¾t lµ bµi to¸n tÝnh kú väng vµ ®é lÖch chuÈn cña mét tËp d÷ liÖu
trong thèng kª x¸c suÊt; hai gi¸ trÞ nµy chÝnh lµ hai ®Æc trng ®iÓn h×nh nhÊt vÒ
mét hiÖn tîng cã d·y gi¸ trÞ thÓ hiÖn mµ chóng ta ®· quan s¸t ®îc.
NhiÒu ph¬ng ph¸p ®· ®îc biÖn luËn ®ßi hái viÖc thu nhËn ®îc c¸c quy
t¾c tãm t¾t, kü thuËt hiÓn thÞ ®a biÕn, ph¸t hiÖn quan hÖ hµm gi÷a c¸c biÕn. Kü
thuËt tãm t¾t thêng ®îc ¸p dông trong ph©n tÝch d÷ liÖu tham dß cã t¬ng
quan vµ tù ®éng hãa sinh ra c¸c th«ng b¸o.
Trong khai ph¸ Text vµ khai ph¸ Web, tãm t¾t v¨n b¶n lµ mét biÓu hiÖn cô
thÓ cña tãm t¾t, theo ®ã tõ mét v¨n b¶n ®· cã, cÇn t×m ra v¨n b¶n ng¾n gän (víi
®é dµi 100 tõ, 200 tõ hoÆc 500 tõ) mµ vÉn gi÷ ®îc ng÷ nghÜa c¬ b¶n cña v¨n
b¶n gèc.
1.6.2. Quan hÖ kÕt hîp
Ph¸t hiÖn mèi quan hÖ kÕt hîp (associative relation) trong tËp d÷ liÖu lµ
mét bµi to¸n quan träng trong khai ph¸ d÷ liÖu. Mét trong nh÷ng mèi quan hÖ
kÕt hîp ®iÓn h×nh lµ quan hÖ kÕt hîp gi÷a c¸c biÕn d÷ liÖu, trong ®ã bµi to¸n
khai ph¸ luËt kÕt hîp (associative rule) lµ mét bµi to¸n ®iÓn h×nh. Bµi to¸n khai
ph¸ luËt kÕt hîp (thuéc líp ph¸t hiÖn quan hÖ kÕt hîp), thùc hiÖn viÖc ph¸t hiÖn
ra mèi quan hÖ gi÷a c¸c tËp thuéc tÝnh (c¸c tËp biÕn) cã d¹ng XY, trong ®ã X,
Y lµ hai tËp thuéc tÝnh. VÒ H×nh thøc, luËt kÕt hîp cã d¹ng gièng nh phô thuéc
hµm trong CSDL quan hÖ, tuy nhiªn, nã kh«ng ®îc ®Þnh s½n tõ tri thøc miÒn.
Trong khai ph¸ text vµ khai ph¸ web tån t¹i nhiÒu bµi to¸n ph¸t hiÖn quan
hÖ kÕt hîp, ®iÓn h×nh nh bµi to¸n ph¸t hiÖn quan hÖ ng÷ nghÜa (ch¼ng h¹n nh
quan hÖ nh©n-qu¶, quan hÖ toµn bé - bé phËn, quan hÖ chung-riªng...) trong v¨n
b¶n (hoÆc trong tËp v¨n b¶n), bµi to¸n ph¸t hiÖn mèi quan hÖ gi÷a néi dung trang
web ngêi sö dông ®ang quan t©m tíi c¸c trang web mµ hä cã thÓ sÏ híng tíi...
1.6.3. Ph©n líp
Ph©n líp (Classification/Categorization) thùc hiÖn viÖc x©y dùng (m« t¶)
c¸c m« h×nh (hµm) dù b¸o nh»m m« t¶ hoÆc ph¸t hiÖn c¸c líp hoÆc kh¸i niÖm
cho c¸c dù b¸o tiÕp theo. Mét sè ph¬ng ph¸p ®iÓn h×nh lµ c©y quyÕt ®Þnh, luËt
ph©n líp, m¹ng neuron. Néi dung cña ph©n líp chÝnh lµ häc mét hµm ¸nh x¹ c¸c
d÷ liÖu vµo mét trong mét sè líp ®· biÕt. VÝ dô, ph©n líp mét v¨n b¶n (bao gåm
c¶ trang web) vµo mét trong mét sè líp v¨n b¶n (trang web) ®· biÕt, ph©n líp
khuynh híng trong thÞ trêng tµi chÝnh, ph¸t hiÖn tù ®éng c¸c ®èi tîng ®¸ng
quan t©m trong CSDL ¶nh lín.
51 52
H×nh 1.11. S¬ ®å biÓu diÔn m« h×nh häc m¸y: cÇn häc ¸nh x¹ biÓu diÔn b»ng ®êng liÒn nÐt xiªn [KV01] (Lu ý, häc kh«ng gi¸m s¸t kh«ng cã gi¸ trÞ môc tiªu cho vÝ dô häc: kh«ng cã
®êng liÒn nÐt)
H×nh 1.11 m« t¶ s¬ bé vÒ bµi to¸n ph©n líp (thêng ®îc t¬ng øng víi
häc cã gi¸m s¸t), theo ®ã ®êng ngang liÒn nÐt cho biÕt ®· biÕt thuéc tÝnh líp
®èi víi mét tËp hîp d÷ liÖu nµo ®ã (tËp d÷ liÖu häc). Néi dung chi tiÕt h¬n vÒ bµi
to¸n ph©n líp sÏ ®îc tr×nh bµy chi tiÕt h¬n trong c¸c ch¬ng sau.
1.6.4. Ph©n côm
Ph©n côm (Clustering) thùc hiÖn viÖc nhãm d÷ liÖu thµnh c¸c "côm" (cã
thÓ cãi lµ c¸c líp míi) ®Ó cã thÓ ph¸t hiÖn ®îc c¸c mÉu ph©n bè d÷ liÖu trong
miÒn øng dông. Ph©n côm lµ mét bµi to¸n m« t¶ híng tíi viÖc nhËn biÕt mét
tËp h÷u h¹n c¸c côm hoÆc c¸c líp ®Ó m« t¶ d÷ liÖu. C¸c côm (líp) cã thÓ t¸ch rêi
nhau vµ toµn phÇn (t¹o nªn mét ph©n ho¹ch cho tËp d÷ liÖu) hoÆc ®îc tr×nh bµy
®Ñp h¬n nh ph©n líp cã thø bËc hoÆc cã thÓ chång lªn nhau (giao nhau). VÝ dô
nh bµi to¸n ph¸t hiÖn c¸c nhãm ngêi tiªu dïng trong CSDL tiÕp thÞ hoÆc nhËn
biÕt c¸c lo¹i quang phæ trong tËp phÐp ®o kh«ng gian hång ngo¹i... Th«ng
thêng, môc tiªu ®Þnh híng cña bµi to¸n ph©n côm lµ cùc ®¹i tÝnh t¬ng ®ång
gi÷a c¸c phÇn tö trong mçi côm vµ cùc tiÓu tÝnh t¬ng ®ång gi÷a c¸c phÇn tö
thuéc c¸c côm kh¸c nhau.
Trong nhiÒu trêng hîp, ph©n côm cßn ®îc gäi lµ häc m¸y kh«ng gi¸m
s¸t (unsupervised learning) vµ ph©n líp cßn ®îc gäi lµ häc m¸y gi¸m s¸t
(supervised learning). S¬ bé vÒ m« h×nh häc m¸y (cã gi¸m s¸t vµ kh«ng gi¸m
s¸t) ®îc diÔn t¶ nh t¹i H×nh 1.11 [KV01]. Tuy cïng sö dông häc m¸y nh
ph©n líp thuéc lo¹i khai ph¸ d÷ liÖu dù b¸o cßn ph©n côm thuéc lo¹i khai ph¸ d÷
liÖu m« t¶.
Trong mét sè øng dông, bµi to¸n ph©n ®o¹n (segmentation) cÇn ®îc gi¶i
quyÕt. VÒ néi dung, ph©n ®o¹n lµ tæ hîp cña ph©n côm vµ ph©n líp, trong ®ã
ph©n côm ®îc tiÕn hµnh tríc vµ sau ®ã lµ ph©n líp.
1.6.5. Håi quy
Håi quy (regresion) lµ mét bµi to¸n ®iÓn h×nh trong ph©n tÝch thèng kª vµ
dù b¸o, trong ®ã tiÕn hµnh viÖc dù ®o¸n c¸c gi¸ trÞ cña mét hoÆc mét sè biÕn phô
thuéc vµo gi¸ trÞ cña mét tËp hîp c¸c biÕn ®éc lËp. M« h×nh håi quy lµ kh¸ th«ng
dông trong dù b¸o dµi h¹n. Trong khai ph¸ d÷ liÖu, bµi to¸n håi quy ®îc quy vÒ
viÖc häc mét hµm ¸nh x¹ d÷ liÖu nh»m x¸c ®Þnh gi¸ trÞ thùc cña mét biÕn theo
mét sè biÕn kh¸c. T×nh huèng øng dông håi quy rÊt ®a d¹ng, ch¼ng h¹n nh dù
®o¸n sè lîng sinh vËt ph¸t quang trong khu rõng nhê ®o vi sãng c¸c sensor tõ
xa, hoÆc íc lîng x¸c suÊt ngêi bÖnh cã thÓ chÕt theo kÕt qu¶ test triÖu chøng,
hoÆc dù b¸o nhu cÇu ngêi tiªu dïng ®èi víi mét s¶n phÈm míi ®îc coi nh
mét hµm cña qu¶ng c¸o tiªu dïng, hoÆc dù b¸o chuçi thêi gian mµ c¸c biÕn ®Çu
vµo ®îc coi nh b¶n trÔ thêi gian cña biÕn dù b¸o…
1.6.6. M« h×nh phô thuéc
Bµi to¸n x©y dùng m« h×nh phô thuéc híng tíi viÖc t×m ra mét m« h×nh
m« t¶ sù phô thuéc cã ý nghÜa gi÷a c¸c biÕn. M« h×nh phô thuéc gåm hai møc:
møc cÊu tróc cña m« h×nh m« t¶ (thêng díi d¹ng ®å thÞ) trong ®ã c¸c biÕn lµ
phô thuéc bé phËn vµo c¸c biÕn kh¸c, trong khi møc ®Þnh lîng cña m« h×nh m«
t¶ søc m¹nh cña tÝnh phô thuéc khi sö dông viÖc ®o tÝnh theo gi¸ trÞ sè. VÝ dô,
líi phô thuéc x¸c suÊt cÇn ®¶m b¶o tÝnh ®éc lËp ®iÒu kiÖn nh»m ®Þnh râ diÖn
m¹o cÊu tróc cña m« h×nh vµ x¸c suÊt hoÆc t¬ng quan ®Ó m« t¶ søc m¹nh cña
tÝnh phô thuéc. Ph©n tÝch khuynh híng vµ tiÕn hãa còng ®îc coi thuéc vµo
lo¹i khai ph¸ m« h×nh phô thuéc. Trong ph©n tÝch khuynh híng vµ tiÕn hãa, c¸c
ph¬ng ph¸p ph©n tÝch xu thÕ, khai ph¸ mÉu kÕ tiÕp, ph©n tÝch dùa trªn tÝnh
t¬ng tù… thêng ®îc ¸p dông.
1.6.7. Ph¸t hiÖn biÕn ®æi vµ ®é lÖch
TËp trung vµo viÖc ph¸t hiÖn hÇu hÕt sù thay ®æi cã ý nghÜa díi d¹ng ®é
®o ®· biÕt tríc hoÆc gi¸ trÞ chuÈn, cung cÊp nh÷ng tri thøc vÒ sù biÕn ®æi vµ ®é
lÖch cho ngêi dïng. Bµi to¸n ph¸t hiÖn biÕn ®æi vµ ®é lÖch cßn ®îc øng dông
53 54
trong bíc tiÒn xö lý trong qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL. ChÝnh v× lý
do ®ã, cÇn tr¸nh suy nghÜ cho r»ng sù biÕn ®æi vµ ®é lÖch mang ý nghÜa "kh«ng
chÝnh quy" mµ ph¶i quan niÖm sù biÕn ®æi vµ ®é lÖch ®ã (cã thÓ lµ bÊt thêng) lµ
mét néi dung b¶n chÊt cña d÷ liÖu.
Ngoµi ra cã thÓ kÓ tíi bµi to¸n ph©n tÝch ®Þnh híng mÉu vµ mét sè bµi
to¸n khai ph¸ d÷ liÖu kiÓu thèng kª kh¸c.
1.7. TÝnh liªn ngµnh cña khai ph¸ d÷ liÖu
KDD nhËn ®îc sù quan t©m ®Æc biÖt cña c¸c nhµ nghiªn cøu trong c¸c
lÜnh vùc häc m¸y, thu nhËn mÉu, CSDL, thèng kª, trÝ tuÖ nh©n t¹o, thu nhËn tri
thøc ®èi víi hÖ chuyªn gia ®îc tr×nh bµy trong H×nh 1.12 [HK0106]. HÖ thèng
KDD l«i cuèn c¸c ph¬ng ph¸p, thuËt to¸n vµ kü thuËt tõ c¸c lÜnh vùc rêi r¹c
nhau nµy. Môc tiªu thèng nhÊt lµ trÝch läc tri thøc tõ d÷ liÖu trong ng÷ c¶nh c¸c
CSDL lín.
ZH Zhou [Zhou03] nhËn ®Þnh r»ng khai ph¸ d÷ liÖu nhËn ®îc sù ®ãng
gãp cña rÊt nhiÒu ngµnh nh CSDL, häc m¸y, thèng kª, thu håi th«ng tin, trùc
quan hãa d÷ liÖu, tÝnh to¸n song song vµ ph©n t¸n…. Ba ngµnh ®ãng gãp chÝnh
lµ CSDL, häc m¸y, thèng kª. Trong khai ph¸ d÷ liÖu, CSDL ®ãng gãp c¸c kü
thuËt qu¶n lý d÷ liÖu, häc m¸y ®ãng gãp c¸c kü thuËt ph©n tÝch d÷ liÖu thùc tiÔn,
vµ thèng kª ®ãng gãp c¸c nÒn t¶ng lý thuyÕt v÷ng ch¾c. T¸c gi¶ Èn dô r»ng khai
ph¸ d÷ liÖu nÕu kh«ng cã sù ®ãng gãp cña CSDL vµ häc m¸y sÏ nh “t×m kim
trong ®èng cá”, nÕu kh«ng cã sù ®ãng gãp cña thèng kª sÏ nh “x©y dùng l©u
®µi trong kh«ng khÝ”.
Mét sè lËp luËn ®îc tr×nh bµy t¹i c¸c môc tríc (1.2, 1.3) ®· chØ dÉn r»ng
khai ph¸ d÷ liÖu lµ bíc ph¸t triÓn míi cña c«ng nghÖ CSDL, v× vËy nhiÒu néi
dung trong khai ph¸ d÷ liÖu lµ gÇn gòi víi CSDL [HK0106]. §ång thêi, mét sè
dÊu hiÖu ph©n biÖt gi÷a hÖ thèng CSDL ®iÒu hµnh t¸c nghiÖp truyÒn thèng víi hÖ
thèng khai ph¸ d÷ liÖu còng ®· ®îc th¶o luËn; c¸c dÇu hiÖu ®iÓn h×nh nhÊt bao
gåm quan niÖm vÒ mét gi¶ thiÕt s½n cã mét tri thøc miÒn øng dông ®Çy ®ñ, lo¹i
H×nh c¸c c©u hái thÓ hiÖn môc tiªu cña hÖ thèng vµ kÝch thíc tËp d÷ liÖu ®èi
tîng kh¶o s¸t.
H×nh 1.12. TÝnh ®a/liªn ngµnh cña khai ph¸ d÷ liÖu
Tµi nguyªn d÷ liÖu ®Çu vµo cho c¸c hÖ thèng khai ph¸ d÷ liÖu gåm cã c¸c
CSDL, c¸c kho d÷ liÖu vµ c¸c lo¹i nguån chøa d÷ liÖu kh¸c. ChÝnh v× lý do ®ã,
trong kh«ng Ýt trêng hîp, lÜnh vùc kho d÷ liÖu ®îc coi lµ mét bé phËn cña lÜnh
vùc khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL.
§èi víi c¸c lÜnh vùc häc m¸y vµ thu nhËn mÉu, sù ®an xen víi khai ph¸ d÷
liÖu (vµ KDD) tr¶i theo c¸c nghiªn cøu vÒ lý thuyÕt vµ thuËt to¸n ®èi víi c¸c hÖ
thèng trÝch läc mÉu vµ m« h×nh d÷ liÖu (chñ yÕu ®èi víi c¸c ph¬ng ph¸p khai
ph¸ d÷ liÖu). C¸c ph¬ng ph¸p häc m¸y gi¸m s¸t (ph©n líp), kh«ng gi¸m s¸t
(ph©n côm), b¸n gi¸m s¸t (ph©n líp vµ ph©n côm) ®· rÊt phæ biÕn trong khai ph¸
d÷ liÖu, nh»m lùa chän m« h×nh vµ x¸c ®Þnh tham sè m« h×nh trong c¸c hÖ thèng
KDD. Träng t©m cña KDD ®èi víi viÖc më réng c¸c lý thuyÕt vµ thuËt to¸n häc
m¸y híng tíi bµi to¸n t×m ra c¸c mÉu ®Æc biÖt (nh÷ng mÉu mµ trong mét sè
ng÷ c¶nh cßn ®îc gäi lµ tri thøc h÷u dông hoÆc hÊp dÉn) trong c¸c tËp hîp d÷
liÖu cã dung lîng lín cña thÕ giíi thùc. Nh vËy, khai ph¸ d÷ liÖu më réng néi
dung häc m¸y th«ng qua c¸c c«ng viÖc lùa chän d÷ liÖu ®Çu vµo, tr×nh diÔn mÉu,
55 56
®¸nh gi¸ mÉu ®Çu ra... trong ng÷ c¶nh miÒn d÷ liÖu cÇn xö lý cã dung lîng rÊt
lín.
Cïng víi tiÕp cËn m« h×nh l«gic, m« h×nh thèng kª lµ tiÕp cËn phæ biÕn
trong c¸c bµi to¸n ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu, v× vËy, chuyªn ngµnh
KDD cã rÊt nhiÒu ®iÓm chung víi chuyªn ngµnh thèng kª, ®Æc biÖt lµ ph©n tÝch
d÷ liÖu th¨m dß (EDA: Exploratory Data Analysis) còng nh dù b¸o [Fried97,
HD03]. HÖ thèng KDD thêng g¾n kÕt víi c¸c thñ tôc thèng kª ®Æc biÖt ®èi víi
m« h×nh d÷ liÖu vµ n¾m b¾t nhiÔu trong mét khung c¶nh ph¸t hiÖn tri thøc tæng
thÓ. C¸c ph¬ng ph¸p khai ph¸ d÷ liÖu dùa theo thèng kª nhËn ®îc sù quan t©m
®Æc biÖt t¹o nªn líp ph¬ng ph¸p khai ph¸ d÷ liÖu réng lín dùa trªn häc m¸y
thèng kª. Robert Nisbet vµ céng sù [NEM09], Trevor Hastie vµ céng sù
[HTF09] cung cÊp c¸c néi dung kh¸ toµn diÖn vµ bæ Ých vÒ c¸c ph¬ng ph¸p häc
m¸y thèng kª vµ khai ph¸ d÷ liÖu thèng kª. Robert Nisbet vµ céng sù tr×nh bµy
mét c¸ch hÖ thèng qu¸ tr×nh tiÕn hãa cña thèng kª to¸n häc, bao gåm c¶ sù ph¸t
triÓn c¸c néi dung cña thèng kª to¸n häc tíi khai ph¸ d÷ liÖu thèng kª.
V× khai ph¸ d÷ liÖu vµ xö lý d÷ liÖu thèng kª rÊt gÇn gòi víi nhau vµ mét
sè néi dung trong xö lý d÷ liÖu thèng kª ®îc tÝch hîp vµo qu¸ tr×nh khai ph¸ d÷
liÖu, tuy nhiªn, còng cÇn nªu ra mét sè kh¸c biÖt gi÷a bµi to¸n thèng kª to¸n häc
vµ bµi to¸n khai ph¸ d÷ liÖu.
§Çu tiªn, khai ph¸ d÷ liÖu kh¸c biÖt víi ph©n tÝch th«ng kª trong bµi to¸n
thèng kª toµn häc vÒ c¸c gi¶ ®Þnh c¬ b¶n, trong ®ã ph©n tÝch thèng kª yªu cÇu
c¸c ®iÒu kiÖn chÆt chÏ vÒ ph©n bè d÷ liÖu, vÒ tham sè lçi trong khi ®ã khai ph¸
d÷ liÖu kh«ng ®ßi hái nh÷ng gi¶ ®Þnh nh vËy. Trong bµi to¸n khai ph¸ d÷ liÖu,
tri thøc miÒn t¬ng øng víi gi¶ ®Þnh ®ßi hái cña ph©n tÝch thèng kª lµ kÕt qu¶
cña c«ng viÖc t×m hiÓu d÷ liÖu c«ng phu mµ kh«ng ph¶i lµ s½n cã theo gi¶ ®Þnh.
Nh vËy, ph¬ng ph¸p ph©n tÝch thèng kª cã thÓ ®îc huy ®éng trong bíc
“hiÓu d÷ liÖu” cña qu¸ tr×nh khai ph¸ d÷ liÖu.
Thø hai, môc tiªu cña ph©n tÝch thèng kª lµ kiÓm thö gi¶ thiÕt hoÆc x¸c
®Þnh tham sè, trong khi ®ã môc tiªu cña khai ph¸ d÷ liÖu lµ x¸c ®Þnh m« h×nh dù
b¸o vµ ®é chÝnh x¸c cña m« h×nh dù b¸o ®ã. Cô thÓ h¬n, trong bµi to¸n ph©n tÝch
kiÓm ®Þnh gi¶ thiÕt thèng kª, cho tríc mét gi¶ thiÕt thèng kª th× c«ng viÖc cÇn
tiÕn hµnh lµ kiÓm tra xem tËp hîp toµn bé c¸c d÷ liÖu quan s¸t ®îc cã phï hîp
víi gi¶ thiÕt thèng kª nãi trªn hay kh«ng, hay còng vËy, gi¶ thiÕt thèng kª cã
®óng trªn toµn bé d÷ liÖu quan s¸t ®îc hay kh«ng. NÕu kiÓm ®Þnh cho kÕt qu¶
kh«ng phï hîp cã nghÜa lµ gi¶ thiÕt thèng kª lµ kh«ng ®óng trªn tËp d÷ liÖu quan
s¸t. Nh vËy, tÝnh ®óng ®¾n cña gi¶ thiÕt thèng kª ®îc xem xÐt trªn tËp tËp d÷
liÖu quan s¸t ®· cã.
Thø ba, ph©n tÝch thèng kª coi tËp d÷ liÖu xö lý lµ phÇn lÊy mÉu cña tËp d÷
liÖu toµn côc trong khi khai ph¸ d÷ liÖu coi tËp d÷ liÖu cÇn xö lý lµ toµn bé d÷
liÖu thuéc miÒn øng dông. Trong khai ph¸ d÷ liÖu, m« h×nh kÕt qu¶ khai ph¸ d÷
liÖu lµ kh«ng ®îc x¸c ®Þnh tríc cÇn ph¶i phï hîp víi tËp toµn bé d÷ liÖu cña
miÒn øng dông mµ kh«ng ph¶i chØ víi tËp d÷ liÖu quan s¸t ®îc (tËp d÷ liÖu
quan s¸t ®îc chØ lµ mét bé phËn mµ thêng lµ rÊt nhá so víi miÒn d÷ liÖu cña
thÕ giíi thùc, xem H×nh 1.8) do ®ã cÇn ®¶m b¶o c¸c tham sè m« h×nh kh«ng phô
thuéc vµo c¸ch chän tËp d÷ liÖu häc. ChÝnh v× lý do cèt lâi nµy mµ bµi to¸n häc
khai ph¸ d÷ liÖu ®ßi hái ®¸p øng yªu cÇu lµ tËp d÷ liÖu häc còng nh tËp d÷ liÖu
kiÓm tra cÇn cã tÝnh "®¹i diÖn" cho toµn bé d÷ liÖu trong miÒn øng dông vµ hai
tËp d÷ liÖu nµy cÇn ®éc lËp nhau. Trong mét sè bµi to¸n khai ph¸ d÷ liÖu, hai tËp
d÷ liÖu nµy (hoÆc tËp d÷ liÖu kiÓm tra) ®îc c«ng bè díi d¹ng chuÈn.
Thø t, ph©n tÝch cã ®ßi hái kh¸ râ rµng vÒ kÝch thíc tËp d÷ liÖu mÉu vµ
cã tÝnh chÊt tÜnh (æn ®Þnh), trong khi ®ã khai ph¸ d÷ liÖu tiÕp cËn theo híng
“cµng nhiÒu cµng tèt”, h¬n n÷a d÷ liÖu cã thÓ ®éng. TiÕp theo, khai ph¸ d÷ liÖu
cho phÐp thi hµnh lÆp ®Ó c¶i thiÖn m« h×nh kÕt qu¶ trong khi ®ã viÖc thi hµnh lÆp
cã thÓ dÉn tíi kÕt luËn sai lÇm trong ph©n tÝch thèng kª.
Cuèi cïng, c¸c thuËt ng÷ dïng trong hai lÜnh vùc nghiªn cøu nµy còng lµ
dÊu hiÖu ph©n biÖt chóng, ch¼ng h¹n, lÜnh vùc khai ph¸ d÷ liÖu dïng c¸c thuËt
ng÷ biÕn ra/biÕn môc tiªu, thuËt to¸n khai ph¸ d÷ liÖu, thuéc tÝnh/®Æc trng, b¶n
ghi... trong khi ®ã th× lÜnh vùc xö lý d÷ liÖu thèng kª dïng c¸c thuËt ng÷ t¬ng
øng lµ biÕn phô thuéc, thñ tôc thèng kª, biÕn gi¶i thÝch, quan s¸t...
Nh ®· ®îc tr×nh bµy, qu¸ tr×nh ph¸t hiÖn tri thøc lµm viÖc víi tËp hîp d÷
liÖu lín mµ trong nhiÒu trêng hîp tËp d÷ liÖu trë nªn khæng lå. Ph¹m vi t¸c
®éng to lín vµ ®a d¹ng ®ßi hái c¸c thuËt to¸n khai ph¸ d÷ liÖu ph¶i ®óng ®¾n vµ
57 58
hiÖu qu¶; chÝnh v× ®iÒu ®ã cho nªn rÊt nhiÒu thuËt to¸n khai ph¸ d÷ liÖu ®· ®îc
®Ò xuÊt. ZH Zhou [Zhou03] giíi thiÖu vÒ bèn thµnh phÇn cña mét thuËt to¸n
khai ph¸ d÷ liÖu lµ c¸c m« h×nh vµ mÉu, c¸c hµm ®¸nh gi¸, c¸c ph¬ng ph¸p t×m
kiÕm vµ tèi u hãa, vµ chiÕn lîc qu¶n lý d÷ liÖu.
Xindong Wu vµ céng sù [WKQ08] cung cÊp mét danh s¸ch gåm mêi
thuËt to¸n khai ph¸ d÷ liÖu næi tiÕng nhÊt, ®ã lµ c¸c thuËt to¸n C4.5, k-Means,
SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, vµ CART. C¸c t¸c
gi¶ còng giíi thiÖu nh÷ng néi dung c¬ b¶n nhÊt cña mçi trong mêi thuËt to¸n
nãi trªn. Mét sè néi dung c¬ b¶n nhÊt cña hÇu hÕt ¸c thuËt to¸n trong mêi thuËt
to¸n nµy sÏ ®îc giíi thiÖu trong c¸c ch¬ng tõ 4-7 cña tµi liÖu nµy.
Nh ®· ®îc kh¼ng ®Þnh t¹i c¸c phÇn tríc ®©y lµ kh«ng ph¶i tÊt c¸c c¸c
mÉu ®Òu h÷u dông vµ hÖ thèng cÇn ®a ra c¸c tiªu chÝ ®Ó läc c¸c mÉu ®îc coi
lµ hÊp dÉn nhÊt. Th«ng thêng c¸c hÖ thèng sö dông mét ngìng hÊp dÉn cùc
tiÕu cho c¸c mÉu ®îc coi lµ tri thøc, ch¼ng h¹n trong bµi to¸n ph¸t hiÖn luËt kÕt
hîp, ngêi ta chØ gi÷ l¹i c¸c luËt vît qua ngìng ®é hç trî tèi thiÓu vµ ®é tin
cËy tèi thiÓu. Ngay c¶ trong trêng hîp ®ã, kh«ng ph¶i mäi “tri thøc” ®îc hÖ
thèng coi lµ “h÷u dông” ®Òu hoµn toµn phï hîp víi ngêi sö dông. Bíc trùc
quan hãa trong qu¸ tr×nh KDD hiÓn thÞ c¸c tri thøc ®îc hÖ thèng ph¸t hiÖn mét
c¸ch trùc quan nhÊt ®Ó t¹o thuËn lîi cho ngêi sö dông (th«ng qua tri thøc vµ
kinh nghiÖm) lùa chän ra c¸c tri thøc thùc sù h÷u dông cho môc ®Ých øng dông
cña ngêi sö dông.
Ph¸t hiÖn m¸y víi môc tiªu lµ ph¸t hiÖn c¸c luËt kinh nghiÖm tõ quan s¸t
vµ thö nghiÖm vµ m« h×nh nh©n qu¶ ph¸t hiÖn c¸c kÕt luËn cña m« h×nh nh©n
qu¶ tõ d÷ liÖu lµ nh÷ng lÜnh vùc nghiªn cøu cã mèi liªn hÖ víi nhau.
Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu còng chøng kiÕn sù th©m
nhËp réng lín cña lý thuyÕt tËp mê (ch¼ng h¹n, [EM03, HP03, STH06] vµ c¸c
c«ng bè khoa häc trong d·y héi nghÞ quèc tÕ Intenational Conference on Fuzzy
Systems and Knowledge Discovery: FSKD12 vµ mét sè héi nghÞ quèc tÕ uy tÝn
12 http://icnc-fskd.dhu.edu.cn/
kh¸c), lý thuyÕt tËp th« (ch¼ng h¹n, [Zia94, Ohrn99, SZ00, Li07, NS08,
Szczu11] vµ c¸c c«ng bè khoa häc t¹i chuçi héi nghÞ quèc tÕ "Rough Sets and
Knowledge Technology: RSKT13) vµ lý thuyÕt kÕt hîp tËp mê – th«
[Jenssen11] . Ch¬ng 9 tr×nh bµy c¸c néi dung chi tiÕt vÒ khai ph¸ d÷ liÖu dùa
trªn lý thuyÕt tËp mê, tËp th« vµ tËp mê-th«.
Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu lµ lÜnh vùc nghiªn cøu vµ
øng dông cã quan hÖ mËt thiÕt víi sù ph¸t triÓn kinh tÕ – x· héi, v× vËy, theo
thêi gian, khai ph¸ d÷ liÖu ®a vµ ®ang thu hót thªm sù tham gia cña nhiÒu ngµnh,
chuyªn ngµnh kh¸c kh«ng chØ trong lÜnh vùc CNTT mµ cßn ë c¸c lÜnh vùc kh¸c.
C©u hái vµ Bµi tËp
1.1. Néi dung, ý nghÜa ®Þnh híng c«ng nghiÖp vµ kinh tÕ cña ®Þnh luËt Moore.
1.2. Ph©n biÖt bµi to¸n qu¶n trÞ C¬ së d÷ liÖu t¸c nghiÖp víi bµi to¸n khai ph¸ d÷
liÖu.
1.3. Ph©n tÝch vai trß cña c¬ së tri thøc trong mét hÖ thèng khai ph¸ d÷ liÖu.
1.4. Ph©n biÖt bµi to¸n khai ph¸ d÷ liÖu víi bµi to¸n kiÓm nghiÖm gi¶ thiÕt thèng
kª.
1.5. Han vµ Kamber [HK0106] quan niÖm khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc
trong CSDL lµ bíc ph¸t triÓn míi cña c«ng nghÖ CSDL. H·y lËp luËn lµm
s¸ng tá quan niÖm trªn.
1.6. Tr×nh bµy mét sè mÉu truy vÊn trong hÖ thèng qu¶n trÞ c¬ së d÷ liÖu vµ hÖ
thèng khai ph¸ d÷ liÖu. Ph©n tÝch lµm s¸ng tá c¸c mÉu truy vÊn trong hÖ
thèng khai ph¸ d÷ liÖu lµ phøc t¹p h¬n mÉu truy vÊn trong hÖ thèng qu¶n trÞ
CSDL.
13 http://rskt.cs.uregina.ca/
59 60
1.7. HÖ thèng khai ph¸ d÷ liÖu cã nhÊt thiÕt cã nguån ®Çu vµo lµ kho d÷ liÖu hay
kh«ng ? Ph©n tÝch mét sè lîi ®iÓm khi hÖ thèng khai ph¸ d÷ liÖu cã nguån
d÷ liÖu ®Çu vµo chØ lµ c¸c kho d÷ liÖu.
1.8. Ph©n tÝch vÒ tÝnh "kh«ng tÇm thêng" cña qu¸ tr×nh ph¸t hiÖn tri thøc trong
CSDL.
1.9. Ph©n biÖt bµi to¸n khai ph¸ d÷ liÖu m« t¶ víi bµi to¸n khai ph¸ d÷ liÖu dù
b¸o.
1.10. Ph©n tÝch tÇm quan träng cña kh©u lµm s¹ch d÷ liÖu vµ tiÒn xö lý d÷ liÖu
trong qu¸ tr×nh khai ph¸ d÷ liÖu vµ tr×nh bµy s¬ bé vÒ néi dung cña kh©u
nµy.
1.11. Ph©n tÝch vÒ sù cÇn thiÕt ph¶i tiÕn hµnh tÝnh to¸n gi¸ trÞ mét sè ®é ®o nµo ®ã
trong c¸c bµi to¸n khai ph¸ d÷ liÖu.
Ch¬ng 2. C«ng nghÖ tri thøc vµ ph¸t hiÖn tri thøc tõ d÷ liÖu
Nh ®· ®îc ®Ò cËp t¹i Ch¬ng 1, thÕ giíi ngµy nay ®ang chuyÓn ®æi tõ
kinh tÕ hµng hãa (good economic) sang kinh tÕ dÞch vô (service economic). Ba
kh¸i niÖm kinh tÕ næi bËt lµ kinh tÕ tri thøc, kinh tÕ th«ng tin vµ kinh tÕ dÞch vô.
Sîi chØ ®á xuyªn suèt néi dung ba kh¸i niÖm kinh tÕ nãi trªn lµ tri thøc. Sö dông
tri thøc lµ ®éng lùc chñ chèt cho t¨ng trëng kinh tÕ quèc gia, còng chÝnh lµ
®éng lùc chñ chèt cho t¨ng cêng lîi thÕ c¹nh tranh cña doanh nghiÖp, tæ chøc.
Trong xu thÕ ph¸t triÓn ®ã, CNTT ngµy cµng kh¼ng ®Þnh tÇm quan träng chiÕn
lîc. §Æc biÖt, ngµnh c«ng nghiÖp dùa trªn d÷ liÖu ®· ®îc h×nh thµnh vµ ®ang
ph¸t triÓn víi tèc ®é cao. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong d÷ liÖu lµ
nÒn t¶ng cña ngµnh c«ng nghiÖp dùa trªn d÷ liÖu.
Ch¬ng 1 còng ®· tr×nh bµy mét sè néi dung kh¸i qu¸t vÒ khai ph¸ d÷ liÖu
vµ ph¸t hiÖn tri thøc tõ d÷ liÖu. Ch¬ng 2 sÏ giíi thiÖu chi tiÕt vÒ vai trß vµ néi
dung cña c«ng nghÖ tri thøc mµ mét néi dung c¬ b¶n trong ®ã lµ ph¸t hiÖn tri
thøc tõ d÷ liÖu.
2.1. Vai trß cña CNTT trong kinh tÕ tri thøc
Nghiªn cøu khoa häc liªn lÜnh vùc cho thÊy ph¸t triÓn CNTT vµ ph¸t triÓn
kinh tÕ cã mèi quan hÖ h÷u c¬ mËt thiÕt, trong ®ã c¸c quèc gia cã tr×nh ®é
CNTT ph¸t triÓn cao còng chÝnh lµ c¸c quèc gia cã nÒn kinh tÕ ph¸t triÓn cao. Tõ
vÞ thÕ ®îc kú väng cã phÇn qu¸ cêng ®iÖu vµ m¬ hå ban ®Çu, CNTT ngµy cµng
61 62
kh¼ng ®Þnh vÞ thÕ chiÕn lîc trong ph¸t triÓn kinh tÕ, trong t¨ng trëng hiÖu qu¶
cña doanh nghiÖp vµ tæ chøc. Tuy nhiªn, cÇn cã mét nÒn t¶ng nhËn thøc chÝnh
x¸c vµ toµn diÖn vÒ vÞ thÕ chiÕn lîc cña CNTT ®Ó x¸c ®Þnh chiÕn lîc ph¸t triÓn
dùa trªn CNTT ®óng ®¾n vµ ng¨n ngõa ®îc c¸c biÓu hiÖn sai lÖch trong nhËn
thøc vÒ vai trß cña CNTT, hoÆc theo híng ngé nhËn vµ l¹m dông vai trß cña
CNTT dÉn tíi l·ng phÝ, tham nhòng hoÆc theo híng phñ nhËn vÞ thÕ chiÕn lîc
cña CNTT.
§Çu tiªn, môc con 2.1.1. giíi thiÖu mét sè luËn ®iÓm theo híng phñ nhËn
vÞ thÕ chiÕn lîc cña CNTT, ®iÓn h×nh lµ luËn ®iÓm cña Robert M. Solow vµo
n¨m 1987 vµ luËn ®iÓm cña Nicolas Carr vµo nh÷ng n¨m 2003-2004. TiÕp theo,
nh»m cung cÊp mét sè néi dung lµm s¸ng tá vÞ thÕ chiÕn lîc cña CNTT, kh¸i
niÖm vÒ kinh tÕ tri thøc vµ vai trß cña CNTT trong kinh tÕ tri thøc sÏ ®îc giíi
thiÖu trong môc con 2.1.2.
2.1.1. NghÞch lý hiÖu qu¶ cña CNTT cña Robert Solow vµ luËn ®iÓm cña N. Carr
2.1.1.1. NghÞch lý hiÖu qu¶ cña CNTT
Vµo n¨m 1987, Robert M. Solow, mét nhµ kinh tÕ ngêi Mü ®îc tÆng gi¶i
thëng Nobel vÒ kinh tÕ, ph¸t biÓu "Chóng ta nh×n thÊy m¸y tÝnh ë mäi n¬i
ngo¹i trõ trong thèng kª hiÖu qu¶" (nguyªn v¨n: You can see the computer age
every where but in the productivity statistics) [Solow87]. Ph¸t biÓu nµy ®îc
Erik Brynjolfsson [Bryn93] chØ dÉn nh lµ "nghÞch lý hiÖu qu¶ cña CNTT
(Productivity Paradox of Information Technology). Theo Erik Brynjolfsson,
thèng kª hiÖu qu¶ ®îc R. M. Solow luËn cø trong nghÞch lý hiÖu qu¶ cña CNTT
®îc diÔn t¶ nh díi ®©y.
- Trong bèn thËp niªn (1960- 1990), tû lÖ ®Çu t cho m¸y tÝnh cña níc Mü
tÝnh theo GDP t¨ng nhanh tõ 0,003 % GDP (thËp niªn 1960), 0,05% (thËp niªn
1970s), 0,3% (thËp niªn 1980s), tíi 3,1% (thËp niªn 1990s) nhng tû lÖ t¨ng
GDP trung b×nh theo n¨m l¹i gi¶m tõ 4,5% (thËp niªn 1960s) xuèng 2,95% (thËp
niªn 1970s) råi 2,75 (thËp niªn 1980s) vµ 2,20% (thËp niªn 1990s). T¨ng ®Çu tõ
CNTT cã vÎ nh kh«ng gãp phÇn vµo t¨ng GDP níc Mü nÕu kh«ng nãi lµ cßn
lµm gi¶m ®i.
- Theo thèng kª tõ hµng tr¨m ngh×n doanh nghiÖp Mü, ®Çu t CNTT tÝnh
theo ®Çu nh©n viªn vµ hiÖu qu¶ kinh doanh còng kh«ng cã mèi quan hÖ râ rµng,
kh«ng híng tíi kú väng "®Çu t CNTT t¨ng th× hiÖu qu¶ kinh doanh còng
t¨ng". Cã mét trêng hîp ®Æc biÖt, riªng víi c¸c doanh nghiÖp trong lÜnh vùc tµi
chÝnh – ng©n hµng, hiÖu qu¶ kinh doanh cã quan hÖ tû lÖ thuËn víi ®Çu t
CNTT.
- TÝnh tr¹ng ®Çu t CNTT mét c¸ch l·ng phÝ còng diÔn ra ®èi víi mét bé
phËn c¸ nh©n vµ hé gia ®×nh.
E. Brynjolfsson [Bryn93] ®a ra nhËn ®Þnh r»ng thùc chÊt c¸c hiÖn tîng
trªn ®©y kh«ng thùc sù lµ nghÞch lý hiÖu qu¶ cña CNTT. T¸c gi¶ cung cÊp bèn
gi¶i thÝch díi ®©y vÒ c¸c hiÖn tîng nãi trªn:
- Lçi ®o lêng trong c«ng thøc tÝnh hiÖu qu¶. Lçi ®o lêng thÓ hiÖn theo
hai khÝa c¹nh chÝnh. C«ng thøc tÝnh hiÖu qu¶ cña kinh tÕ cæ ®iÓn cã mét lçi lín
khi chØ ®o lêng tµi nguyªn trùc tiÕp liªn quan tíi vèn, lao ®éng vµ gi¸ trÞ. Trong
thêi ®¹i kinh tÕ tri thøc (xu thÕ chuyÓn ®æi tõ kinh tÕ híng hµng hãa sang kinh
tÕ híng dÞch vô), c¸c yÕu tè tµi nguyªn gi¸n tiÕp (tri thøc nh©n viªn vµ tri thøc
doanh nghiÖp, tµi nguyªn quy tr×nh tæ chøc cña doanh nghiÖp...) ngµy cµng ®ãng
vai trß quan träng trong ph¸t triÓn kinh tÕ quèc gia vµ c¹nh tranh doanh nghiÖp
th× chóng cÇn ph¶i xuÊt hiÖn trong c«ng thøc tÝnh hiÖu qu¶ hiÖn ®¹i. H×nh 2.1
biÓu diÔn mét c«ng thøc ®o lêng hiÖu qu¶ dÞch vô víi sù than gia cña nhiÒu yÕu
tè tµi nguyªn gi¸n tiÕp c¶ ë ®Çu vµo vµ ®Çu ra. Lu ý r»ng, ®o lêng tµi nguyªn
gi¸n tiÕp (thuéc c¶ ®Çu ra lÉn ®Çu vµo) l¹i lµ mét bµi to¸n rÊt khã.
63 64
H×nh 2.1 Mét c«ng thøc ®o lêng hiÖu qu¶.
- Kh«ng gièng nh c¸c kho¶n ®Çu t c¬ së h¹ tÇng, ®Çu t CNTT cã mét kho¶ng thêi gian trÔ ®Ó ph¸t huy hiÖu qu¶. §iÒu nµy cã nguyªn nh©n tõ viÖc
nh©n viªn trong doanh nghiÖp ph¶i cã mét kho¶ng thêi gian (theo E.
Brynjolfsson, thêng lµ 2-3 n¨m) míi cã thÓ sö dông thµnh th¹o c¸c c«ng cô cña
CNTT. T¸c gi¶ còng khuyÕn nghÞ vÒ viÖc cÇn thùc hiÖn gi¶i ph¸p rót ng¾n ®é trÔ
nµy.
- TÝnh ph©n phèi l¹i vÒ tµi nguyªn th«ng tin. Th«ng tin vµ tri thøc võa lµ tµi
nguyªn quan träng cña doanh nghiÖp song còng ®îc coi lµ mét d¹ng "s¶n phÈm
hµng hãa c«ng céng", cho nªn, chi phÝ ®Çu t CNTT ®Ó ph¸t triÓn cña mét doanh
nghiÖp cã thÓ bÞ bao gãi thªm chi phÝ ®Çu t CNTT cho doanh nghiÖp kh¸c. §èi
víi t×nh huèng nµy, c¸c doanh nghiÖp cÇn ph¶i ®¶m b¶o ®îc mét yªu cÇu lµ
trong vßng ®êi cña th«ng tin vµ tri thøc cña doanh nghiÖp, chóng ph¶i lµm lîi
nhiÒu nhÊt cho chÝnh b¶n th©n doanh nghiÖp ®· ®Çu t.
- Sai lÇm trong qu¶n lý ®Çu t CNTT. C¸c kho¶n ®Çu t CNTT ®îc thi
hµnh song quyÕt ®Þnh ®Çu t chóng l¹i cã thÓ kh«ng ®îc ®Þnh híng tíi lîi Ých
cña doanh nghiÖp. T×nh tr¹ng nµy cã nguyªn nh©n tõ c¸c quyÕt ®Þnh ®Çu t lµ
láng lÎo dÉn tíi viÖc x©y dùng c¸c hÖ thèng kh«ng hiÖu qu¶, hoÆc ®¬n gi¶n lµ sö
dông c¸c chiÕn lîc t¹o quyÕt ®Þnh lçi thêi khi quyÕt ®Þnh ®Çu t CNTT. Sö
dông chÝnh c«ng cô CNTT, ®Æc biÖt lµ c«ng cô khai ph¸ d÷ liÖu, lµ mét biÖn
ph¸p kh¾c phôc ®îc hiÖn tîng nµy. Lu ý r»ng, ë ®©y kh«ng ®Ò cËp tíi mét
vÊn ®Ò tiªu cùc x· héi lµ tham nhòng trong ®Çu t cho CNTT.
Nh vËy, ngay tõ nh÷ng n¨m ®Çu tiªn cña thËp niªn 1990, c¸c nhµ khoa
häc ®· kh¼ng ®Þnh ®îc r»ng "nghÞch lý hiÖu qu¶ cña CNTT" lµ kh«ng ®óng
trong thùc tiÔn. Kh«ng nh÷ng thÕ, vai trß chiÕn lîc cña CNTT ngµy cµng ®îc
nhÊn m¹nh trong ph¸t triÓn kinh tÕ tri thøc [OECD96]. Tuy nhiªn, mét vµi nhµ
kinh tÕ, ®iÓn h×nh lµ Nicolas Car, vÉn b¶o thñ vµ bµy tá mèi nghi ngê vÒ vai trß
chiÕn lîc cña CNTT.
2.1.1.2. LuËn ®iÓm cña N. Carr
Vµo n¨m 2003, N. Carr tr×nh bµy mét sè luËn ®iÓm sau ®©y phñ nhËn vai
trß chiÕn lîc cña CNTT [Carr03]:
- CNTT xuÊt hiÖn kh¾p n¬i vµ tÇm quan träng chiÕn lîc cña nã ®· gi¶m.
C¸ch tiÕp cËn ®Çu t vµ qu¶n lý CNTT cÇn ph¶i ®îc thay ®æi mét c¸ch ®¸ng kÓ
!
- Khi mét tµi nguyªn (ý nãi CNTT) trë thµnh b¶n chÊt ®Ó c¹nh tranh nhng
®· kh«ng quan träng cho chiÕn lîc th× rñi ro mµ nã t¹o ra l¹i trë nªn quan träng
h¬n so víi c¸c lîi thÕ mµ nã cung cÊp.
- Víi viÖc nhanh chãng biÕn mÊt c¸c c¬ héi ®¹t ®îc lîi thÕ chiÕn lîc tõ
CNTT, nhiÒu doanh nghiÖp cÇn ph¶i cã mét c¸i nh×n nghiªm kh¾c trong ®Çu t
vµo CNTT vµ qu¶n lý c¸c hÖ thèng cña hä.
§ång thêi, N. Carr ®a ra ba quy t¾c híng dÉn cho t¬ng lai víi ®Þnh
híng phñ nhËn vai trß chiÕn lîc cña CNTT. N¨m 2005, N. Carr l¹i c«ng bè
mét bµi viÕt kh¸c [Carr05] nh»m cñng cè c¸c luËn ®iÓm trªn ®©y. LuËn ®iÓm phñ
nhËn vai trß chiÕn lîc cña CNTT mµ N. Carr ph¸t biÓu ®· t¹o ra mét lµn sãng
65 66
ph¶n b¸c m¹nh mÏ. ChÝnh v× vËy, N. Carr ®· lät vµo danh s¸ch 100 ngêi cã tªn
®îc nh¾c ®Õn nhiÒu nhÊt trªn thÕ giíi.
Sai lÇm cña N. Carr lµ ë chç «ng ®· quan niÖm CNTT nh lµ mét lo¹i c«ng
nghÖ h¹ tÇng (gièng nh ®iÖn n¨ng), tõ ®ã dÉn ®Õn viÖc kh«ng nhËn thøc ®îc
vai trß chiÕn lîc cña CNTT trong ph¸t triÓn tri thøc quèc gia còng nh tri thøc
doanh nghiÖp. Th«ng qua c¸c ph©n tÝch liªn quan tíi 11 nhËn ®Þnh cña N. Carr,
Paul A. Strassmann (Executive Advisor, NASA; Former CIO of General Foods,
Kraft, Xerox, the Department of Defense, and NASA) ®· lµm s¸ng tá c¸c sai lÇm
trong c¸c bµi viÕt cña N. Carr14.
Tuy nhiªn, t¬ng tù nh gi¶i thÝch "nghÞch lý hiÖu qu¶ cña CNTT" tõ yÕu
kÐm trong qu¶n lý ®Çu t CNTT, khuyÕn c¸o vÒ c¸ch thøc tiÕp cËn ®Çu t vµ
qu¶n lý CNTT cña N. Carr còng mang ý nghÜa tÝch cùc. Díi ®©y lµ mét sè nhËn
®Þnh cña mét sè nhµ qu¶n lý liªn quan tíi khuyÕn c¸o nµy1:
- NÕu cã mét ®iÒu mµ chóng ta häc ®îc tõ nh÷ng n¨m 1990 lµ sù khëi
®Çu dùa trªn CNTT, tëng nh mét vô næ vò trô nhng l¹i hiÕm khi t¹o ra mét
®Òn ®¸p t¬ng xøng nh kú väng. NhÏ ra ph¶i gióp c¸c doanh nghiÖp hiÓu r»ng
CNTT chØ lµ mét c«ng cô, c¸c nhµ cung cÊp c«ng nghÖ l¹i nh»m tíi nã nh mét
thuèc b¸ch bÖnh “Mua c«ng nghÖ nµy ®i vµ c¸c vÇn ®Ò cña anh sÏ ®îc gi¶i
quyÕt !” (John Seely Brown, Former Chief Scientist, Xerox Palo Alto, California
vµ John Hagel III, Management Consultant and Author, Burlingame, California).
- C«ng viÖc cña CTO (Chief Of Technical: ngêi ®øng ®Çu bé phËn c«ng
nghÖ) vµ CIO (Chief Of Information: ngêi ®øng ®Çu vÒ th«ng tin) cña tæ chøc
sÏ trë nªn quan träng cha tõng cã trong c¸c thËp niªn tiÕp theo. Gãi kü n¨ng
cÇn thiÕt trong mét tæ chøc sÏ thay ®æi rÊt nhanh ®Ó c¹nh tranh trong thêi ®¹i
th«ng tin (F. Warren McFarlan, Albert H. Gordon Professor of Business
Administration, Harvard Business School, Boston vµ Richard L. Nolan, William
Barclay Harding Professor of Business Administration, Harvard Business
School, Boston)
14 Harvard Bussiness Review, June 2003
- T«i ®ång t×nh nhiÒu víi khuyÕn c¸o cña Nicholas Carr vÒ c¸ch thøc c¸c
doanh nghiÖp nªn cã ph¶n øng víi mét thùc tÕ kh«ng thÓ chÞu ®ùng ®îc lµ
CNTT ®· trë thµnh mét lo¹i hµng hãa. Nhng t¹i sao Carr l¹i khuyÕn c¸o c¸c
®iÒu lo l¾ng tíi c¸c nhµ qu¶n lý CNTT ? Ph¶i ch¨ng lµ v× c¸c bµi to¸n l·nh ®¹o
nh qu¶n lý vµ kiÓm so¸t rñi ro vÒ kinh phÝ Ýt høa hÑn hoÆc th¸ch thøc h¬n so víi
viÖc theo ®uæi lîi thÕ c¹nh tranh ? CNTT lu«n lu«n quan träng – lµ vÊn ®Ò
trong mäi quan niÖm. CNTT b¾t buéc hç trî kinh doanh – kh«ng chØ b»ng ¸p
dông l«gÝc vÒ c«ng nghÖ mµ cßn b»ng ¸p dông l«gic vÒ b¶n chÊt chung (Jason
Hittleman, IT Director, RKA Petroleum Companies, Romulus, Michigan).
Liªn quan tíi ®Çu t cho CNTT, th«ng qua viÖc kh¶o s¸t vÒ ®Çu t vµ hiÖu
qu¶ CNTT cña trªn 5700 doanh nghiÖp Mü, Paul A. Strassmann ®· ®a ra mét
sè khuyÕn nghÞ [Strass07]:
- Cã thÓ chi tiªu cho CNTT h¬n hoÆc kÐm so víi møc trung b×nh cña c¸c
doanh nghiÖp ®ång h¹ng (gäi lµ møc th«ng thêng), nhng vÒ tæng thÓ th× chi
tiªu nh thÕ cÇn ®a tíi hiÖu qu¶ ®o lêng ®îc mµ kh«ng ph¶i chØ lµ hiÖu qu¶
nãi chung.
- Cã thÓ chi tiªu cho CNTT h¬n møc th«ng thêng khi mµ hiÖu qu¶ th«ng
tin ®¹t ®îc vÉn h¬n møc th«ng thêng.
- Cã thÓ chi tiªu cho CNTT h¬n møc th«ng thêng khi mµ gi¸ trÞ tri thøc
cña nh©n viªn ®¹t ®îc vÉn h¬n møc th«ng thêng.
Nh vËy, hiÖu qu¶ ®Çu t CNTT trong doanh nghiÖp cÇn ph¶i ®o lêng
®îc vµ ®îc ®o lêng theo nhiÒu tiªu chÝ, trong ®ã hiÖu qu¶ th«ng tin vµ hiÖu
qu¶ vÒ gi¸ trÞ tri thøc cña nh©n viªn ®îc Paul A. Strassmann coi lµ hai tiªu chÝ
quan träng. §iÒu nµy hoµn toµn phï hîp víi c«ng thøc tÝnh hiÖu qu¶ trong lý
thuyÕt kinh tÕ hiÖn ®¹i, trong c«ng thøc ®ã, gi¸ trÞ tri thøc võa lµ yÕu tè ®Çu vµo,
võa lµ yÕu tè ®Çu ra. Theo Mårten Simonsson [Simon08], doanh nghiÖp ®¬ng
®¹i phÇn lín phô thuéc vµo CNTT, v× vËy viÖc ra quyÕt ®Þnh vÒ CNTT cña doanh
nghiÖp cã ý nghÜa rÊt quan träng.
67 68
2.1.2. Vai trß cña CNTT trong nÒn Kinh tÕ tri thøc
Theo Ng©n hµng thÕ giíi [WB2006], “nÒn kinh tÕ tri thøc (Knowledge
Economy) hay nÒn kinh tÕ dùa trªn tri thøc (Knowledge-Based Economy) lµ nÒn
kinh tÕ mµ viÖc sö dông tri thøc lµ ®éng lùc chñ yÕu cho t¨ng trëng kinh tÕ”.
Ph¸t biÓu trªn ®©y kh¼ng ®Þnh vai trß “tµi nguyªn chñ yÕu” cña tri thøc trong nÒn
kinh tÕ. C¸c quèc gia cã nÒn kinh tÕ ph¸t triÓn nhÊt còng chÝnh lµ c¸c quèc gia
cã tr×nh ®é kinh tÕ tri thøc cao nhÊt, vµ ngîc l¹i, c¸c quèc gia nghÌo nhÊt còng
chÝnh lµ c¸c quèc gia cã tr×nh ®é kinh tÕ tri thøc thÊp nhÊt15.
NÒn kinh tÕ tri thøc dùa trªn bèn cét trô:
(1) Mét thiÕt chÕ x· héi ph¸p quyÒn vµ khuyÕn khÝch kinh tÕ (An economic
incentive and institutional regime);
(2) mét lùc lîng lao ®éng ®îc gi¸o dôc vµ lµnh nghÒ (An educated and skilled labor force);
(3) mét hÖ thèng c¸ch t©n híng tri thøc hiÖu qu¶ (a effective innovation
system);
(4) mét h¹ tÇng th«ng tin hiÖn ®¹i vµ ®Çy ®ñ (a modern and adequate
information infrastructure).
§Ó n©ng cao tr×nh ®é kinh tÕ tri thøc th«ng qua c¸c cét trô kinh tÕ tri thøc,
c¸c quèc gia kinh tÕ ph¸t triÓn nhÊt thÕ giíi ®· chó träng t¨ng cêng ®Çu t vÒ tri
thøc, chó träng ®Çu t cho nghiªn cøu-ph¸t triÓn, phÇn mÒm vµ gi¸o dôc ®¹i häc.
Cã thÓ lÊy mét vÝ dô tõ bµi häc Hµn Quèc1. Gi¸o dôc vµ nguån nh©n lùc lµ hai
yÕu tè tµi nguyªn tri thøc ®ãng gãp chñ chèt cho sù t¨ng trëng kinh tÕ kú diÖu
cña Hµn Quèc trong suèt bèn thËp niªn 1960-1990. Vµo n¨m 2004, phÇn ®ãng
gãp cña tµi nguyªn tri thøc cho sù t¨ng trëng GDP tÝnh theo ®Çu ngêi ®· gÊp
h¬n ba lÇn so víi phÇn ®ãng gãp cña tµi nguyªn c¬ b¶n (bao gåm vèn vµ lao
®éng). Trong [WB06], Ng©n hµng thÕ giíi cung cÊp sè liÖu vÒ tû lÖ ®Çu t tÝnh
theo GDP cho tri thøc (®Çu t cho nghiªn cøu-triÓn khai, cho phÇn mÒm vµ cho
gi¸o dôc ®¹i häc) vµ ®Çu t cho m¸y mãc vµ trang thiÕt bÞ cña c¸c nÒn kinh tÕ
15 http://info.worldbank.org/etools/kam2/KAM_page5.asp.
ph¸t triÓn nhÊt thÕ giíi vµo n¨m 2002 cho thÊy ®Çu t cho tri thøc chiÕm mét tû
träng cao. H¬n n÷a, trong giai ®o¹n 1994-2002, xu thÕ chung t¹i c¸c nÒn kinh tÕ
ph¸t triÓn nhÊt thÕ giíi lµ tû lÖ ®Çu t tÝnh theo GDP cho tri thøc t¨ng vµ tû lÖ
®Çu t tÝnh theo GDP cho m¸y mãc vµ trang thiÕt bÞ gi¶m. Theo thèng kª vµo
n¨m 2010 cña Tæ chøc hîp t¸c vµ ph¸t triÓn kinh tÕ (Organisation for Economic
Co-operation and Development: OECD), tæng ®Çu t néi ®Þa cho R&D tÝnh theo
GDP vµo n¨m 2008 lµ cao h¬n so víi n¨m 1999 ë ®a sè c¸c quèc gia (31/41)
thuéc tæ chøc nµy, ®a tû lª ®Çu t cho R&D trung b×nh cña toµn khèi OECD
t¨ng tõ 2,16% GDP n¨m 1999 lªn 2,28% GDP n¨m 200816.
ViÖc sö dông tri thøc trong nÒn kinh tÕ tri thøc ®îc diÔn ra trong c¸c lo¹i
ho¹t ®éng lµ yªu cÇu tri thøc, ph¸t sinh tri thøc, phæ biÕn tri thøc vµ vËn dông tri
thøc mét c¸ch hiÖu qu¶ cho t¨ng trëng kinh tÕ. ë cÊp ®é quèc gia, tri thøc lµ
nguån tµi nguyªn chñ yÕu cho t¨ng trëng kinh tÕ, cßn ë cÊp ®é doanh nghiÖp,
tri thøc lµ nguån t¹o ra lîi thÕ c¹nh tranh cho doanh nghiÖp.
H×nh 2.2 VÝ trÝ cña CNTT trong kinh tÕ vÜ m« [MKG04].
16 http://dx.doi.org/10.1787/820860264335
69 70
Nigel Melville vµ céng sù [MKG04] ®· cho mét khung kinh tÕ vÜ m« víi sù
tham gia cña CNTT (H×nh 2.2), trong ®ã tËp trung vµo vÞ trÝ trong c¸c doanh
nghiÖp ®Þa ph¬ng.
H×nh 2.3 Khung x¸c ®Þnh m« h×nh kinh doanh (tr¸i) vµ vÞ trÝ cña m« h×nh kinh doanh trong doanh nghiÖp (ph¶i) [SG10].
S¬ ®å bªn ph¶i cña H×nh 2.3 cho thÊy mét g¾n kÕt bé ba mËt thiÕt gi÷a Tæ
chøc kinh doanh, ChiÕn lîc kinh doanh vµ C«ng nghÖ Th«ng tin – TruyÒn
th«ng (CNTT-TT) vµ ®iÒu nµy cµng kh¼ng ®Þnh vai trß chiÕn lîc cña ICT ®èi
víi tæ chøc. Tham gia vµo bé ba ®ã, Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷
liÖu ®îc coi lµ mét bé phËn tÝch cùc cña CNTT.
Vai trß chiÕn lîc cña CNTT cßn ®îc thÓ hiÖn ë chç, c¸c hÖ thèng cung
cÊp th«ng tin (nãi chung) còng nh c¸c øng dông khai ph¸ d÷ liÖu (nãi riªng) t¹i
c¸c doanh nghiÖp ®Òu cÇn ph¶i xuÊt ph¸t tõ yªu cÇu kinh doanh cña doanh
nghiÖp. Nh vËy, nh»m t¨ng cêng tri thøc t¹i doanh nghiÖp, c¸c bµi to¸n khai
ph¸ d÷ liÖu ®îc ®Æt ra vµ chóng cã ®iÓm xuÊt ph¸t tõ nhu cÇu kinh doanh vµ
phôc vô chiÕn lîc kinh doanh cña doanh nghiÖp.
Vai trß chiÕn lîc cña CNTT ®èi víi doanh nghiÖp cµng trë nªn ®Æc biÖt
quan träng trong giai ®o¹n suy tho¸i kinh tÕ. Dù b¸o vÒ th«ng minh kinh doanh
n¨m 2009 cña Gartner ®· minh chøng cho nhËn ®Þnh nµy17. Nãi riªng, cïng víi
dù b¸o h¬n 35% trong sè 5.000 doanh nghiÖp toµn cÇu hµng ®Çu sÏ thÊt b¹i
trong viÖc ra quyÕt ®Þnh s©u s¾c vÒ sù thay ®æi ®¸ng kÓ trong kinh doanh vµ thÞ
trêng do suy tho¸i kinh tÕ, Bill Hostmann (Phã chñ tÞch nghiªn cøu vµ ph©n
tÝch cña Gartner) khuyÕn nghÞ "Nhµ l·nh ®¹o CNTT trong c¸c doanh nghiÖp cã
nÒn v¨n hãa qu¶n lý m¹nh dùa trªn th«ng tin nªn t¹o mét lùc lîng ®Æc nhiÖm
®Ó ®¸p øng sù thay ®æi nhu cÇu th«ng tin vµ ph©n tÝch ®iÒu hµnh. Nhµ l·nh ®¹o
CNTT trong c¸c doanh nghiÖp cha cã v¨n hãa nh vËy nªn so¹n th¶o c¸c v¨n
b¶n vÒ chi phÝ vµ ph¬ng híng ®Ó thÝch nghi víi ®iÒu kiÖn míi vµ ®Ò xuÊt mét
trêng hîp kinh doanh cho ®Çu t h¹ tÇng th«ng tin, quy tr×nh vµ c«ng cô hç trî
ra quyÕt ®Þnh".
Nh÷ng néi dung ®îc tr×nh bµy vÒ tri thøc vµ C«ng nghÖ tri thøc (Knowledge Technology) ë môc 2.2 tiÕp theo sÏ lµm s¸ng tá thªm vai trß chiÕn lîc cña CNTT trong nÒn kinh tÕ vµ cho doanh nghiÖp.
2.1.2. Vai trß cña gi¸m ®èc th«ng tin trong doanh nghiÖp vµ tæ chøc
Cïng víi sù h×nh thµnh vµ ph¸t triÓn cña ngµnh c«ng nghiÖp d÷ liÖu, cïng
víi sù ph¸t triÓn kinh tÕ tri thøc, tµi nguyªn tri thøc nãi chung vµ gãi kü n¨ng
cÇn thiÕt nãi riªng cña mét tæ chøc cÇn ®îc thay ®æi mét c¸ch kÞp thêi ®Ó c¹nh
tranh trong thêi ®¹i th«ng tin. Sù thµnh c«ng cña mét tæ chøc phô thuéc m¹nh
vµo nhËn thøc mét c¸ch hÖ thèng vÒ m«i trêng xung quanh vµ néi bé cña tæ
chøc còng nh c¸c chÝnh s¸ch vµ chiÕn lîc cña tæ chøc ®îc th«ng qua mµ hÖ
thèng th«ng tin tæ chøc cã vai trß rÊt quan träng.
Gi¸m ®èc bé phËn th«ng tin (CIO) trong mét tæ chøc cã tr¸ch nhiÖm qu¶n
lý toµn bé th«ng tin vµ c«ng cô hç trî viÖc qu¶n lý th«ng tin, lµ ®iÓm trung gian
gi÷a c¸c môc tiªu kinh doanh hµng ®Çu cña tæ chøc víi chøc n¨ng ®¶m b¶o
th«ng tin trong suèt. Theo nghiÖp vô, CIO cÇn ®Þnh danh vµ tæng hîp th«ng tin
cña tæ chøc vµ cho phÐp c¸c nhµ qu¶n lý cao cÊp truy cËp chóng. Ngoµi ra, CIO
17 http://www.gartner.com/it/page.jsp?id=856714
71 72
cÇn x¸c ®Þnh c¸c th«ng tin ®îc sö dông, thiÕt lËp chÝnh s¸ch th«ng tin vµ tiªu
chuÈn, duy tr× kiÓm so¸t qu¶n lý trªn tÊt c¶ c¸c tµi nguyªn th«ng tin trong bÊt kú
ph¬ng tiÖn truyÒn th«ng.
Ngµy nay, CIO ®ãng vai trß trung t©m vµ cùc kú quan träng ho¹t ®éng
qu¶n lý hÖ thèng th«ng tin ®¶m b¶o sù g¾n kÕt CNTT vµo chiÕn lîc ph¸t triÓn
tæ chøc, v× vËy vai trß tham gia ®iÒu hµnh cña CIO trong doanh nghiÖp ngµy
cµng næi bËt. NhiÒu c«ng tr×nh nghiªn cøu vÒ vai trß vµ ®Æc trng cña CIO ®·
®îc c«ng bè. Nh÷ng néi dung ®îc tr×nh bµy díi ®©y ®îc tæng hîp tõ c¸c tµi
liÖu kh¶o s¸t quan träng vÒ néi dung nµy [Haw04, Hunter10, Line07, PCVM10].
ý kiÕn trao ®æi cña CIO cña 16 doanh nghiÖp hµng ®Çu thÕ giíi18 ®îc E.
Yourdon [Your11] biªn tËp lµ nh÷ng néi dung tham kh¶o tèt vÒ vai trß vµ ®Æc
trng cña CIO hiÖn nay.
2.1.2.1. Vai trß cña CIO
CIO cã vai trß cña mét thµnh viªn cña ®éi qu¶n lý cao cÊp (Top
Management Team: TMT) cña tæ chøc. CIO ph©n biÖt víi c¸c thµnh viªn kh¸c
cña ®éi qu¶n lý cao cÊp do ®Æc thï cña chøc n¨ng qu¶n lý hÖ thèng th«ng
tin.Mèi quan hÖ chÆt chÏ gi÷a CEO vµ CIO trong doanh nghiÖp gãp phÇn n©ng
cao hiÖu suÊt c¶i tiÕn quy tr×nh kinh doanh (Business Process Improvement: BPI)
vµ n¨ng lùc c¬ së h¹ tÇng CNTT. CIO ph¶i lµ ngêi tham gia vµo qu¸ tr×nh lËp
kÕ ho¹ch chiÕn lîc tæng thÓ cho doanh nghiÖp. Trong mét sè trêng hîp, CIO
cã thÓ kh«ng lµ thµnh viªn cña ®éi qu¶n lý cao cÊp, th× lóc ®ã, CIO nªn b¸o c¸o
tíi mét thµnh viªn ®éi qu¶n lý cao cÊp kh«ng lµ CEO (ch¼ng h¹n, gi¸m ®èc tµi
chÝnh - The chief Financial Officer: CFO).
CIO lµ ngêi qu¶n lý hÖ thèng c«ng nghÖ vµ tµi nguyªn th«ng tin, chÞu
tr¸ch nhiÖm c¸ nh©n vÒ lËp kÕ ho¹ch CNTT, vÒ ph¸t triÓn c¸c hÖ thèng CNTT
míi, vÒ x©y dùng chÝnh s¸ch CNTT.
18 Benjamin Fried, Tony Scott, Monte Ford, Mittu Sridhara, Steve Rubinow, Lewis Temares,
Mark Mooney, Dan Wakeman, Lynne Ellyn, Becky Blalock, Ken Bohlen, Roger Gurnani,
Ashish Gupta, Joan Miller, Vivek Kundra, Paul Strassmann
2.1.2.2. Kü n¨ng chÝnh cña CIO
§Ó ®¸p øng vai trß quan träng trong tæ chøc, CIO cÇn cã n¨ng lùc cña mét
chuyªn gia cã nhËn thøc vµ th¸u hiÓu c«ng nghÖ vµ qu¸ tr×nh kinh doanh, chiÕn
lîc hµnh ®éng cña tæ chøc vµ ®¸p øng ®îc nh÷ng thay ®æi vµ nhu cÇu thÞ
trêng, cã kh¶ n¨ng t¬ng t¸c vµ giao tiÕp hiÖu qu¶ víi ngêi qu¶n lý cao cÊp,
®éi qu¶n lý cao cÊp, còng nh m«i trêng tæ chøc, vµ ®¶m b¶o r»ng tæ chøc ®i
theo sù s¸ng t¹o trong m«i trêng doanh nghiÖp. C¸c kü n¨ng chÝnh díi ®©y lµ
thÓ hiÖn cô thÓ hãa n¨ng lùc chung nãi trªn cña CIO:
- N¨ng lùc t duy vµ hµnh ®éng chiÕn lîc: T duy vµ hµnh ®éng chiÕn
lîc lµ kü n¨ng quan träng ®èi víi mét CIO, bëi v× chØ víi t duy vµ hµnh ®éng
chiÕn lîc, CIO míi gióp tæ chøc ®¸p øng víi nh÷ng thay ®æi trªn thÞ trêng.
Thªm n÷a, t duy vµ hµnh ®éng chiÕn lîc míi gióp CIO cã ¶nh hëng vît ra
ngoµi bé phËn CNTT.
- N¨ng lùc hµnh ®éng nhanh chãng: ChØ cã kh¶ n¨ng hµnh ®éng nhanh
chãng, CIO míi cã thÓ hoµn thµnh dù ¸n ®óng kÕ ho¹ch. NÕu dù ¸n kh«ng hoµn
thµnh theo ®óng tiÕn ®é kÕ ho¹ch vµ nguån lùc sÏ lµm suy yÕu ®é tin cËy cña c¸c
chøc n¨ng IS trong c¸c tæ chøc.
- N¨ng lùc hßa gi¶i xung ®ét: CIO cã tr¸ch nhiÖm gi¶i quyÕt c¸c t×nh
huèng xung ®ét trong bé phËn th«ng tin dùa trªn n¨ng lùc nÒn t¶ng vÒ mèi quan
hÖ con ngêi vµ c¸c ý niÖm vÒ biÕn ®æi t©m lý vµ x· héi häc.
- N¨ng lùc l·nh ®¹o vµ ®éng viªn ®éi lµm viÖc: CIO ph¶i cã n¨ng lùc t¹o
nªn ®éng lùc vµ dÉn d¾t bé phËn ¸p dông kü thuËt vµ kü n¨ng ®Ó gi¶i quyÕt c¸c
vÊn ®Ò vµ hoµn thµnh dù ¸n trong thêi h¹n cho phÐp.
- N¨ng lùc qu¶n lý dù ¸n: CIO ph¶i cã n¨ng lùc qu¶n lý dù ¸n trong bèi
c¶nh tæ chøc, bao gåm c¸c qu¸ tr×nh liªn quan ®Õn khëi ®éng, lËp kÕ ho¹ch, thùc
hiÖn, gi¸m s¸tt, vµ hoµn thiÖn dù ¸n, còng nh qu¶n lý tÝch hîp, ph¹m vi, thêi
gian, chi phÝ, gi¸m s¸t, chÊt lîng vµ rñi ro ®èi víi dù ¸n.
- N¨ng lùc giao tiÕp: Giao tiÕp lµ mét n¨ng lùc quan träng ®Ó lµm viÖc hiÖu
qu¶ víi c¸c ®èi t¸c kinh doanh trong viÖc t×m hiÓu vµ n¾m b¾t c¸c nhu cÇu kinh
doanh kh¸c nhau.
73 74
- N¨ng ®æi míi c«ng nghÖ: CIO ph¶i thùc hiÖn nghiªn cøu vµ ®¸nh gi¸ c¸c
c«ng nghÖ míi næi, xem xÐt lµm phï hîp tiÒm n¨ng cña c¸c c«ng nghÖ nµy víi
yªu cÇu tæ chøc vµ t¹o c¸c c¬ héi kinh doanh míi.
- Kh¶ n¨ng quan hÖ c¸ nh©n: Cã kü n¨ng vµ sù s¸ng suèt lµm viÖc víi ®ång
nghiÖp dùa trªn viÖc thÊu hiÓu ®îc hµnh vi vµ ®éng lùc cña ®ång nghiÖp vµ tiÕn
hµnh sù l·nh ®¹o hiÖu qu¶.
- Kh¶ n¨ng t¹o vµ c¬ cÊu ®éi lµm viÖc: CIO cã tr¸ch nhiÖm tuyÓn dông vµ
duy tr× ®éi trong bé phËn th«ng tin. CIO cã n¨ng lùc x¸c ®Þnh ®óng c¸c vai trß
cña ®éi lµm viÖc vµ ¸nh x¹ tõng vai trß tíi c¸c thµnh viªn trong ®éi. N¨ng lùc
ph©n tÝch quy tr×nh lµm viÖc cña CIO thóc ®Èy ho¹t ®éng cña ®éi.
- Kü n¨ng ®µm ph¸n: Kh¶ n¨ng ®µm ph¸n lµ rÊt quan träng ®Ó mét CIO
[31], ®Ó cã thÓ ®Ó lµm cho th¬ng m¹i-off mµ kh«ng ¶nh hëng mèi quan hÖ
hiÖn cã.
- Kh¶ n¨ng thÝch øng víi thay ®æi: Kh¶ n¨ng thÝch øng víi thay ®æi cho
phÐp mét l·nh ®¹o tèt h¬n cña c¸c qu¸ tr×nh
- Cã tri thøc kinh doanh: CIO ph¶i cã mét tri thøc võa réng võµ chuyªn s©u
vÒ c¸c ph¬ng diÖn kü thuËt vµ kinh doanh ®Ó cã thÓ phèi hîp hiÖu qu¶ trong
qu¸ tr×nh c¹nh tranh. §Ó ph¸t triÓn mét chiÕn lîc nhÊt qu¸n víi c¸c gi¸ trÞ vµ
v¨n hãa tæ chøc, th× cÇn thiÕt ph¶i hiÓu m«i trêng tæ chøc th«ng qua sù hiÓu
biÕt vÒ c¬ cÊu tæ chøc, nguån nh©n lùc vµ kü n¨ng cña hä, c¸c mèi quan hÖ hiÖn
cã (chÝnh thøc hoÆc kh«ng chÝnh thøc), phong c¸ch qu¶n lý , c¸c mèi quan hÖ
bªn ngoµi v.v..
- Tr×nh ®é kü thuËt: Tuy vai trß híng tíi kinh doanh ngµy cµng t¨ng
nhng CIO vÉn cÇn thùc hiÖn tr¸ch nhiÖm qu¶n lý ho¹t ®éng c«ng nghÖ mét
c¸ch hiÖu qu¶. Th¸ch thøc ®èi víi CIO lµ cÇn gi÷ mét møc ®é thÝch hîp kü n¨ng
kü thuËt mµ kh«ng x¶y ra nguy c¬ cho ®Þnh híng kinh doanh cña tæ chøc.
- N¨ng lùc ra quyÕt ®Þnh: Ra quyÕt ®Þnh lµ mét trong nh÷ng kü n¨ng chÝnh
hoÆc vai trß chÝnh cña c¸c nhµ qu¶n lý cña tæ chøc. Khi ®îc c«ng nhËn ë trung
t©m cña qu¸ tr×nh ra quyÕt ®Þnh, CIO tham gia chØ ®¹o tæ chøc tíi nh÷ng c¬ héi
míi ®Ó t¨ng kh¶ n¨ng c¹nh tranh.
2.2. C«ng nghÖ tri thøc
T»ng cêng tri thøc cho c¸ nh©n, doanh nghiÖp vµ x· héi lµ mét yªu cÇu
cña mäi quèc gia trong xu thÕ ph¸t triÓn kinh tÕ tri thøc hiÖn nay. S¬ ®å díi ®©y
thÓ hiÖn m« h×nh dÞch vô, yÕu tè kinh tÕ c¬ b¶n [Spoh06]:
S¬ ®å qu¸ tr×nh dÞch vô nh tr×nh bµy trªn ®©y cho thÊy mèi quan hÖ cña ba
thµnh phÇn lµ khoa häc, c«ng nghÖ vµ qu¶n lý. Khoa häc thi hµnh bíc chuyÓn
hãa th«ng tin vµ d÷ liÖu thµnh tri thøc; c«ng nghÖ thi hµnh bíc chuyÓn hãa tri
thøc thµnh gi¸ trÞ; toµn bé qu¸ tr×nh hai bíc nãi trªn cÇn ®îc qu¶n lý tèt.
C«ng nghÖ tri thøc lµ thµnh phÇn tÝch cùc cña CNTT tham gia vµo c¶ giai
®o¹n chuyÓn hãa d÷ liÖu – th«ng tin thµnh tri thøc vµ c¶ giai ®o¹n chuyÓn hãa
tri thøc thµnh gi¸ trÞ. Môc nµy ®Ò cËp tíi hai kh¸i niÖm tri thøc vµ c«ng nghÖ tri
thøc cïng mét sè néi dung liªn quan.
2.2.1. Kh¸i niÖm tri thøc
Ch¬ng 1 cung cÊp mét c¸ch hiÓu vÒ kh¸i niÖm tri thøc khi ®Æt kh¸i niÖm
nµy trong bèi c¶nh cña ph¸t hiÖn tri thøc trong d÷ liÖu “lµ nh÷ng mÉu míi, cã
gi¸ trÞ, h÷u dông, tiÒm Èn trong d÷ liÖu”. Theo C. Grube [Grube09], cã hai dßng
nghiªn cøu tiÕp cËn tíi tri thøc, ®ã lµ, (1) tiÕp cËn theo khung nh×n triÕt häc vµ
t©m lý häc dùa trªn nhËn thøc luËn, vµ (2) tiÕp cËn kinh tÕ häc theo khung nh×n
dùa trªn tri thøc cña doanh nghiÖp. Khung nh×n triÕt häc vµ t©m lý häc ®îc thÓ
hiÖn ë hÇu hÕt néi dung trong khi khung nh×n kinh tÕ häc ®îc thÓ hiÖn t¹i môc
tri thøc cña doanh nghiÖp.
B¶ng 2.1. Quan hÖ mét sè cÆp tri thøc
Tri thøc Tri thøc Tri thøc Tri thøc
75 76
hiªn Èn hiÖn Èn
Tri
thøc
biÕt
lý thuyÕt,
kh¸i niÖm…
nhËn thøc,
ph¸n ®o¸n..
Tri
thøc
kh¸ch quan
sù kiªn,
quan tr¾c
thùc..
trùc gi¸c vÒ
c¸c sù kiÖn..
Tri
thø lµm
ph¬ng
ph¸p, thñ
tôc..
tµi n¨ng, kü
n¨ng…
Tri
thøc chñ
quan
quan ®iÓm,
niÒm tin
râ…
gi¶ thiÕt Èn,
thÕ giíi quan
Èn…
Theo nghÜa chung nhÊt (tõ ®iÓn Compact Oxford English Dictionary) th× tri
thøc lµ “sù hiÓu biÕt tinh th«ng vµ c¸c kü n¨ng mµ con ngêi thu nhËn ®îc theo
kinh nghiÖm vµ qua gi¸o dôc”, “tæng hîp nh÷ng g× mµ con ngêi biÕt râ”, “nhËn
thøc vµ hiÓu biÕt têng minh vÒ mét sù viÖc hay mét hiÖn tîng mµ thu nhËn
®îc nhê kinh nghiÖm”. Trong ph¹m vi x¸c ®Þnh vai trß cña tri thøc ®èi víi c¸
nh©n, tæ chøc vµ x· héi, gi¸o tr×nh nµy sö dông néi dung trªn ®©y cho kh¸i niÖm
tri thøc.
Tri thøc ®îc ph©n lo¹i, thêng ®îc chia thµnh cÆp tri thøc, ®iÓn h×nh nhÊt
lµ c¸c cÆp tri thøc hiÖn – tri thøc Èn (Explicit knowledge – Tacit knowledge),
tri thøc chñ quan – tri thøc kh¸ch quan (Objective knowledge – Subjective
knowledge), tri thøc biÕt – tri thøc lµm (Knowing that – Knowing how), trong
®ã hai cÆp tri thøc ®Çu tiªn cã tÝnh ®èi ngÉu. B¶ng 2.1 cung cÊp mèi quan hÖ
gi÷a cÆp tri thøc hiÖn – tri thøc Èn víi hai cÆp tri thøc cßn l¹i. Tõ néi dung b¶ng
2.1 cã thÓ thÊy, tri thøc hiÖn lµ tri thøc mµ m« t¶ ®îc b»ng v¨n b¶n. Ch¼ng h¹n,
c¸c lý thuyÕt, kh¸i niÖm, ph¬ng ph¸p, thñ tôc, sù kiÖn thùc, quan tr¾c thùc,
quan ®iÓm têng minh, niÒm tin têng minh... lµ c¸c d¹ng tri thøc hiÖn. §èi
ngÉu l¹i, tri thøc Èn lµ tri thøc mµ kh«ng thÓ m« t¶ ®îc b»ng v¨n b¶n. Ch¼ng
h¹n, nhËn thøc, ph¸n ®o¸n, tµi n¨ng, kü n¨ng, trùc gi¸c, ngÇm ®Þnh... cña c¸c c¸
nh©n lµ c¸c d¹ng tri thøc Èn.
Trong qu¸ tr×nh vËn ®éng, tri thøc ®îc chuyÓn hãa tõ d¹ng nµy sang d¹ng
nµy, trong ®ã cã sù chuyÓn hãa tõ tri thøc Èn sang thi thøc hiÖn. Sù h×nh thµnh vµ
ph¸t triÓn c¸c ngµnh khoa häc lµ thÓ hiÖn cho qu¸ tr×nh chyÓn hãa nµy. Ch¼ng
h¹n, sù h×nh thµnh lÜnh vùc c«ng nghÖ phÇn mÒm ®îc xuÊt ph¸t tõ mét sè c¶m
nhËn ban ®Çu vÒ tÝnh ®óng ®¾n cña ch¬ng tr×nh sau "cuéc khñng ho¶ng vÒ lËp
tr×nh" trong thËp niªn 1960.
Tån t¹i mét d¹ng tri thøc ®Æc biÖt "tri thøc vÒ tri thøc" vµ ®îc gäi lµ siªu
tri thøc (meta-knowledge). Siªu tri thøc ®îc chia thµnh 4 d¹ng vµ ®îc ký hiÖu
lµ YKYK (You Know that You Known), DKYN (Do not Know that You Know),
YKDK (You Know that you Do not Know), vµ DKDK (Do not Know that You
don't Know) [WB98]. Mét sè vÝ dô vÒ siªu tri thøc YKYK lµ (1) Ta biÕt vÒ ®iÒu
ta biÕt (qua quan s¸t trùc tiÕp cña chÝnh ta) lµ « t« kh«ng thÓ ch¹y nÕu thiÕu
nhiªn liÖu; (2) Ta biÕt vÒ ®iÒu ta biÕt lµ níc s«i ë 100oC; (3) Ta biÕt vÒ ®iÒu ta
biÐt lµ nÕu ta cho xe m¸y ch¹y vît ®Ìn ®á mµ c«ng an nh×n thÊy th× ta sÏ bÞ
ph¹t... Mét sè vÝ dô vÒ siªu tri thøc YKDK lµ (1) Ta biÕt vÒ mét ®iÒu ta kh«ng
biÕt (ta kh«ng trùc tiÕp quan s¸t ®îc) lµ trung b×nh ma t¹i vïng cao réng lín
cña Amazon lµ h¬n 78 inchs hµng n¨m; (2) Ta biÕt vÒ mét ®iÒu mµ ta kh«ng biÕt
vÒ gãc quay cña Tr¸i ®Êt theo quü ®¹o cña nã xung quanh mÆt trêi theo mét gãc
23.5 ®é...
H×nh 2.4. Nguån tri thøc cña c¸ nh©n [Grube09]
77 78
LÜnh vùc khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu cã môc tiªu
chuyÓn ®æi tri thøc hiÖn tõ d¹ng d÷ liÖu quan s¸t ®îc thµnh c¸c tri thøc hiÖn
díi d¹ng c¸c mÉu trong mét ng«n ng÷ biÓu diÔn, cã nghÜa lµ chuyÓn ®èi siªu tri
thøc d¹ng DKYK (tri thøc tiÒm Èn trong d÷ liÖu) thµnh siªu tri thøc d¹ng YKYK
[BNGC00].
2.2.2. Nguån tri thøc cho c¸ nh©n vµ tæ chøc
2.2.2.1. Nguån tri thøc cho c¸ nh©n
Theo C. Grube [Grube09], tri thøc cña c¸ nh©n cã ®îc tõ häc tËp vµ tõ
kinh nghiÖm. H×nh 2.4 tr×nh bµy ph¬ng ¸n t¨ng cêng tri thøc cña c¸ nh©n
th«ng qua tù häc (qua ®óc rót kinh nghiÖm) vµ häc tõ ngêi kh¸c. Kinh nghiÖm
mµ c¸ nh©n ®óc rót ®îc gåm cã kinh nghiÖm chuyÓn giao ®îc vµ kinh nghiÖm
kh«ng chuyÓn giao ®îc cho ngêi kh¸c. Tri thøc cã ®îc do häc hái ngêi
kh¸c theo hai kiÓu lµ th«ng qua kinh nghiÖm chuyÓn giao ®îc cña ngêi kh¸c
hoÆc tõ c¸c nghiªn cøu ®· ®îc viÕt ra thµnh lêi (®îc v¨n b¶n hãa).
H×nh 2.5. Quy tr×nh xo¾n èc tri thøc SECI [Hiro06]
Takeuchi Hirotaka [Hiro06] m« t¶ qu¸ tr×nh ph¸t triÓn tri thøc theo mét
quy tr×nh chuyÓn hãa tri thøc d¹ng xo¾n èc SECI (H×nh 2.5) ®îc ph¸t triÓn tõ
ma tr©n chuyÓn hãa tri thøc SECI (Socialization – X· héi hãa, Externalization
– Ngo¹i hiÖn, Combination - KÕt hîp, Internalization - TiÕp thu) ®îc Ikujiro
Nokata vµ Takeuchi Hirotaka giíi thiÖu vµo n¨m 1995. Trong quy tr×nh nµy,
Socialization chuyÓn tri thøc Èn sang tri thøc Èn th«ng qua ho¹t ®éng chia sÎ vµ
®óc rót kinh nghiÖm b¶n th©n. Externalization kÕt nèi tri thøc Èn thµnh tri thøc
hiÖn th«ng qua ho¹t ®éng ®èi tho¹i vµ ph¶n ¸nh. Combination thùc hiÖn viÖc hÖ
thèng hãa, ¸p dông tri thøc vµ th«ng tin ®Ó cã tri thøc hiÖn míi tõ tri thøc hiÖn
®· cã. ¸p dông tri thøc hiÖn ®· cã vµo thùc tiÔn, Internalization lµ qu¸ tr×nh tiÕp
thu tri thøc Èn míi trong ho¹t ®éng thùc tiÔn.
2.2.2.2. Nguån tri thøc cña tæ chøc, doanh nghiÖp
Nh ®· ®îc giíi thiÖu, tiÕp cËn kinh tÕ häc dùa trªn khung nh×n tri thøc
cña doanh nghiÖp lµ mét trong hai dßng nghiªn cøu chÝnh vÒ tri thøc. Tríc hÕt,
doanh nghiÖp tån t¹i díi d¹ng vµ dùa trªn mét gãi tµi nguyªn tri thøc chuyªn
ngµnh, hay nãi kh¸c ®i, doanh nghiÖp tån t¹i ®Ó t¹o, chuyÓn giao, ¸p dông, vµ
b¶o vÖ tµi nguyªn tri thøc cña nã.
H×nh 2.6. Qu¸ tr×nh tiÕn hãa tri thøc trong doanh nghiÖp [BS02]
Qu¸ tr×nh tiÕn hãa tri thøc trong doanh nghiÖp theo thêi gian diÔn ra qua
bèn giai ®o¹n ph¸t triÓn lµ s¸ng t¹o, huy ®éng, phæ biÕn vµ hµng hãa (H×nh 2.6).
Khi tri thøc doanh nghiÖp ®· trë nªn truy cËp ®îc ®èi víi cµng nhiÒu ngêi h¬n
- ®Çu tiªn trong mét tæ chøc, sau ®ã trong nhiÒu tæ chøc, vµ cuèi cïng cho ®¹i
79 80
chóng - c¸c doanh nghiÖp ph¶i sö dông c¸c chiÕn lîc kh¸c nhau ®Ó thu nhËn
®îc gi¸ trÞ lín nhÊt cña tri thøc.
B¶ng 2.2 ®a ra mét khung nh×n vÒ m« h×nh SECI theo ®Þnh nghÜa, ph¬ng
ph¸p vµ néi dung cña mçi c¬ chÕ chuyÓn ®æi tri thøc. Mét sè vÝ dô trong b¶ng cã
liªn quan tíi chuyÓn ®æi tri thøc c¸ nh©n t¹i doanh nghiÖp.
B¶ng 2.2. ChuyÓn ®æi tri thøc c¸ nh©n trong doanh nghiÖp
C¸c nghiªn cøu theo khung nh×n kinh tÕ vÒ tri thøc doanh nghiÖp cho thÊy (1)
Tri thøc doanh nghiÖp lµ nÒn t¶ng cña sù tån t¹i doanh nghiÖp (ra ®êi, ph¸t triÓn
vµ bÞ diÖt vong) trong nÒn kinh tÕ, ®Æc biÖt lµ trong nÒn kinh thÞ trêng tù do; (2)
Tri thøc doanh nghiÖp lµ nguyªn nh©n cña sù ®a d¹ng doanh nghiÖp ho¹t ®éng
trong cïng mét ngµnh s¶n xuÊt, kinh doanh.
Tri thøc doanh nghiÖp kh«ng ph¶i ®¬n thuÇn lµ sù hîp c¬ häc tõ tri thøc cña tËp
c¸ nh©n thuéc doanh nghiÖp mµ doanh nghiÖp còng lµ mét thùc thÓ tri thøc.
Theo ph¹m vi doanh nghiÖp, C. Grube [Grube09] giíi thiÖu mét sè luËn ®iÓm
sau ®©y theo híng tiÕp cËn kinh tÕ vÒ tri thøc doanh nghiÖp:
- Doanh nghiÖp lµ mét thùc thÓ tÝch hîp tri thøc: M«i trêng v¨n hãa doanh
nghiÖp vµ tÝnh chÊt chuyªn m«n tr×nh ®é cao liªn quan tíi ngµnh nghÒ cña doanh
nghiÖp t¹o nªn mét céng ®ång ®¬n nhÊt doanh nghiÖp thùc hiÖn thu nhËn vµ
chuyÓn giao tri thøc híng tíi môc tiªu tèt nhÊt hoÆc hiÖu qu¶ nhÊt cho doanh
nghiÖp.
- Doanh nghiÖp lµ mét thùc thÓ s¸ng t¹o tri thøc: Tri thøc doanh nghiÖp
kh«ng chØ ®¬n thuÇn lµ kÕt qu¶ hîp tri thøc ph©n t¸n cña tËp c¸ nh©n mµ doanh
nghiÖp cßn t¹o ra tri thøc th«ng qua viÖc cung cÊp cho c¸c thµnh viªn mét ý thøc
céng ®ång, mét b¶n s¾c v¨n hãa vµ mét m« h×nh cña tinh thÇn san sÎ. Mét tËp
hîp m¹ng quan hÖ trong doanh nghiÖp t¹o ®iÒu kiÖn thuËn lîi cho trao ®æi vµ
ph¸t triÓn tri thøc doanh nghiÖp. Vµo n¨m 2000, Gi¸m ®èc ®iÒu hµnh tËp ®oµn
HP Lew Platt lóc ®ã nhËn ®Þnh "NÕu HP biÕt ®îc nh÷ng ®iÒu HP biÕt th× lîi
nhuËn cña chóng t«i sÏ gÊp ba lÇn"19 cho thÊy t¸c dông kinh tÕ cña viÖc t¹o ®îc
mét m«i trêng tèt cho trao ®æi vµ ph¸t triÓn tri thøc doanh nghiÖp.
- Doanh nghiÖp lµ thùc thÓ b¶o vÖ tri thøc. Mét mÆt, doanh nghiÖp t¹o ®iÒu
kiÖn thuËn lîi cho trao ®æi vµ ph¸t triÓn tri thøc néi bé, mÆt kh¸c, doanh nghiÖp
cÇn cã c¬ chÕ b¶o vÖ tri thøc doanh nghiÖp. Doanh nghiÖp cÇn thùc hiÖn c¸c biÖn
ph¸p ®iÒu khiÓn qu¸ tr×nh tiÕn hãa tri thøc doanh nghiÖp (H×nh 2.5) ®Ó tri thøc
doanh nghiÖp mang ®îc lîi Ých nhiÒu nhÊt cho doanh nghiÖp.
Mét sè c¬ chÕ phèi hîp sau ®©y cã thÓ ®îc thùc hiÖn trong thùc thÓ tri
thøc doanh nghiÖp:
- C¸c quy t¾c t¬ng t¸c gi÷a c¸c c¸ nh©n trong doanh nghiÖp t¹o ®iÒu
kiÖn thuËn lîi cho chuyÓn hãa tri thøc Èn thµnh tri thøc hiÖn,
- ChuÈn hãa ho¹t ®éng møc doanh nghiÖp nh qu¸ tr×nh tiÕn hµnh c¸c
bíc tham gia cña c¸c chuyªn gia vµo s¶n phÈm. Nªn vµ chØ nªn sö dông c¸c
quy tr×nh chuÈn ®èi víi c¸c vÊn ®Ò qu¸ phøc t¹p hoÆc quan träng vµ bÊt thêng,
- C¸c thãi quen ®îc h×nh thµnh trong doanh nghiÖp ®Ó hç trî sù t¬ng
t¸c linh ho¹t trong doanh nghiÖp, mét bé phËn quan träng trong v¨n hãa doanh
nghiÖp. H×nh thµnh ®îc c¸c thãi quen nh vËy ®ßi hái rÊt nhiÒu thêi gian vµ
c«ng søc. V¨n hãa doanh nghiÖp lµ mét tµi nguyªn quan träng trong ho¹t ®éng
19 Nguyªn v¨n, “If HP knew what HP knows, we would be three times profitable”.
81 82
t¹o n¨ng lùc c¹nh tranh, cã ý nghÜa ngµy cµng quan träng trong xu thÓ toµn cÇu
hãa ngµy nay [RB10].
2.2.3. C«ng nghÖ tri thøc
2.2.3.1. Mét sè kh¸i niÖm liªn quan
C«ng nghÖ nghÖ tri thøc theo ®Þnh nghÜa truyÒn thèng lµ lÜnh vùc liªn quan
tíi qu¸ tr×nh thu nhËn tri thøc vµ gi¶i thÝch dùa trªn tri thøc thu nhËn ®îc. C¸c
bíc trong qu¸ tr×nh c«ng nghÖ tri thøc lµ thu nhËn tri thøc, biÓu diÔn tri thøc,
x©y dùng mét c¬ chÕ suy luËn, vµ thiÕt kÕ c¸c c«ng cô gi¶i thÝch.
Thu nhËn tri thøc lµ viÖc khai th¸c tri thøc tõ c¸c nguån díi d¹ng “v¨n
b¶n ®îc” (híng dÉn, phim ¶nh, s¸ch, c¬ së d÷ liÖu, tËp tin v¨n b¶n, h×nh ¶nh,
b¨ng h×nh, ®Çu ra c¶m biÕn..) vµ díi d¹ng “kh«ng v¨n b¶n ®îc” (t©m trÝ con
ngêi, t©m tri chuyªn gia) vµ chuyÓn nh tri thøc thu nhËn ®îc vµo m¸y tÝnh.
Thu nhËn tri thøc lµ mét c«ng viÖc khã kh¨n do mét sè nguyªn nh©n nh sù
kh«ng phï hîp cña biÓu diÔn tri thøc tõ c¸c nguån phøc (nh liÖt kª ë trªn), ®ßi
hái sè lîng kh«ng nhá lùc lîng ngêi thu thËp tri thøc, chuyÓn giao kÕt qu¶
®Çu ra cña thu nhËn tri thøc cho m¸y tÝnh, khã kh¨n cña chuyªn gia khi m« t¶ tri
thøc cña hä. Cã thÓ tiÕn hµnh mét sè kü thuËt tù ®éng thu thËp tri thøc, ch¼ng
h¹n nh phÐp quy n¹p, lËp luËn dùa trªn trêng hîp, tÝnh to¸n n¬ ron.
BiÓu diÔn tri thøc liªn quan ®Õn viÖc tæ chøc tri thøc trong c¸c c¬ së tri
thøc; tri thøc ®îc biÓu diÔn díi d¹ng tri thøc m« t¶ (c¸i ®ã lµ g×) vµ díi d¹ng
tri thøc thñ tôc (phæ biÕn lµ mèi quan hÖ IF-THEN). Tri thøc thñ tôc lµ phÇn tö
c¬ b¶n h×nh thµnh c¬ chÕ suy luËn, tri thøc m« t¶ ®îc sö dông cho gi¶i thÝch.
Quan s¸t l¹i s¬ ®å ho¹t ®éng cña mét hÖ thèng khai ph¸ d÷ liÖu ®îc tr×nh
bµy t¹i Ch¬ng 1, chóng ta nhËn thÊy r»ng hÖ thèng khai ph¸ d÷ liÖu bao gãi
mét qu¸ tr×nh c«ng nghÖ tri thøc. Nh vËy, khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc
tõ d÷ liÖu lµ mét ph¬ng ¸n cña c«ng nghÖ tri thøc, trong ®ã qu¸ tr×nh c«ng nghÖ
tri thøc (thu thËp tri thøc, biÓu diÔn tri thøc, suy luËn vµ gi¶i thÝch) ®îc thùc
hiÖn chñ yÕu dùa trªn c¸c kü thuËt tù ®éng.
Trong hÖ thèng khai ph¸ d÷ liÖu, ph¸t hiÖn tri thøc (mét h×nh thøc cña thu
thËp tri thøc) tõ d÷ liÖu ®îc coi lµ thµnh phÇn quan träng nhÊt. Nguån tri thøc
®Çu vµo cña hÖ thèng nµy lµ tri thøc díi d¹ng v¨n b¶n (d÷ liÖu ghi nhËn c¸c sù
kiÖn, c¸c m« t¶..). Tri thøc d¹ng kh«ng v¨n b¶n (t©m trÝ chuyªn gia) nÕu cã ®îc
sö dông th× ®îc thi hµnh trong mét sè kh©u, trong ®ã cã kh©u t¹o vÝ dô mÉu
(c¸c vÝ dô mÉu ã còng lµ tri thøc d¹ng v¨n b¶n). Trong c¸c m« h×nh khai ph¸ d÷
liÖu gÇn ®©y (ch¼ng h¹n nh trong [CYZ10]), viÖc thu nhËn tri thøc chuyªn gia
miÒn øng dông ®îc thi hµnh ë rÊt nhiÒu pha cña qu¸ tr×nh khai ph¸ d÷ liÖu.
Pha thi hµnh thuËt to¸n khai ph¸ d÷ liÖu lµ pha quan träng thùc hiÖn c¬ chÕ
duy diÔn tõ d÷ liÖu ®· cã nhËn ®îc tri thøc míi, tiÒm Èn, h÷u Ých, cã gi¸ trÞ.
C¬ së tri thøc cña hÖ thèng cña hÖ thèng khai ph¸ d÷ liÖu còng ®¶m nhËn
c¬ chÕ suy diÔn, ®ång thêi còng bao gåm c¸c c«ng cô gi¶i thÝch dùa trªn tri thøc
thuéc qu¸ tr×nh c«ng nghÖ tri thøc.
BiÓu diÔn tri thøc ®îc thi hµnh kh«ng chØ trong c¬ së tri thøc cña hÖ thèng
khai ph¸ d÷ liÖu mµ cßn ®îc thi hµnh trong giai ®o¹n trùc quan hãa biÓu diÔn
tri thøc cho ngêi sö dông.
2.2.3.2. Vßng ®êi cña tri thøc doanh nghiÖp
H×nh 2.7 tr×nh bµy vßng ®êi tri thøc doanh nghiÖp theo tr×nh bµy cña Mark
W. McElroy [Elroy02]. Trong h×nh 2.7, CKC (Codified knowledge claim) lµ
Yªu cÇu tri thøc hîp lÖ; COK (Codified organisational knowledge) lµ tri thøc tæ
chøc hîp lÖ; DOKB (Distributed organisational knowledge base): c¬ së tri thøc
tæ chøc ph©n bè; FKC (Falsified knowledge claim): yªu cÇu tri thøc gi¶ m¹o;
OK (Organisational knowledge): tri thøc tæ chøc; SKC (Surviving knowledge
claim): yªu cÇu tri thøc tån ®äng; UKC (Undecided knowledge claim): Yªu cÇu
tri thøc cha quyÕt ®Þnh. Trong h×nh vÏ, c¸c khèi b×nh hµnh (kh«ng lµ khèi ch÷
nhËt) chØ dÉn tËp tri thøc.
Theo H×nh 2.7, trong vßng ®êi cña m×nh, tri thøc doanh nghiÖp qua ba giai
®o¹n chÝnh.
83 84
S¸ng t¹o tri thøc (Knowledge Production) lµ giai ®o¹n ®Çu tiªn, trong ®ã do
kÕt qu¶ häc tËp cña c¸ nh©n vµ nhãm, do nhu cÇu th«ng tin vµ ph¶n håi cña vßng
®êi tri thøc tríc ®©y (bao gåm sù ph¸t hiÖn vÊn ®Ò míi), yªu cÇu tri thøc ®îc
t¹o ra s¬ bé. Sau ®ã yªu cÇu nµy ®îc ®¸nh gi¸, nÕu hîp lÖ ®îc chuyÓn sang
giai ®o¹n sau (TÝch hîp tri thøc), nÕu cha hîp lÖ ®îc quay l¹i viÖc häc bæ sung
cña c¸ nh©n vµ nhãm ®Ó cã ®îc yªu cÇu tri thøc hîp lÖ. Th«ng qua c¸c tËp tri
thøc doanh nghiÖp s½n cã (SKC, FKC, UKC vµ th«ng tin liªn quan), tri thøc
doanh nghiÖp ®îc t¹o ra.
TÝch hîp tri thøc (Knowledge Integration) lµ giai ®o¹n tiÕp theo, trong ®ã
tri thøc doanh nghiÖp ®îc phæ biÕn, ®îc t×m kiÕm, ®îc gi¶ng d¹y vµ ®îc
chia sÎ ®Ó t¹o thµnh tri thøc chñ quan vµ tri thøc kh¸ch quan ®îc tËp hîp vµo c¬
së tri thøc doanh nghiÖp ph©n bè ®Ó ®îc ®a vµo sö dông trong m«i trêng qu¸
tr×nh kinh doanh.
Trong m«i trêng qu¸ tr×nh kinh doanh (Business Processing
Environment), tri thøc doanh nghiÖp ®îc sö dông vµ t¹o ra gi¸ trÞ doanh nghiÖp.
Qu¸ tr×nh céng t¸c t¹o gi¸ trÞ cña doanh nghiÖp vµ kh¸ch hµng còng ®a ra c¸c
ph¶n håi tõ m«i trêng qu¸ tr×nh kinh doanh t¹o ra yªu cÇu tri thøc doanh nghiÖp
míi.
H×nh 2.7. Vßng ®êi tri thøc doanh nghiÖp [Elroy02]
Qu¸ tr×nh vßng ®êi tri thøc doanh nghiÖp kÕt hîp víi hÖ thèng khai ph¸ d÷
liÖu hîp thµnh mét hÖ thèng c«ng nghÖ tri thøc trän vÑn.
2.3. Bµi to¸n ph¸t hiÖn tri thøc tõ d÷ liÖu
2.3.1. Sù tiÕn hãa cña m« h×nh ph¸t hiÖn tri thøc
Ch¬ng 1 ®· giíi thiÖu mét m« h×nh KDD theo mét tiÕp cËn mang tÝnh
thuÇn tóy CNTT [FPS96] vµ ®©y ®îc coi lµ mét trong nh÷ng m« h×nh hoµn
chØnh ®Çu tiªn cho KDD. Nh ®· biÕt, môc tiªu c¬ b¶n nhÊt cña qu¸ tr×nh KDD
lµ ph¸t hiÖn ra c¸c tri thøc tiÒm Èn trong d÷ liÖu nh»m cung cÊp c¸c tri thøc cho
c¸c tæ chøc vµ c¸ nh©n trong viÖc ra quyÕt ®Þnh. Dï cho khai ph¸ dữ liệu khoa
häc, c«ng nghÖ, ®Æc biÖt lµ khai kh¸ d÷ liÖu trong y sinh häc ®ang ph¸t triÓn
m¹nh mÏ [HG09], song lÜnh vùc qu¶n lý vµ kinh doanh lu«n lµ miÒn øng dông
quan trong nhÊt cña khai ph¸ d÷ liÖu. V× vËy, sù tiÕn hãa cña m« h×nh ph¸t hiÖn
tri thøc tõ d÷ liÖu còng theo híng ngµy cµng g¾n víi qu¸ tr×nh qu¶n lý vµ kinh
doanh ®Ó tri thøc ®îc ph¸t hiÖn ra trë thµnh tµi nguyªn phôc vô qu¸ tr×nh kinh
doanh cña doanh nghiÖp (H×nh 2.7). Mét sè m« h×nh ®îc giíi thiÖu díi ®©y
cung cÊp mét sè nÐt ®iÓn h×nh nhÊt vÒ qu¸ tr×nh tiÕn hãa m« h×nh KDD.
Nh ®· giíi thiÖu, Usama Fayyad vµ céng sù ®· ®a ra mét m« h×nh ph¸t
hiÖn tri thøc tõ d÷ liÖu [FPS96]. Néi dung c¸c bíc thùc hiÖn trong qu¸ tr×nh nµy
®· ®îc tr×nh bµy t¹i Ch¬ng 1. Sau nµy, m« h×nh khai ph¸ d÷ liÖu do Usama
Fayyad vµ céng sù ®Ò xuÊt ®îc c¸c t¸c gi¶ kh¸c gäi lµ m« h×nh ph¸t hiÖn tri
thøc truyÒn thèng. M« h×nh khai ph¸ d÷ liÖu truyÒn thèng chanhÊn m¹nh ®Þnh
híng kinh doang cña ph¸t hiÖn tri thøc tõ d÷ liÖu dï r»ng khi ph©n tÝch bíc
®Æt bµi to¸n ph¸t hiÖn tri thøc trong m« h×nh cã ®Ò cËp tíi môc tiªu ph¸t hiÖn tri
thøc cã bao gåm yÕu tè kinh doanh.
85 86
.
H×nh 2.8. Mét m« h×nh ph¸t hiÖn tri thøc lÆp, 1998 [CCG98]
2.3.1.1. M« h×nh ph¸t hiÖn tri thøc lÆp
N¨m 1998, Collier K. vµ céng sù t¹i Trung t©m hiÓu d÷ liÖu (The Center
for Data Inshight: CDI) t¹i §¹i häc B¾c Arizona, Mý (Northern Arizona
University) [CCGMS98] ®Ò nghÞ thay ®æi m« h×nh ph¸t hiÖn tri thøc truyÒn
thèng thµnh m« h×nh ph¸t hiÖn tri thøc lÆp (H×nh 2.8). Trong m« h×nh truyÒn
thèng, Usama Fayyad vµ céng sù còng cho phÐp c¸c bíc cña qu¸ tr×nh ®îc
thùc hiÖn lÆp mét c¸ch tïy ý. M« h×nh lÆp chØ cho phÐp lÆp l¹i sau khi ®· hoµn
thµnh chu tr×nh thùc hiÖn tÊt c¶ c¸c bíc.
Collier K. vµ céng sù gi¶i thÝch chi tiÕt néi dung c¸c bíc thùc hiÖn trong
m« h×nh ph¸t hiÖn tri thøc lÆp nh sau:
- X¸c ®Þnh môc tiªu kinh doanh. B¾t ®Çu víi nhiÒu nhÊt ba môc tiªu kinh
doanh ®Ó nghiªn cøu cã tÝnh tËp trung,
- §Þnh danh d÷ liÖu doanh nghiÖp mµ chøa th«ng tin liªn quan tíi c¸c
môc tiªu kinh doanh ®· ®îc x¸c ®Þnh,
- Khëi t¹o tËp d÷ liÖu mÉu chøa mäi th«ng tin liªn quan,
- §Þnh danh c¸c chuyªn gia miÒn lÜnh vùc lµm viÖc víi nhãm thùc
nghiÖm trong hÖ thèng ph¸t hiÖn tri thøc,
- Khëi t¹o d÷ liÖu sao cho n¨ng lùc tÝnh to¸n lµm chñ ®îc d÷ liÖu ®îc
kh¶o s¸t vµ thÝch hîp víi c«ng cô ph¸t hiÖn tri thøc phï hîp môc tiªu kinh
doanh, - Chuyªn gia miÒn øng dông lµm viÖc víi chuyªn gia khai ph¸ d÷ liÖu x¸c
nhËn bé c«ng cô lµ thÝch hîp nhÊt víi môc tiªu kinh doanh, - TrÝch chän quan hÖ vµ mÉu tõ tËp d÷ liÖu kinh doanh, - Chuyªn gia miÒn øng dông lµm viÖc víi chuyªn gia khai ph¸ d÷ liÖu ®Ó
x¸c ®Þnh c¸c quan hÖ vµ mÉu thùc sù liªn quan tíi môc tiªu kinh doanh. Kinh
nghiÖm t¹i CDI tõ mét sè c¸c dù ¸n khai ph¸ d÷ liÖu chØ ra r»ng mét sè kÕt qu¶
kinh ng¹c cã thÓ xuÊt hiÖn ë bíc nµy. Gi¶ thiÕt c¬ së vÒ c¸ch thøc cña mét
th¬ng vô, c¸ch thøc cña mét thÞ trêng hoÆc c¸ch thøc hµnh vi cña kh¸ch hµng
cã thÓ cÇn ph¶i thay ®æi. Lu ý r»ng, néi dung c¸c bíc Lµm s¹ch vµ chuyÓn d¹ng d÷ liÖu, Khai ph¸
d÷ liÖu, Thu nhËn tri thøc kh«ng cã nhiÒu kh¸c biÖt so víi m« h×nh truyÒn thèng.
2.3.1.2. M« h×nh chuÈn c«ng nghiÖp CRISP-DM
Trong khu«n khæ dù ¸n chuÈn c«ng nghiÖp khai ph¸ d÷ liÖu CRISP-DM
(Cross-Industry Standard Process for Data Mining), Pete Chapman vµ céng sù
c«ng bè tµi liÖu híng dÉn vÒ CRISP-DM [CCKKR00]. H×nh 2.9 tr×nh bµy quy
tr×nh khai ph¸ d÷ liÖu theo chuÈn c«ng nghiÖp. ChuÈn CRISP-DM còng ®Æt néi
dung "HiÓu kinh doanh" lµ giai ®o¹n ®Çu tiªn cña qu¸ tr×nh khai ph¸ d÷ liÖu. Chi
tiÕt c¸c bíc trong quy tr×nh khai ph¸ d÷ liÖu theo chuÈn CRISP-DM nh sau:
87 88
H×nh 2.9. ChuÈn c«ng nghiÖp khai ph¸ d÷ liÖu CRISP-DM, 2000 [CCKKR00]
- HiÓu kinh doanh (Business understanding): Giai ®o¹n nµy ban ®Çu tËp
trung vµo sù hiÓu biÕt c¸c môc tiªu vµ c¸c yªu cÇu tõ gãc ®é kinh doanh cña dù
¸n khai ph¸ d÷ liÖu, sau ®ã chuyÓn ®æi tri thøc nµy thµnh mét ®Þnh nghÜa bµi
to¸n khai th¸c d÷ liÖu vµ mét kÕ ho¹ch s¬ bé ®îc thiÕt kÕ ®Ó ®¹t ®îc c¸c môc
tiªu.
- HiÓu d÷ liÖu (Data understanding): Giai ®o¹n hiÓu d÷ liÖu b¾t ®Çu víi mét
bé su tËp d÷ liÖu ban ®Çu vµ tiÕn hµnh c¸c ho¹t ®éng ®Ó lµm quen víi d÷ liÖu,
x¸c ®Þnh c¸c vÊn ®Ò chÊt lîng d÷ liÖu, ®Ó kh¸m ph¸ nh÷ng hiÓu biÕt ®Çu tiªn
vµo c¸c tËp d÷ liÖu hoÆc ph¸t hiÖn c¸c tËp con d÷ liÖu thó vÞ nh»m h×nh thµnh gi¶
thuyÕt cho th«ng tin Èn. Tri thøc kinh doanh cã tõ giai ®o¹n hiÓu kinh doanh
®Þnh híng viÖc hiÓu d÷ liÖu. §ång thêi, qua ph©n tÝch d÷ liÖu ®Ó hiÓu d÷ liÖu cã
thÓ ph¶n håi, phèi hîp víi néi dung hiÓu kinh doanh ®Ó lµm râ bµi to¸n khai ph¸
d÷ liÖu, môc tiªu vµ kÕ ho¹ch thùc hiÖn.
- ChuÈn bÞ d÷ liÖu (Data preparation): Tõ c¸c bé d÷ liÖu th« ban ®Çu, giai
®o¹n chuÈn bÞ d÷ liÖu bao gåm tÊt c¶ c¸c ho¹t ®éng nh»m x©y dùng c¸c tËp d÷
liÖu cuèi cïng lµm ®Çu vµo cho c«ng cô m« h×nh hãa. ChuÈn bÞ d÷ liÖu bao gåm
c¸c ho¹t ®éng lËp b¶ng, ghi l¹i vµ lùa chän thuéc tÝnh còng nh chuyÓn ®æi, vµ
lµm s¹ch d÷ liÖu cho c¸c c«ng cô m« h×nh hãa. C¸c thao t¸c chuÈn bÞ d÷ liÖu cã
thÓ ®îc thùc hiÖn nhiÒu lÇn vµ kh«ng theo mét thø tù quy ®Þnh.
- M« h×nh hãa (Modeling): Trong giai ®o¹n nµy, c¸c kü thuËt m« h×nh
kh¸c nhau ®îc lùa chän vµ ¸p dông. C¸c th«ng sè cña c¸c m« h×nh ®îc x¸c
®Þnh nh»m ®¹t tíi gi¸ trÞ tèi u. Th«ng thêng, mét sè kü thuËt ®îc sö dông cho
c¸c lo¹i d÷ liÖu víi cïng mét bµi to¸n khai th¸c d÷ liÖu. Mét sè kü thuËt ®ßi hái
c¸c yªu cÇu cô thÓ vÒ d¹ng thøc cña d÷ liÖu ®Çu vµo. §a d÷ liÖu vÒ d¹ng thøc
phï hîp víi c¸c kü thuËt (vµ c«ng cô) khai ph¸ d÷ liÖu lµ mét c«ng viÖc ®îc
thùc hiÖn trong giai ®o¹n chuÈn bÞ d÷ liÖu. M« h×nh hãa vµ chuÈn bÞ d÷ liÖu cã
thÓ ®îc thùc hiÖn lÆp mét sè lÇn nh»m ®¹t ®îc m« h×nh cã kÕt qu¶ tèi u.
- §¸nh gi¸ (Evaluation): ë giai ®o¹n nµy, m« h×nh (cã thÓ mét sè m«
h×nh) kÕt qu¶ víi môc tiªu chÊt lîng cao theo gãc ®é ph©n tÝch d÷ liÖu ®îc t×m
ra. Tríc khi ®a m« h×nh vµo triÓn khai trong thùc tiÔn kinh doanh, cÇn ®¸nh
gi¸ m« h×nh kÕt qu¶ kü lìng h¬n vµ xem xÐt c¸c bíc ®· ®îc thùc hiÖn ®Ó x©y
dùng m« h×nh nh»m cã ®îc niÒm tin ch¾c ch¾n r»ng m« h×nh kÕt qu¶ ®¹t ®îc
c¸c môc tiªu kinh doanh theo ®óng c¸ch thøc.
Mét môc tiªu quan träng cña ho¹t ®éng ®¸nh gi¸ lµ x¸c ®Þnh cã hay kh«ng
vÊn ®Ò kinh doanh quan träng nµo ®ã ®· kh«ng ®îc xem xÐt mét c¸ch toµn
diÖn. Vµo cuèi cña giai ®o¹n nµy, mét quyÕt ®Þnh vÒ viÖc sö dông c¸c kÕt qu¶
khai th¸c d÷ liÖu cã thÓ ®¹t ®îc.
- TriÓn khai (Deployment): Nãi chung, t¹o ra m« h×nh cha ph¶i lµ kÕt
thóc dù ¸n khai ph¸ d÷ liÖu. Tri thøc ®îc ph¸t hiÖn cÇn ph¶i ®îc tæ chøc vµ
tr×nh bµy theo c¸ch mµ kh¸ch hµng cã thÓ triÓn khai sö dông tri thøc ®ã. Giai
®o¹n triÓn khai thêng bao gåm viÖc ¸p dông m« h×nh "sèng" (thêi gian thùc)
vµo quyÕt ®Þnh cña tæ chøc triÓn khai dù ¸n. Tuy nhiªn, tïy thuéc vµo yªu cÇu,
giai ®o¹n triÓn khai cã thÓ ®îc ®¬n gi¶n nh t¹o ra mét b¸o c¸o hoÆc phøc t¹p
nh thùc hiÖn mét qu¸ tr×nh khai th¸c d÷ liÖu lÆp l¹i trªn toµn doanh nghiÖp.
Trong nhiÒu trêng hîp, kh¸ch hµng chø kh«ng ph¶i c¸c nhµ ph©n tÝch d÷ liÖu,
thùc hiÖn c¸c bíc triÓn khai. Tuy nhiªn, ngay c¶ khi c¸c nhµ ph©n tÝch kh«ng
thùc hiÖn c«ng viÖc triÓn khai, mét yªu cÇu quan träng ®èi víi c¸c nhµ ph©n tÝch
d÷ liÖu lµ hä ph¶i gióp kh¸ch hµng têng minh tiªn liÖu ®îc nh÷ng hµnh ®éng
89 90
mµ hä cÇn ph¶i ®îc thùc hiÖn ®Ó c¸c m« h×nh ®· ®îc t¹o ra thùc sù ®îc sö
dông.
H×nh 2.10. Mét m« h×nh KDD, 2000 [Nauck00]
Trong [Nauck00], Detlef D.Nauck giíi thiÖu mét m« h×nh ph¸t hiÖn tri
thøc nh tr×nh bµy ë H×nh 2.10. T¬ng tù nh m« h×nh CRISP-DM, m« h×nh nµy
còng cã xuÊt ph¸t ®iÓm tõ nhu cÇu kinh doanh vµ ph©n tÝch d÷ liÖu miÒn øng
dông cã t¬ng t¸c lÉn nhau víi ph©n tÝch miÒn øng dông kinh doanh. T¸c gi¶
nhÊn m¹nh c«ng viÖc tiÒn xö lý d÷ liÖu ®ßi hái kho¶ng 70-80% c«ng søc cña
toµn bé qu¸ tr×nh ph¸t hiÖn tri thøc (Ch¬ng 3 cña s¸ch nµy sÏ tr×nh bµy c¸c néi
dung chi tiÕt cña ho¹t ®éng chuÈn bÞ d÷ liÖu). “Bíc” khai ph¸ d÷ liÖu bao gåm
hai bµi to¸n con lµ kh¶o s¸t vµ ¸p dông kü thuËt häc m¸y, m« h×nh hãa vµ ph¸t
hiÖn tri thøc. Kh¶o s¸t cã t¬ng t¸c ph¶n håi víi c«ng viÖc chuÈn bÞ d÷ liÖu. Sau
khi ®îc trùc quan hãa vµ ®¸nh gi¸, tri thøc ®îc ph¸t hiÖn sÏ ®îc ®a vµo øng
dông vµ ®îc v¨n b¶n hãa , bæ sung tr thøc miÒn øng dông. M« h×nh Detlef
D.Nauck giíi thiÖu lµm râ h¬n néi dung mét sè bíc so víi m« h×nh CRISP-
DM.
2.3.1.3. M« h×nh ph¸t hiÖn tri thøc kÕt hîp khung nh×n kinh doanh
H×nh 2.11. Mét m« h×nh qu¶n lý tri thøc, 2008 [WW08]
N¨m 2008, Wang, H. and S. Wang [WW08] ®Ò nghÞ mét m« h×nh qu¶n lý
tri thøc (knowledge management) lµ tÝch hîp m« h×nh ph¸t hiÖn tri thøc ®Þnh
híng khai ph¸ d÷ liÖu vµ m« h×nh ph¸t triÓn tri thøc ®Þnh híng kinh doanh
(H×nh 2.11). Hai kiÓu t¸c nh©n chñ chèt trong m« h×nh nµy lµ nh©n viªn khai ph¸
d÷ liÖu (data miner) vµ nh©n viªn kinh doanh cña doanh nghiÖp (business
insider). Nh v©y, nh©n viªn khai ph¸ d÷ liÖu cã thÓ lµ ngêi cña doanh nghiÖp
hoÆc kh«ng. Gièng nh c¸c m« h×nh ®· nãi, ®iÓm ®Çu vµ ®iÓm cuèi cña chu tr×nh
khai ph¸ d÷ liÖu lµ sù t¬ng t¸c víi chu tr×nh ph¸t triÓn tri thøc kinh doanh vÒ kÕ
ho¹ch bµi to¸n khai ph¸ d÷ liÖu míi vµ chia sÎ tri thøc kÕt qu¶ cña khai ph¸ d÷
liÖu. Trong chu tr×nh ph¸t triÓn tri thøc doanh nghiÖp, tri thøc kÕt qu¶ khai ph¸
d÷ liÖu ®îc häc tËp néi bé, ®îc ¸p dông vµ tiÕp thu ®Ó t¨ng cêng tµi nguyªn
tri thøc doanh nghiÖp.
91 92
2.3.1.4. M« h×nh ph¸t hiÖn tri thøc híng th«ng minh doanh nghiÖp
H×nh 2.12. M« h×nh ph¸t hiÖn tri thøc híng th«ng minh doanh nghiÖp, 2009 [HF09]
Trong [HF09], Yang Hang vµ Simon Fong tr×nh bµy mét hÖ thèng øng
dông khai ph¸ d÷ liÖu trong miÒn øng dông th¬ng m¹i ®iÖn tö. C¸c t¸c gi¶ tr×nh
bµy m« h×nh khung bèn tÇng gåm tÇng d÷ liÖu (data layer), tÇng ph¬ng ph¸p
(method layer), tÇng dÞch vô ®iÖn tö (e-service layer) vµ tÇng tri thøc (knowledge
layer). Tri thøc ®îc ph¸t hiÖn trong hÖ thèng lµ tri thøc d¹ng th«ng minh doanh
nghiÖp (Business Intelligence). Qu¸ tr×nh khai ph¸ d÷ liÖu ®Þnh híng th«ng
minh doanh nghiÖp (BI - Driven Data Mining) cho th¬ng m¹i ®iÖn tö ®îc biÓu
diÔn ë H×nh 2.12. Trong m« h×nh nµy, xuÊt ph¸t tõ môc tiªu kinh doanh th¬ng
m¹i ®iÖn tö, mét qu¸ tr×nh khai ph¸ d÷ liÖu ®Þnh híng th«ng minh doanh
nghiÖp ®îc thi hµnh ®Ó nhËn ®îc tri thøc ®Ó ¸p dông vµo qu¸ tr×nh quy doanh.
Trªn h×nh vÏ, qu¸ tr×nh ph¸t hiÖn tri thøc ®îc thi hµnh theo bèn pha chÝnh.
- Pha hiÓu miÒn øng dông th¬ng m¹i ®iÖn tö/dÞch vô ®iÖn tö lµ pha ®Çu
tiªn cña qu¸ tr×nh. §Ó khai ph¸ d÷ liÖu ®Þnh híng th«ng minh doanh nghiÖp
miÒn øng dông th¬ng m¹i ®iÖn tö thùc sù hiÖu qu¶ th× cÇn hiÓu râ (cã ®îc tri
thøc miÒn øng dông) vÒ dÞch vô ®iÖn tö ®îc quan t©m. Môc tiªu khai ph¸ d÷
liÖu dÞch vô ®iÖn tö nµy ®îc x¸c ®Þnh. Nh÷ng tri thøc bµi to¸n vÒ dÞch vô ®iÖn
tö cho phÐp x¸c ®Þnh ®îc ph¹m vi vµ tÝnh chÊt cña tËp d÷ liÖu cÇn thiÕt cho bµi
to¸n khai ph¸, lµm c¬ së ®Þnh híng cho kh©u chuÈn bÞ d÷ liÖu.
- Trong pha hiÓu d÷ liÖu, ho¹t ®éng chuÈn bÞ d÷ liÖu ®îc tiÕn hµnh theo
®Þnh híng tõ tri thøc bµi to¸n. Trong qu¸ tr×nh chuÈn bÞ d÷ liÖu, tri thøc miÒn
øng dông vÉn ®îc huy ®éng ®Ó ®¸nh gi¸ tÝnh hiÖu qu¶ cña d÷ liÖu ®îc chuÈn
bÞ.
- T¹i pha m« h×nh hãa, c¸c thuËt to¸n/ph¬ng ph¸p phï hîp víi bµi to¸n
®îc chän vµ thùc hiÖn ®Ó x©y dùng ®îc m« h×nh khai ph¸ d÷ liÖu phï hîp.
C«ng viÖc m« h×nh hãa còng ®Æt ra yªu acµu chØnh lý l¹i d÷ liÖu cÇn thiÕt.
- Trong pha thu nhËn tri thøc, kÕt qu¶ thùc hiÖn thËt to¸n khai ph¸ d÷ liÖu
®îc ®¸nh gi¸, ®o lêng ®Ó chän ra ®îc tri thøc th«ng minh doanh nghiÖp cã
gi¸ trÞ t¬ng øng víi dÞch vô ®iÖn tö. Sau ®ã, tri thøc th«ng minh doanh nghiÖp
kÕt qu¶ ®îc ¸p dông trong kinh doanh.
2.3.1.5. M« h×nh ph¸t hiÖn tri thøc trong d÷ liÖu g¾n kÕt
Kh¸m ph¸ tri thøc trong CSDL g¾n kÕt (Cohesive Knowledge Discovery in
Database: C-KDD) ®îc quan t©m trong thêi gian gÇn ®©y. M« h×nh ph¸t hiÖn tri
thøc C-KDD ®îc biÓu diÔn t¹i H×nh 2.13. Qu¸ tr×nh C-KDD gåm bèn giai
®o¹n: lËp kÕ ho¹ch, phiªn khai th¸c má, khai th¸c hîp nhÊt, vµ sau chÕ biÕn.
93 94
H×nh 2.13. M« h×nh qu¸ tr×nh C-KDD, 2010 [Pan10]
Trong giai ®o¹n lËp kÕ ho¹ch, qu¸ tr×nh KDD b¾t ®Çu víi sù hiÓu biÕt kinh
doanh, bao gåm c¶ kinh doanh, môc tiªu vµ kinh doanh logic. Th«ng qua th¨m
dß vµ thö nghiÖm t¬ng t¸c, c¸c môc tiªu ph¸t hiÖn, d÷ liÖu kinh doanh, vµ qu¸
tr×nh tiÕp theo ®îc x¸c ®Þnh vµ c¸c ®Æc ®iÓm kü thuËt ph¸t hiÖn nhiÖm vô kÕ
ho¹ch (TS) ®îc t¹o ra. KiÕn thøc miÒn b¶n thÓ häc ®îc sö dông ®Ó lo¹i bá c¸c
thuéc tÝnh kh«ng thÝch hîp, cËp nhËt c¸c yÕu tè kinh doanh tríc khi m¬ hå, suy
luËn c¸c thuéc tÝnh kh¸c trõu tîng, vv H¬n n÷a, tËp hîp c¸c thuéc tÝnh d÷ liÖu
hîp lÖ, c¸c bíc qu¸ tr×nh, vµ c¸c thuËt to¸n ®îc cÊu t¹o theo thø tù dùa trªn
desiderata cña ngêi sö dông, khai th¸c d÷ liÖu mét b¶n thÓ häc.
Giai ®o¹n khai th¸c phiªn thùc hiÖn chän-chuyÓn giao-premining vµ ®¹t
®îc khai th¸c d÷ liÖu mét phÇn. Chó träng quy t¾c c¶m øng ®Þa ph¬ng vµ tÜnh,
vµ thùc hiÖn khëi ph¸t chuyÓn d÷ liÖu gia t¨ng ®Òu ®Æn, vÝ dô nh th¸ng. Khi
chøc n¨ng ®· ®îc quy ®Þnh t¹i TS, ®Þnh kú lÆp ®i lÆp l¹i trªn d÷ liÖu gia t¨ng
theo tÇn sè hoÆc ®iÒu kiÖn kÝch ho¹t, vµ cã kÕt qu¶ c¸c h×nh thøc mét thïng quy
t¾c (RB). KiÕn thøc b¶n thÓ häc ®îc sö dông ®Ó hç trî trong viÖc x¸c ®Þnh c¸c
tÝnh n¨ng ®îc lùa chän, c¸c th«ng sè, vv
Khai th¸c má hîp nhÊt ®îc b¾t ®Çu b»ng c¸c truy vÊn khai th¸c má hoÆc
mét sù kiÖn kÝch ho¹t. Néi dung t×m kiÕm sÏ ®îc liÖt kª tham kh¶o ý kiÕn víi
TS, ngêi dïng cã thÓ cam kÕt cho hä, theo yªu cÇu cña m×nh. Mét sù kiÖn kÝch
ho¹t x¶y ra lµ nguyªn nh©n cña thêi gian quy ®Þnh hoÆc t¨ng. Chó träng ph¸t
hiÖn ra quy t¾c chung vµ n¨ng ®éng, trong m« h×nh t¬ng t¸c, c¸c quy t¾c ®îc
s¸p nhËp vµ tinh chÕ tõ mét sè RBS. C¸c th«ng sè vµ h¹n chÕ ®îc bæ sung tri
thøc b¶n thÓ häc.
Giai ®o¹n hËu xö lý b¾t ®Çu phï hîp víi quy t¾c ph¸t hiÖn vµ tri thøc ®îc
biÕt ®Õn bé läc, nh÷ng ngêi v« dông, sau ®ã ®îc ph©n lo¹i vµ xÕp h¹ng kÕt
qu¶ tù ®éng thó vÞ theo interestingness. Khi mét ngìng ®iÓm quan träng lµ ®¹t
®îc, mét c¶nh b¸o sÏ ®îc kÝch ho¹t. Trong khi ®ã, ngêi sö dông cã thÓ xem
xÐt vµ x¸c nhËn c¸c nh÷ng ph¸t hiÖn nµy. Nã còng sÏ tÝch hîp nh÷ng hiÓu biÕt
míi thó vÞ víi nh÷ng tri thøc ®· biÕt, ®Ó thùc hiÖn qu¸ tr×nh tiÕn hãa tri thøc vµ
tr×nh bµy. Sau ®ã, nã h×nh thµnh mét gi¶i ph¸p chÆt chÏ vßng gióp duy tr× qu¸
tr×nh ph¸t hiÖn tri thøc liªn tôc. Khi kh«ng thÓ ®Ó ®¸p øng c¸c øng dông th«ng
tin t×nh b¸o hoÆc xem xÐt l¹i quy t¾c, dßng ch¶y qu¸ tr×nh ®i ®Õn giai ®o¹n lËp
kÕ ho¹ch ®Ó t¸i kh¸m ph¸ d÷ liÖu. Cuèi cïng, nh÷ng kÕt qu¶ ®îc tr¶ vÒ cho
ngêi dïng cuèi. Trªn thùc hiÖn m« h×nh, m¸y bíc xö lý yªu cÇu c¸c thµnh
phÇn tù trÞ. Mçi thµnh phÇn lµ ®¹i lý th«ng minh, cã ®îc c¸c b¶n thÓ häc vÒ tÝnh
th¨m dß vµ tri thøc ®îc biÕt ®Õn th«ng qua dÞch vô b¶n thÓ häc.
2.3.1.6. M« h×nh khai ph¸ d÷ liÖu híng miÒn øng dông
GÇn ®©y, khai ph¸ d÷ liÖu híng miÒn øng dông (Domain Driven Data
Mining: D3M) lµ mét trong nh÷ng khuynh híng nghiªn cøu næi bËt cña khai
ph¸ d÷ liÖu. Longbing Cao vµ céng sù [CYZZ10] ®Ò nghÞ m« h×nh qu¸ tr×nh khai
ph¸ d÷ liÖu híng miÒn øng dông nh ®îc thÓ hiÖn trong h×nh 2.14. C¸c thµnh
phÇn chøc n¨ng chÝnh cña m« h×nh ®îc lµm næi bËt b»ng c¸c hép cã viÒn dµy,
thÓ hiÖn nh÷ng giai ®o¹n cô thÓ D3M.
H×nh 2.14. M« h×nh qu¸ tr×nh khai ph¸ d÷ liÖu híng miÒn øng dông, 2010 [CYZ10]
M« h×nh nµy cho mét khung nh×n chi tiÕt h¬n vÒ qu¸ tr×nh ph¸t hiÖn tri
thøc th«ng qua pha thùc hiÖn, ®îc ký hiÖu tõ P1 tíi P13 nh trªn h×nh vÏ (P05
vµ P07 lµ c¸c ph¬ng ¸n thay thÕ cho P5 hoÆc P7). Mçi bíc cña qu¸ tr×nh D3M
cã thÓ liªn quan ®Õn sù th«ng minh kh¾p n¬i vµ t¬ng t¸c víi ngêi dïng doanh
nghiÖp vµ/hoÆc víi c¸c chuyªn gia miÒn. Néi dung chi tiÕt cña mçi bíc trong
vßng ®êi cña qu¸ tr×nh D3M ®îc tr×nh bµy nh díi ®©y, nhng cÇn lu ý r»ng
tr×nh tù c¸c bíc kh«ng lµ cøng nh¾c, mét sè giai ®o¹n cã thÓ ®îc bá qua hoÆc
cã sù chuyÓn ®æi qua l¹i ®Ó thÝch øng víi mét vÊn ®Ò bµi to¸n trong thùc tiÔn:
95 96
P1. HiÓu vÊn ®Ò (®Þnh danh vµ x¸c ®Þnh c¸c vÊn ®Ò, bao gåm c¶ ph¹m vi
cña nã vµ nh÷ng th¸ch thøc ...);
P2. Ph©n tÝch rµng buéc (®Þnh danh rµng buéc xung quanh c¸c vÊn ®Ò ë
trªn, tõ d÷ liÖu, miÒn øng dông, tÝnh thó vÞ vµ c¸ch ph©n bè);
P3. §Þnh nghÜa c¸c môc tiªu ph©n tÝch, vµ x©y dùng ®Æc trng (®Þnh nghÜa
môc tiªu khai ph¸ d÷ liÖu, vµ c¸c ®Æc trng ®îc lùa chän phï hîp hoÆc x©y
dùng ®Ó ®¹t ®îc c¸c môc tiªu);
P4. TiÒn xö lý d÷ liÖu (trÝch chän, chuyÓn ®æi vµ t¶i d÷ liÖu, nãi riªng,
chuÈn bÞ d÷ liÖu ch¼ng h¹n nh xö lý d÷ liÖu mÊt tÝch vµ riªng t); hoÆc
P5. Lùa chän ph¬ng ph¸p vµ m« h×nh hãa (lùa chän ®îc c¸c m« h×nh vµ
ph¬ng ph¸p thÝch hîp ®Ó ®¹t ®îc c¸c môc tiªu trªn);
P05. M« h×nh hãa chuyªn s©u (¸p dông m« h×nh hãa chuyªn s©u b»ng c¸ch
sö dông nhiÒu m« h×nh hiÖu qu¶ tiÕt lé cèt lâi cña vÊn ®Ò, hoÆc dông khai ph¸ ®a
bíc, khai ph¸ kÕt hîp);
P6. Ph©n tÝch vµ ®¸nh gi¸ kÕt qu¶ chung ban ®Çu (ph©n tÝch /®¸nh gi¸ c¸c
ph¸t hiÖn ban ®Çu);
P7. Lµ hoµn toµn hîp lý khi mçi giai ®o¹n tõ P1 cã thÓ ®îc lÆp ®i lÆp l¹i
th«ng qua ph©n tÝch rµng buéc vµ t¬ng t¸c víi c¸c chuyªn gia miÒn øng dông
theo ph¬ng thøc quay lui vµ xem xÐt;
P07. Khai ph¸ chuyªn s©u vÒ kÕt qu¶ chung ban ®Çu khi ¸p dông;
P8. §o lêng vµ n©ng cao kh¶ n¨ng hµnh ®éng (kiÓm tra tÝnh thó vÞ theo
quan ®iÓm c¶ vÒ kü thuËt vµ kinh doanh, vµ t¨ng cêng hiÖu suÊt b»ng c¸ch ¸p
dông ph¬ng ph¸p hiÖu qu¶ h¬n).
P9. Thùc hiÖn qua l¹i gi÷a P7 vµ P8;
P10. HËu xö lý kÕt qu¶ (hËu ph©n tÝch hoÆc hËu khai ph¸ d÷ liÖu c¸c kÕt
qu¶ ban ®Çu);
P11. Xem xÐt l¹i c¸c giai ®o¹n tõ P1 cã thÓ ®îc ®ßi hái;
P12. TriÓn khai (triÓn khai c¸c kÕt qu¶ vµo c¸c ngµnh kinh doanh);
P13. Cung cÊp tri thøc vµ b¸o c¸o tæng hîp ®Ó ra quyÕt ®Þnh th«ng minh
(tæng hîp ph¸t hiÖn cuèi cïng thµnh b¸o c¸o ra quyÕt ®Þnh sÏ ®îc chuyÓn giao
cho ngêi kinh doanh).
2.3.2 VÒ bµi to¸n khai ph¸ d÷ liÖu
Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong d÷ liÖu lµ vÊn ®Ò t¨ng cêng tµi
nguyªn tri thøc cña tæ chøc, vµ v× vËy, ®©y lµ mét vÊn ®Ò chiÕn lîc. Nãi riªng,
trong doanh nghiÖp, bµi to¸n khai ph¸ d÷ liÖu ®îc ®Æt ra tõ nhu cÇu kinh doanh
mµ kh«ng ph¶i lµ nhu cÇu cña c«ng nghÖ. Mét sè ®Þnh híng ®Çu t CNTT ®·
®îc giíi thiÖu.
Qu¸ tr×nh tiÕn hãa m« h×nh khai ph¸ d÷ liÖu kh¼ng ®Þnh r»ng c«ng viÖc x¸c
®Þnh bµi to¸n khai ph¸ d÷ liÖu ®îc ®¨t lªn hµng ®Çu. C¸c m« h×nh ®· nãi còng
nhÊt qu¸n tiÕp cËn bµi to¸n khai ph¸ d÷ liÖu tõ nhu cÇu ph¸t triÓn cña ®¬n vÞ, nãi
riªng trong c¸c doanh nghiÖp th× ®©y lµ nhu cÇu kinh doanh. HiÓu miÒn øng
dông cã tÝnh quyÕt ®Þnh cho viÖc x¸c ®Þnh bµi to¸n khai ph¸ d÷ liÖu. Chuyªn gia
miÒn lÜnh vùc kh«ng chØ lµ bé phËn chñ chèt cho x¸c ®Þnh bµi to¸n khai ph¸ d÷
liÖu mµ cßn trong c¶ toµn bé qu¸ tr×nh ph¸t hiÖn tri thøc, t¨ng cêng tµi nguyªn
tri thøc cho doanh nghiÖp [WW08, HF09, Pan10, CYZ10]. Tõ ph¬ng diÖn cña
chuyªn gia khai ph¸ d÷ liÖu bªn ngoµi, x¸c ®Þnh ®óng ®èi tîng môc tiªu chuyªn
gia miÒn lÜnh vùc cña doanh nghiÖp lµ vÊn ®Ò then chèt ®Ó triÓn khai dù ¸n khai
ph¸ d÷ liÖu. Khi x¸c ®Þnh bµi to¸n khai ph¸ d÷ liÖu, chuyªn gia khai ph¸ d÷ liÖu
cÇn tr¸nh ®Þnh híng tiÕp cËn theo ph¬ng diÖn c«ng nghÖ. X¸c ®Þnh ®óng bµi
to¸n ®óng ®¾n lµ mét yÕu tè quyÕt ®Þnh thµnh c«ng cña dù ¸n khai ph¸ d÷ liÖu
(Ch¬ng 10).
Trong [WB98], Christopher Westphal vµ Teresa Blaxton ®a ra mét sè
khuyÕn nghÞ khi b¾t ®Çu tiÕn hµnh mét dù ¸n khai ph¸ d÷ liÖu:
- Khi ®Æt ra mét bµi to¸n khai ph¸ d÷ liÖu th× cÇn tr¸nh ®a ra sù kú väng
qu¸ ®¸ng vÒ kÕt qu¶. T¬ng tù nh sù kú väng qu¸ ®¸ng ®èi víi CNTT, mét lÜnh
vùc ®ang næi nh khai ph¸ d÷ liÖu cã xu híng t¹o ra mét ®é ¶o tëng nµo ®ã
®èi víi mét bé phËn c¸ nh©n vµ tæ chøc. Khi ®Æt ra bµi to¸n khai ph¸ d÷ liÖu, cã
thÓ cã mét íc ®o¸n th« nµo ®ã vÒ kÕt qu¶ ph¸t hiÖn tri thøc, tuy nhiªn, ®Êy míi
chØ lµ sù íc ®o¸n ban ®Çu. Khai ph¸ d÷ liÖu lµ mét qu¸ tr×nh ph¸t hiÖn c¸c mÉu
míi vµ xu híng míi, tiÒm Èn trong d÷ liÖu, mµ ®· lµ "míi, tiÒm Èn" th× kh«ng
thÓ tiÕt lé tríc mét c¸ch ®Çy ®ñ kÕt qu¶ khai ph¸ d÷ liÖu. MÆt kh¸c, khai ph¸ d÷
liÖu lµ qu¸ tr×nh t¬ng t¸c kh¸m ph¸, trong ®ã t¬ng t¸c kh¸m ph¸ víi c¸c
97 98
chuyªn gia miÒn øng dông cã ý nghÜa ®Æc biÖt quan träng. Huy ®éng tri thøc
chuyªn gia lµ vÊn ®Ò khã trong c«ng nghÖ tri thøc nãi chung vµ trong khai ph¸
d÷ liÖu nãi riªng.
Theo Christopher Westphal vµ Teresa Blaxton, khai ph¸ d÷ liÖu lµ mét qu¸
tr×nh ®éc ®¸o vµ ®Çy thö th¸ch, ®ßi hái ph¶i sö dông kÕt hîp c¸c ph¬ng ph¸p vµ
c«ng nghÖ. Tuy khai ph¸ d÷ liÖu lµ mét qu¸ tr×nh thi hµnh bé phËn cña vßng ®êi
tri thøc song chuyªn gia khai ph¸ d÷ liÖu kh«ng thÓ lÆp ®i lÆp l¹i mét kÞch b¶n
mµ cÇn ph¶i kh«ng ngõng c¶i tiÕn c¸ch tiÕp cËn dùa trªn c¸c mÉu kÕt qu¶ ®·
®îc ph¸t hiÖn.
- Khi ®Æt ra bµi to¸n khai ph¸ d÷ liÖu th× cÇn tÝnh ®Õn tÝnh thùc tiÔn cña
bµi to¸n. §Çu tiªn, vÊn ®Ò ®Çu tiªn cÇn gi¶i quyÕt lµ kinh phÝ ®Çu t cho mét dù
¸n khai ph¸ d÷ liÖu. Theo kinh nghiÖm cña Christopher Westphal vµ Teresa
Blaxton, c¸c c«ng ty thêng ®Çu t cho khai ph¸ d÷ liÖu vµo kho¶ng 15%-20%
gi¸ trÞ lµm gi¶m thiÖt h¹i ®îc íc tÝnh hoÆc c¶i tiÕn ®îc dù kiÕn. Thø hai, tÝnh
kÞp thêi cÇn lµ mét ®øc h¹nh cña c¸c chuyªn gia khai ph¸ d÷ liÖu. Mét dù ¸n
khai ph¸ d÷ liÖu cÇn cho kÕt qu¶ trong thêi gian tÝnh theo ngµy hoÆc cïng l¾m
tÝnh theo tuÇn. Víi mét thêi h¹n ng¾n nh vËy trong bèi c¶nh lµm viÖc víi mét
khèi lîng d÷ liÖu lín. V× kh«ng thÓ thùc hiÖn khai ph¸ d÷ liÖu trªn toµn bé d÷
liÖu, viÖc chän lùa d÷ liÖu cã vai trß rÊt quan träng. ViÖc chän lùa d÷ liÖu g¾n
kÕt víi môc tiªu ph¸t hiÖn tri thøc (trong doanh nghiÖp lµ môc tiªu kinh doanh),
v× vËy, ý kiÕn chuyªn gia néi bé t¹o thuËn lîi cho viÖc h¹n chÕ ph¹m vi d÷ liÖu.
H¬n n÷a, giao tiÕp tèt víi chuyªn gia néi bé gióp x¸c ®Þnh tèt môc tiªu cña khai
ph¸ d÷ liÖu. Thø ba, khi thùc hiÖn bµi to¸n khai ph¸ d÷ liÖu còng cÇn dù ®o¸n vµ
vît qua rµo c¶n vÒ thÓ chÕ. ViÖc tiÕp nhËn vµ sö dông tri thøc míi (mÉu míi, dù
®o¸n míi) cã thÓ kh¸c l¹ so víi néi dung thÓ chÕ hiÖn hµnh.
- TruyÒn th«ng, b¶o hiÓm, b¸n lÎ, tµi chÝnh – ng©n hµng, th¬ng m¹i,
hoÆc ho¹t ®éng vËn chuyÓn cã nh÷ng vïng ho¹t ®éng dÔ bÞ tæn th¬ng, mµ ë ®ã
gian lËn cã thÓ x¶y ra. Gian lËn kh«ng bÞ ph¸t hiÖn bëi v× chóng ®îc Èn dËt
kh«ng khÐo trong mét lîng lín c¸c giao dÞch b×nh thêng. TÝnh míi cña kÕt
qu¶ khai ph¸ d÷ liÖu lµ ®iÒu cèt lâi song cÇn ph¸t hiÖn c¸c mÉu míi hoÆc phæ
biÕn hoÆc hiÕm.
2.4. §é ®o hÊp dÉn trong khai ph¸ d÷ liÖu
T¹i Ch¬ng 1, khi gi¶i thÝch néi dung ®Þnh nghÜa KDD, c¸c ®é ®o cho tÝnh
cã gi¸ trÞ, tÝnh míi, tÝnh h÷u Ých tiÒm n¨ng, vµ ®Æc biÖt lµ tÝnh hÊp dÉn cña mét
mÉu ®îc gi¶ ®Þnh lµ ®· cã. Mét mÉu ph¸t hiÖn ®îc cã ®é hÊp dÉn vît qua
mét ngìng cho tríc th× nã ®îc coi lµ tri thøc míi ®îc ph¸t hiÖn. §é ®o hÊp
dÉn cña mét mÉu lµ ®é ®o tæng thÓ vÒ mÉu lµ sù kÕt hîp cña c¸c tiªu chÝ gi¸ trÞ,
míi, h÷u Ých vµ dÔ hiÓu Néi dung, tÝnh chÊt cña ®é ®o hÊp dÉn cha ®îc ®Ò cËp.
§o lêng tri thøc vµ ®o lêng kinh tÕ tri thøc lµ nh÷ng bµi to¸n khã
[Grube09, OEC96, CD05] vµ ®o lêng ®é hÊp dÉn cña mÉu trong khai ph¸ d÷
liÖu còng kh«ng n»m ngoµi quy luËt ®ã. Kh«ng cã mét ®é ®o hÊp ®Én chung cho
mÉu ®îc ph¸t hiÖn mµ trong mçi ng÷ c¶nh øng dông cÇn x¸c ®Þnh c¸c ®é ®o
hÊp dÉn phï hîp nhÊt. Tri thøc ®îc ph¸t hiÖn qua khai ph¸ d÷ liÖu ®îc x¸c
®Þnh dùa trªn nhiÒu yÕu tè ng÷ c¶nh øng dông, ®iÓn h×nh lµ yÕu tè vÒ lo¹i bµi
to¸n khai ph¸ d÷ liÖu. Mçi lo¹i bµi to¸n khai ph¸ d÷ liÖu cã mét líp ®é ®o hÊp
dÉn phæ biÕn, ch¼ng h¹n nh khai ph¸ luËt kÕt hîp cã hai ®é ®o phæ biÕn lµ ®é
hç trî (support) vµ ®é tin cËy (confidence) hoÆc ph©n líp d÷ liÖu cã mét sè ®é
®o phæ biÕn lµ ®é håi tëng (recall), ®é chÝnh x¸c (precision) vµ ®é ®o F, thuËt
to¸n ph©n líp c©y quyÕt ®Þnh cßn sö dông c¸c ®é ®o Gini hoÆc ®é ®o lîi Ých
th«ng tin (information gain) ®Ó lùa chän thuéc tÝnh tèt ... §é ®o hÊp dÉn cßn
®îc sö dông trong c¸c bíc kh¸c cña qu¸ tr×nh ph¸t hiÖn tri thøc, trong ®ã ®Ó
viÖc hiÓu d÷ liÖu hoÆc lùa chän thuéc tÝnh còng cÇn c¸c ®é ®o hç trî cho mÉu
ph¸t hiÖn ®îc hÊp dÉn. §ång thêi, khai ph¸ d÷ liÖu lo¹i nµy l¹i cã thÓ sö dông
®é ®o hÊp dÉn cña kiÓu khai ph¸ d÷ liÖu lo¹i kh¸c, ch¼ng h¹n nh, ph©n côm cã
thÓ ®îc thõa kÕ ®é ®o hÊp dÉn cña ph©n líp.
§o lêng tÝnh hÊp dÉn cña mÉu ®îc ph¸t hiÖn lµ mét néi dung nghiªn cøu
tÝch cùc vµ quan träng trong khai th¸c d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu.
NhiÒu c«ng tr×nh nghiªn cøu kh¸i qu¸t vµ chuyªn s©u vÒ néi dung nµy, ch¼ng
h¹n [Garry05, Grube09, HGEK07, Yao03, HZ10, GH06, ZZNS09], ®· ®îc
c«ng bè. Dï cha cã sù c«ng nhËn réng r·i cho mét ®Þnh nghÜa vÒ ®é ®o hÊp dÉn
nhng c¸c tiªu chÝ cÇn ®¹t ®îc cña mét mÉu hÊp dÉn l¹i nhËn ®îc sù ®ång
thuËn cao. §é ®o hÊp dÉn cÇn ®¶m b¶o tri thøc ®îc ph¸t hiÖn lµ c¸c mÉu cã tÝnh
99 100
sóc tÝch (conciseness), tÝnh phæ dôngt/bao trïm (Generality/coverage), tÝnh tin
cËy (reliability), tÝnh ®Æc thï (peculiarity), tÝnh ®a d¹ng (diversity), tÝnh míi l¹
(novelty), tÝnh ng¹c nhiªn (surprisingness), tÝnh tiÖn Ých (utility), vµ tÝnh hµnh
®éng (actionability). Néi dung cña chÝn tÝnh chÊt nãi trªn ®îc tr×nh bµy nh
díi ®©y [GH06].
TÝnh sóc tÝch: MÉu lµ sóc tÝch nÕu nã cã chøa t¬ng ®èi Ýt c¸c cÆp gi¸ trÞ
thuéc tÝnh vµ mét tËp c¸c mÉu lµ sóc tÝch nÕu nã chøa t¬ng ®èi Ýt c¸c mÉu. Mét
mÉu hoÆc tËp mÉu sóc tÝch lµ t¬ng ®èi dÔ dµng ®Ó hiÓu vµ ghi nhí vµ do ®ã
®îc bæ sung dÔ dµng h¬n tri thøc cña ngêi dïng. VÝ dô, h¹n chÕ chØ t×m kiÕm
c¸c luËt m¹nh trong khai ph¸ luËt kÕt hîp, t×m c©y tèt nhÊt cã thÓ ®îc trong
ph©n líp c©y quyÕt ®Þnh lµ nh÷ng vÝ dô vÒ t×m tËp mÉu sóc tÝch. §é ®o F trong
ph©n líp d÷ liÖu nh»m ®¶m b¶o c¸c mÉu ph©n líp cã tÝnh sóc tÝch.
TÝnh phæ dông/ tÝnh bao trïm: Mét mÉu lµ phæ dông nÕu nã phñ mét tËp
con lín cña tËp d÷ liÖu theo nghÜa tËp b¶n ghi phï hîp víi mÉu trong tËp toµn bé
d÷ liÖu chiÕm mét tû lÖ lín. Khi ®ã, mÉu phæ dông sÏ ®Æc t¶ nhiÒu th«ng tin
trong tËp d÷ liÖu vµ v× vËy mÉu cã xu híng trë nªn hÊp dÉn h¬n. Trong khai ph¸
luËt kÕt hîp, ®é hç trî (support) ®îc ®Æt ra nh»m ®¶m b¶o tri luËt t×m ®îc cã
tÝnh phæ dông. TËp môc phæ biÕn lµ mÉu phæ dông khi ®é hç trî cña nã vît qua
mét ngìng ®é tèi thiÓu cho tríc ®îc gäi lµ ®é hç trî tèi thiÓu. Trong ph©n
líp Bayes, ngìng quyÕt ®Þnh ph©n líp ®îc ®Æt ra ®¶m b¶o mét líp chøa c¸c
b¶n ghi "phæ dông" thuéc vÒ nã. TÝnh phæ dông thêng x¶y ra ®ång thêi víi tÝnh
sóc tÝch bëi v× c¸c mÉu sóc tÝch cã xu híng phæ dông h¬n c¸c mÉu kh«ng sóc
tÝch.
TÝnh tin cËy: Mét mÉu lµ tin cËy nÕu mèi quan hÖ mµ mÉu m« t¶ cho phÐp
®¹t mét tû lÖ cao khi ®a ra ¸p dông. VÝ dô, mét luËt ph©n líp lµ ®¸ng tin cËy
nÕu dù ®o¸n cña nã chÝnh x¸c cao, vµ mét luËt kÕt hîp lµ tin cËy nÕu nã cã ®é
tin cËy cao. Trong khai ph¸ luËt kÕt hîp, nhiÒu ®é ®o x¸c suÊt, thèng kª, vµ thu
håi th«ng tin ®· ®îc ®Ò xuÊt ®Ó ®o ®é tin cËy cña c¸c luËt.
TÝnh ®Æc thï: Mét mÉu cã tÝnh ®Æc thï nÕu nã "xa" c¸c mÉu ®îc ph¸t hiÖn
kh¸c theo mét ®é ®o kho¶ng c¸ch nµo ®ã. MÉu ®Æc thï ®îc t¹o ra tõ d÷ liÖu ®Æc
thï (hoÆc ngo¹i lai), t¬ng ®èi Ýt vÒ sè lîng vµ kh¸c biÖt ®¸ng kÓ víi phÇn cßn
l¹i cña d÷ liÖu. MÉu ®Æc thï cã thÓ cha ®îc ngêi sö dông h×nh dung tíi cho
nªn nã hÊp dÉn. Trong khai ph¸ luËt kÕt hîp, luËt hiÕm (rare rule) lµ lo¹i luËt kÕt
hîp cã tÝnh ®Æc thï.
TÝnh ®a d¹ng: TÝnh ®a d¹ng cña mÉu thÓ hiÖn r»ng c¸c thµnh phÇn cña nã
kh¸c biÖt ®¸ng kÓ víi c¸c thµnh phÇn kh¸c, vµ mét tËp mÉu lµ ®a d¹ng nÕu c¸c
mÉu trong tËp lµ kh¸c biÖt nhau ®¸ng kÓ. §a d¹ng lµ mét tiªu chÝ phæ biÕn ®Ó ®o
lêng tÝnh hÊp dÉn cña tãm t¾t d÷ liÖu: Mét b¶n tãm t¾t cã thÓ ®îc coi lµ ®a
d¹ng nÕu ph©n bè x¸c suÊt cña nã lµ kh¸c biÖt so víi ph©n phèi ®ång nhÊt.
Ngêi dïng thêng cã xu híng gi¶ ®Þnh b¶n tãm t¾t gi÷ mét ph©n phèi ®ång
nhÊt cho nªn b¶n tãm t¾t ®a d¹ng trë nªn hÊp dÉn.
TÝnh míi l¹: MÉu lµ "míi l¹" cho mét ngêi nÕu ngêi ®ã kh«ng biÕt nã
tríc vµ kh«ng thÓ suy ra nã tõ c¸c mÉu kh¸c ®· biÕt. §o lêng tÝnh míi l¹ cã
®«i chót kh¸c biÖt víi ®o lêng mét sè tiªu chÝ hÊp hÉn kh¸c cã nghÜa lµ kh«ng
thÓ ®a ra mét ngìng ®Ó ®o lêng tÝnh míi l¹. Thø nhÊt, hÖ thèng khai ph¸ d÷
liÖu kh«ng tr×nh diÔn mäi thø mµ ngêi sö dông ®· biÕt: tÝnh míi l¹ kh«ng thÓ
®o mét c¸ch râ rµng khi tham chiÕu tíi tri thøc miÒn øng dông cña ngêi sö
dông. Thø hai, hÖ thèng khai th¸c d÷ liÖu kh«ng thÓ tr×nh bµy nh÷ng ®iÒu mµ
ngêi dïng cha biÕt: tÝnh míi l¹ kh«ng thÓ ®o mét c¸ch râ rµng khi tham chiÕu
ngoµi tri thøc miÒn cña ngêi dïng. Thay vµo ®ã, mÉu míi l¹ ®îc ph¸t hiÖn
th«ng qua (1) x¸c ®Þnh râ rµng cho ngêi sö dông thÕ nµo lµ mét mÉu míi l¹; (2)
®a ra mét th«ng b¸o mÉu ®îc ph¸t hiÖn kh«ng thÓ ®îc suy ra vµ kh«ng m©u
thuÉn víi c¸c mÉu ®îc ph¸t hiÖn tríc. Trong trêng hîp thø hai, c¸c mÉu ph¸t
hiÖn tríc ®îc coi nh mét xÊp xØ víi tri thøc cña ngêi sö dông.
TÝnh kinh ng¹c: MÉu lµ kinh ng¹c (hoÆc ®ét xuÊt) nÕu nã m©u thuÉn víi tri
thøc hiÖn cã hoÆc kú väng cña mét ngêi. Mét mÉu ®îc ph¸t hiÖn kh¸c biÖt víi
mét mÉu chung ®· ®îc ph¸t hiÖn còng cã thÓ ®îc coi lµ mÉu kinh ng¹c nhiªn.
MÉu kinh ng¹c lµ hÊp dÉn bëi v× chóng x¸c ®Þnh sù thÊt b¹i trong tri thøc tríc
®©y vµ cã thÓ ®Ò xuÊt mét khÝa c¹nh míi cÇn ®îc nghiªn cøu vÒ d÷ liÖu.
Sù kh¸c biÖt gi÷a tÝnh kinh ng¹c vµ tÝnh míi l¹ lµ ë chç mét mÉu míi l¹ lµ
mÉu míi vµ kh«ng m©u thuÉn víi bÊt kú mÉu nµo ®· ®îc ngêi sö dông biÕt,
trong khi mét mÉu kinh ng¹c l¹i m©u thuÉn víi tri thøc tríc ®ã hoÆc mong ®îi
cña ngêi dïng.
101 102
TÝnh tiÖn Ých : MÉu lµ tiÖn Ých nÕu gãp phÇn ®¹t ®îc môc tiªu cho mét
ngêi sö dông nã. Nh÷ng ngêi sö dông kh¸c nhau cã thÓ cã nh÷ng môc tiªu
kh¸c nhau liªn quan ®Õn nh÷ng tri thøc cã thÓ ®îc chiÕt xuÊt tõ mét tËp d÷ liÖu.
VÝ dô, mét ngêi cã thÓ quan t©m t×m kiÕm tÊt c¶ c¸c doanh sè b¸n hµng víi lîi
nhuËn cao trong mét tËp d÷ liÖu giao dÞch, trong khi ngêi kh¸c l¹i cã thÓ quan
t©m t×m kiÕm tÊt c¶ c¸c giao dÞch víi sù gia t¨ng lín trong tæng doanh thu. TÝnh
hÊp dÉn dùa trªn chøc n¨ng ngêi dïng ®Þnh nghÜa vÒ tÝnh tiÖn Ých.
TÝnh hµnh ®éng /¸p dông ®îc. MÉu cã tÝnh hµnh ®éng (hoÆc ¸p dông
®îc) trong mét ph¹m vi nµo ®ã nÕu m·u cho phÐp ra quyÕt ®Þnh vÒ nh÷ng hµnh
®éng trong t¬ng lai thuéc miÒn øng dông. TÝnh hµnh ®éng ®«i khi ®îc kÕt hîp
víi mét mÉu lùa chän chiÕn lîc. Cha cã mét ph¬ng ph¸p chung cho viÖc ®o
lêng tÝnh hµnh ®éng vµ c¸c ®é ®o hiÖn t¹i phô thuéc vµo c¸c øng dông. VÝ dô,
®o lêng tÝnh hµnh ®éng nh chi phÝ thay ®æi t×nh tr¹ng hiÖn t¹i cña kh¸ch hµng
®Ó phï hîp víi môc tiªu, hoÆc ®o lêng tÝnh hµnh ®éng nh lµ lîi nhuËn mµ mét
luËt kÕt hîp cã thÓ mang l¹i.
C¸c tiªu chÝ ®o lêng mÉu hÊp dÉn nãi trªn cã sù t¬ng quan víi nhau mµ
kh«ng ph¶i ®éc lËp hoµn toµn. Thø nhÊt, chóng cã sù t¬ng ®ång t¬ng ®èi víi
nhau, ch¼ng h¹n, tÝnh thi hµnh ®îc cã thÓ lµ mét xÊp xØ tèt cho tÝnh kinh ng¹c,
vµ ®èi ngÉu l¹i; tÝnh sóc tÝch thêng trïng hîp víi tÝnh phæ dông; tÝnh phæ dông
thêng lµ ®é nh¹y gi¶m nhiÔu cho nªn còng liªn quan tíi tÝnh tin cËy. Thø hai,
chóng còng cã tÝnh kh«ng t¬ng ®ång, ch¼ng h¹n, tÝnh phæ dông cã vÎ xung ®ét
víi tÝnh ®Æc thï, trong khi ®ã nã (tÝnh phæ dông) l¹i t¬ng ®ång víi tÝnh míi l¹.
C¸c ®é ®o hÊp dÉn ®îc chia thµnh ba líp chÝnh lµ líp c¸c ®é ®o kh¸ch
quan, ®é ®o chñ quan vµ ®é ®o dùa trªn ng÷ nghÜa dùa theo c¸c tiªu chÝ mµ ®é
®o ®¸p øng.
Mét ®é ®o ®îc gäi lµ kh¸ch quan nÕu ®o lêng nã chØ dùa trªn c¸c d÷ liÖu
th«, kh«ng cã yªu cÇu trùc tiÕp vÒ tri thøc cña ngêi sö dông hoÆc gi¸n tiÕp
th«ng qua mét øng dông kh¸c. HÇu hÕt c¸c ®é ®o kh¸ch quan dùa trªn lý thuyÕt
x¸c suÊt, thèng kª, hoÆc lý thuyÕt th«ng tin. C¸c tiªu chÝ sóc tÝch, phæ dông, tin
cËy, ®Æc thï, vµ ®a d¹ng chØ phô thuéc vµo c¸c d÷ liÖu vµ c¸c mÉu, vµ do ®ã cã
thÓ ®îc coi lµ kh¸ch quan.
H×nh 2.15. §é ®o hÊp dÉn vµ c«ng thøc tÝnh to¸n (trÝch, 2006 [HG06])
103 104
Mét ®é ®o ®îc gäi lµ chñ quan nÕu ®o lêng nã dùa trªn c¶ d÷ liÖu vµ tri
thøc ngêi sö dông. §Ó cã ®îc tri thøc ngêi sö dông, truy cËp vµo tªn miÒn
hoÆc tri thøc nÒn vÒ d÷ liÖu cña ngêi dïng ®îc yªu cÇu. Truy cËp nµy cã thÓ
thu ®îc b»ng c¸ch t¬ng t¸c víi ngêi sö dông trong qu¸ tr×nh khai th¸c d÷ liÖu
hoÆc b»ng c¸ch têng minh ®¹i diÖn cho tri thøc hoÆc kú väng cña ngêi sö
dông. TÝnh míi l¹ vµ tÝnh kinh ng¹c phô thuéc vµo ngêi sö dông c¸c mÉu, còng
nh c¸c d÷ liÖu vµ c¸c mÉu cã s½n, vµ do ®ã cã thÓ ®îc xem xÐt lµ cã tÝnh chñ
quan.
Mét ®é ®o ®îc gäi lµ ng÷ nghÜa nÕu cÇn ph¶i xem xÐt ng÷ nghÜa vµ gi¶i
thÝch cña mÉu. Bëi v× c¸c ®é ®o ng÷ nghÜa liªn quan ®Õn tri thøc miÒn tõ ngêi
sö dông, ®é ®o ng÷ nghÜa ®îc xem xÐt nh mét lo¹i ®é ®o chñ quan ®Æc biÖt.
TÝnh tiÖn Ých vµ tÝnh hµnh ®éng phô thuéc vµo ng÷ nghÜa cña d÷ liÖu, vµ do ®ã
cã thÓ ®îc xem xÐt lµ ®é ®o ng÷ nghÜa. Mét chøc n¨ng tiÖn Ých ®¹i diÖn ng÷
nghÜa môc tiªu cña ngêi dïng cÇn ®îc bæ sung vµ lµm tèi u hãa kÕt qu¶ khai
ph¸ mÉu. VÝ dô, mét hÖ thèng khai ph¸ luËt kÕt hîp híng tíi ngêi sö dông lµ
qu¶n lý cöa hµng nªn cã chøc n¨ng thÓ hiÖn ng÷ nghÜa ®¶m b¶o luËt kÕt hîp cã
liªn quan ®Õn mÆt hµng cã lîi nhuËn cao h¬n ®îc u tiªn h¬n nh÷ng luËt cã ý
nghÜa thèng kª cao h¬n.
Tån t¹i ba ph¬ng ph¸p ®îc dïng ®Ó ¸c ®Þnh mét mÉu lµ mÉu lµ tri thøc
hay kh«ng dùa trªn c¸c tiªu chÝ ®· cã. Thø nhÊt, tiÕn hµnh ph©n lo¹i mÉu lµ hÊp
dÉn hay kh«ng, ch¼ng h¹n, sö dông kiÓm thö thèng kª khi-b×nh ph¬ng ®Ó ph©n
biÖt gi÷a c¸c mÉu hÊp dÉn vµ kh«ng hÊp dÉn. Thø hai, x¸c ®Þnh mét mèi quan hÖ
u tiªn gi÷a c¸c mÉu ®Ó m« t¶ r»ng mét mÉu lµ hÊp dÉn h¬n c¸c mÉu kh¸c. Thø
ba, xÕp h¹ng c¸c mÉu khai ph¸ ®îc. §èi víi hai ph¬ng ph¸p thø nhÊt hoÆc thø
ba, cã thÓ x¸c ®Þnh vµ sö dông mét ®é ®o hÊp dÉn dùa trªn chÝn tiªu chÝ nãi trªn.
C¸c ®é ®o hÊp dÉn rÊt phong phó vµ phÇn lín c¸c ®é ®o kh¸ch quan dùa
trªn c¬ së ®é ®o thèng kª, ch¼ng h¹n, H×nh 2.15 tr×nh bµy mét tËp c¸c ®é ®o
kh¸ch quan dùa trªn thèng kª. Mçi mét dßng trong H×nh 2.15 t¬ng øng víi mét
®é ®o, bao gåm tªn ®é ®o vµ c«ng thøc tÝnh to¸n .
Nh ®· giíi thiÖu, ®o lêng tÝnh hÊp dÉn cña mÉu, cô thÓ lµ nghiªn cøu vÒ
®é ®o hÊp dÉn lµ néi dung nghiªn cøu n¨ng ®éng vµ quan träng. Mét sè tµi liÖu
nh giíi thiÖu sau ®©y cã thÓ cung cÊp nÒn t¶ng tèt cho híng nghiªn cøu nµy.
Liqiang Geng vµ Howard J. Hamilton [GH06] cung cÊp mét khung nh×n
võa kh¸i qu¸t võa chuyªn sau vÒ ®é ®o hÊp dÉn trong ph¸t hiÖn tri thøc. Mét sè
néi dung chÝnh trong nghiªn cøu cña hai t¸c gi¶ ®· ®îc giíi thiÖu ë trªn. Yao
Y.Y. vµ céng sù còng cã nhiÒu nghiªn cøu vÒ ®é ®o hÊp dÉn, trong ®ã nh÷ng
ph©n tÝch cña Yao Y.Y. [Yao03] cho c¸ch tiÕp cËn tèt khi nghiªn cøu vÒ ®é ®o
hÊp dÉn. Xuan-Hiep Huynh vµ céng sù [HGEK07] tr×nh bµy 36 ®é ®o hÊp dÉn
®îc kh¶o s¸t ®Ó ®¸nh gi¸ dùa trªn ®å thÞ (ph¸t triÓn c¸c kÕt qu¶ nghiªn cøu tõ
luËn ¸n TS cña Xuan-Hiep Huynh. Trong [HZ10], M..J. Heravi vµ O. R. Zaïane
ph©n tÝch vÒ 53 ®é ®o hÊp dÉn kh¸ch quan. Yuejin Zhang vµ céng sù [ZZNS09]
tr×nh bµy mét sè ph©n tÝch vÒ 12 ®é ®o hÊp dÉn (8 ®é ®o kh¸ch quan vµ 4 ®é ®o
chñ quan) t¬ng øng víi 9 tiªu chÝ môc tiªu cña ®é ®o hÊp dÉn.
Trong bµi to¸n ph©n líp d÷ liÖu (Ch¬ng 6), hai bé ®é ®o ®iÓn h×nh nhÊt lµ
(i) bé ®é ®o gåm ®é chÝnh x¸c (precision measure), ®é håi tëng (recall
measure) vµ kÕt hîp cña chóng (F mµ ®iÓn h×nh nhÊt lµ ®é ®o F1); (ii) Bé ®é ®o
gåm ®é chÝnh x¸c (accurary measure) vµ møc ®é lçi (error rate). §èi víi c¸c bé
d÷ liÖu "kh«ng c©n ®èi" (lùc lîng phÇn tö cña c¸c líp lµ qu¸ lÖch nhau), nhiÒu
nhµ nghiªn cøu (ch¼ng h¹n nh [NEM09]) cho r»ng bé ®é ®o (®é chÝnh x¸c, ®é
håi tëng) mµ ®¹i diÖn lµ ®é ®o F cã hiÖu lùc cao h¬n cÆp ®é ®o (®é chÝnh x¸c,
hÖ sè lçi).
C©u hái vµ Bµi tËp
2.1. §Çu t CNTT cÇn híng tíi c¸c tiªu chÝ g× qua néi dung cña NghÞch lý hiÖu
qu¶ cña CNTT, luËn ®iÓm cña Carr vµ bµn luËn liªn quan cña céng ®ång.
2.2. Ph©n tÝch vai trß vµ kü n¨ng chÝnh cña ngêi gi¸m ®èc th«ng tin (CIO) trong
tæ chøc.
2.3. Kh¸i niÖm kinh tÕ tri thøc, bèn cét trô cña kinh tÕ tri thøc vµ vai trß cña
CNTT ®èi víi bèn cét trô nµy.
2.4. Bèn d¹ng siªu tri thøc (meta-knowledge).
105 106
2.5. Ma trËn chuyÓn hãa tri thøc SECI (Socialization – X· héi hãa,
Externalization – Ngo¹i hiÖn, Combination - KÕt hîp, Internalization - TiÕp
thu).
2.6. Nh÷ng néi dung chÝnh trong khung nh×n tri thøc doanh nghiÖp.
2.7. Vßng ®êi cña tri thøc doanh nghiÖp.
2.8. Kh¸i niÖm vµ c¸c thµnh phÇn chÝnh cña c«ng nghÖ tri thøc.
2.9. Tr×nh bµy c¸c néi dung chÝnh vÒ xu thÕ ph¸t triÓn c¸c m« h×nh ph¸t hiÖn tri
thøc tõ d÷ liÖu. Liªn hÖ víi vai trß chiÕn lîc cña CNTT.
2.10. M« h×nh khai ph¸ d÷ liÖu theo chuÈn c«ng nghiÖp CRISP-DM.
2.11. M« h×nh qu¸ tr×nh khai ph¸ d÷ liÖu híng miÒn øng dông theo [CYZZ10].
2.12. Nh÷ng ®iÓm cÇn lu ý khi ®Æt bµi to¸n khai ph¸ d÷ liÖu.
2.13. Kh¸i niÖm vµ c¸c tÝnh chÊt nªn cã cña mét ®é ®o hÊp dÉn trong khai ph¸ d÷
liÖu.
107 108
Ch¬ng 3. ChuÈn bÞ d÷ liÖu
3.1. Giíi thiÖu
Trong qu¸ tr×nh khai ph¸ d÷ liÖu, viÖc hiÓu ®îc ®Æc tÝnh cña d÷ liÖu gióp
cho qu¸ tr×nh ph©n tÝch d÷ liÖu trë nªn hiÖu qu¶ h¬n rÊt nhiÒu. Kh¸i niÖm hiÓu
d÷ liÖu ë ®©y liªn quan chÆt chÏ tíi kh¸i niÖm chÊt lîng cña d÷ liÖu. Trong thùc
tÕ khi x©y dùng kho d÷ liÖu chuÈn bÞ cho bíc khai ph¸ d÷ liÖu, kh¶ n¨ng d÷ liÖu
cã thÓ bÞ nhiÔu, kh«ng ®Çy ®ñ, vµ kh«ng nhÊt qu¸n. §©y lµ nh÷ng vÊn ®Ò rÊt hay
x¶y ra trong nh÷ng n¬i cã tr÷ lîng d÷ liÖu lín:
Trêng hîp d÷ liÖu kh«ng ®Çy ®ñ cã thÓ cã nhiÒu lý do c¶ kh¸ch
quan lÉn chñ quan. Ch¼ng h¹n nh rÊt nhiÒu th«ng tin cÇn quan
t©m vÒ kh¸ch mua hµng ta kh«ng thÓ dÔ dµng lÊy ®îc (v× rÊt
nhiÒu ngêi coi ®ã lµ th«ng tin riªng t). HoÆc mét sè th«ng tin t¹i
thêi ®iÓm thu thËp ta kh«ng nghÜ nã quan träng nªn kh«ng lÊy.
HoÆc d÷ liÖu kh«ng thÓ thu thËp ®îc do lçi thiÕt bÞ.
D÷ liÖu bÞ nhiÔu còng do nhiÒu nguyªn nh©n, ch¼ng h¹n nh lçi
thiÕt bÞ thu nhËn hoÆc truyÒn dÉn; khi nhËp d÷ liÖu ngêi nhËp cã
thÓ nhËp sai;
D÷ liÖu kh«ng nhÊt qu¸n cã thÓ ph¸t sinh tõ viÖc kh«ng sö dông
chung mét chuÈn quy íc khi nhËp d÷ liÖu, hoÆc ®Þnh d¹ng d÷ liÖu
lµ kh¸c nhau (vÝ dô nh ®Þnh d¹ng ngµy th¸ng cã rÊt nhiÒu lo¹i).
V× lý do nµy mµ ta cÇn cã bíc chuÈn bÞ d÷ liÖu nh»m ®¶m b¶o d÷ liÖu ®Çu
vµo cho c¸c thuËt to¸n khai ph¸ lµ chuÈn vµ chÝnh x¸c, v× chÊt lîng cña d÷ liÖu
cã ¶nh hëng rÊt lín ®Õn kÕt qu¶ khai ph¸. Trong ch¬ng nµy sÏ tr×nh bµy c¸c
ph¬ng ph¸p chuÈn bÞ d÷ liÖu th«ng dông hay ®îc dïng trong thùc tÕ lµ lµm
s¹ch d÷ liÖu, tÝch hîp d÷ liÖu, chuyÓn ®æi d÷ liÖu vµ lµm gi¶m d÷ liÖu.
3.2. HiÓu d÷ liÖu
§Ó khai ph¸ d÷ liÖu thµnh c«ng, tríc khi thùc hiÖn c¸c ph¬ng ph¸p khai
ph¸ ta cÇn ph¶i cã c¸i nh×n tæng qu¸t vÒ d÷ liÖu, trªn c¬ së ®ã ta cã thÓ ph¸t hiÖn
ra c¸c ®Æc tÝnh cña d÷ liÖu, còng nh ph¸t hiÖn ra ®©u lµ d÷ liÖu nhiÔu hay d÷
liÖu ngo¹i lai. Quan träng h¬n ta cã thÓ t×m ra ®îc ph¬ng ph¸p tiÒn xö lý vµ
khai ph¸ d÷ liÖu nµo lµ phï hîp víi tËp d÷ liÖu ta ®ang xÐt. Mét trong nh÷ng tÝnh
chÊt cña d÷ liÖu ta cÇn quan t©m lµ xu híng tËp trung vµ ph©n t¸n cña d÷ liÖu.
§é tËp trung cña d÷ liÖu cã thÓ ®o ®îc b»ng c¸c ®é ®o: trung b×nh (mean),
trung vÞ (median), mode vµ midrange. §é ph©n t¸n cña d÷ liÖu cã thÓ ®o ®îc
th«ng qua c¸c ®é ®o quartile, interquartile range vµ variance. Nh÷ng ®é ®o trªn
®îc gäi lµ nh÷ng th«ng tin tãm t¾t vÒ d÷ liÖu. Ta cã thÓ hiÓn thÞ d÷ liÖu tãm t¾t
trªn ®Ó cã ®îc c¸i nh×n trùc quan vÒ ®Æc tÝnh cña d÷ liÖu.
3.2.1. §o ®é tËp trung cña d÷ liÖu
§é ®o trung b×nh: ®©y lµ ®é ®o phæ dông nhÊt, nã ®¹i diÖn cho träng t©m
cña d÷ liÖu. Gäi x1, x2, ... , xN lµ N phÇn tö d÷ liÖu cho mét thuéc tÝnh nµo ®ã,
ch¼ng h¹n thuéc tÝnh gi¸ (price), khi ®ã gi¸ trÞ trung b×nh cña tËp d÷ liÖu trªn lµ:
N
xxx
N
x
x N
N
ii
...211 (3.1)
§é ®o nµy còng ®· ®îc tÝch hîp vµo nhiÒu hÖ qu¶n trÞ c¬ së d÷ liÖu, nã
chÝnh lµ hµm avg() trong ng«n ng÷ SQL. Trong mét sè trêng hîp mçi phÇn tö
d÷ liÖu cã träng sè wi kh¸c nhau, ta cã c«ng thøc t¬ng øng cho gi¸ trÞ trung
b×nh nh sau:
109 110
N
NNN
ii
N
iii
www
xwwxxw
w
xw
x
..
...
21
2211
1
1 (3.2)
Khi d÷ liÖu cã nhiÒu gi¸ trÞ bÊt thêng, ch¼ng h¹n nh cã mét vµi phÇn tö
cã gi¸ trÞ cao vît lªn th× gi¸ trÞ trung b×nh sÏ bÞ ¶nh hëng. §Ó kh¾c phôc ®iÒu
nµy, mét trong nh÷ng gi¶i ph¸p ®¬n gi¶n lµ sö dông ®é ®o trung b×nh cã c¾t xÐn
(trimmed mean). Cô thÓ ta s¾p xÕp d÷ liÖu theo chiÒu t¨ng, sau ®ã lo¹i bá ®i mét
sè gi¸ trÞ cao nhÊt vµ thÊp nhÊt (vÝ dô lo¹i bá 2%). Gi¸ trÞ cßn l¹i ®îc dïng ®Ó
tÝnh gi¸ trÞ trung b×nh.
§é ®o trung vÞ: Khi d÷ liÖu cã ph©n bè lÖch th× ®é ®o trung b×nh còng
kh«ng phï hîp, ta cã thÓ sö dông ®é ®o trung vÞ. Gi¶ sö ta cã N gi¸ trÞ kh¸c nhau
®îc s¾p xÕp theo thø tù t¨ng dÇn, khi ®ã trung vÞ cña tËp d÷ liÖu nµy lµ phÇn tö
ë gi÷a (nÕu N lÎ), vµ b»ng trung b×nh cña 2 phÇn tö ë gi÷a (nÕu N ch½n). Trong
trêng hîp tæng qu¸t th× c¸ch tÝnh trªn kh«ng cßn ®óng n÷a, ta cã thÓ tÝnh xÊp xØ
trung vÞ nh sau. Ta nhãm d÷ liÖu vµo c¸c nhãm t¬ng øng víi c¸c kho¶ng d÷
liÖu. VÝ dô ta cã thÓ nhãm trêng gi¸ (price) ë trªn vµo c¸c kho¶ng 10 000-20
000, 20 000 -30 000, ... Gäi freqmedian lµ sè lîng (tÇn suÊt) c¸c phÇn tö d÷ liÖu
n»m trong nhãm chøa trung vÞ tÝnh theo c«ng thøc ë trªn; L1 lµ cËn díi cña c¸c
gi¸ trÞ d÷ liÖu; width lµ ®é lín cña nhãm chøa trung vÞ; (∑freq)l lµ tæng sè c¸c
phÇn tö d÷ liÖu cña c¸c nhãm cã gi¸ trÞ nhá h¬n nhãm cha trung vÞ; N lµ tæng
sè lîng c¸c phÇn tö d÷ liÖu, khi ®ã c«ng thøc tÝnh trung vÞ cho c¶ tËp d÷ liÖu lµ:
widthfreq
lfreqNLmedian
median
))(2/
(1
(3.3)
Mode: lµ mét ®é ®o n÷a ®o ®é tËp trung cña d÷ liÖu, nã lµ tËp con d÷ liÖu
xuÊt hiÖn víi tÇn suÊt cao nhÊt trong tËp d÷ liÖu. Trong trêng hîp tæng qu¸t, cã
thÓ tån t¹i nhiÒu tËp con d÷ liÖu cïng xuÊt hiÖn víi tÇn suÊt cao nhÊt, khi ®ã ta
nãi d÷ liÖu lµ multimodal. Trêng hîp d÷ liÖu cã 1, 2 hay 3 th× c¸c tªn t¬ng øng
víi nã lµ unimodal, bimodal, vµ trimodal. NÕu tËp d÷ liÖu cã c¸c phÇn tö d÷ liÖu
cã gi¸ trÞ hoµn toµn kh¸c nhau (tÇn suÊt xuÊt hiÖn cña c¸c phÇn tö d÷ liÖu lµ 1)
th× kh«ng tån t¹i mode. Trong trêng hîp d÷ liÖu cã 1 mode, th× ta cã c«ng thøc
tÝnh ®¬n gi¶n nh sau:
mean-mode=3(mean-median)
NÕu d÷ liÖu cã ph©n bè ®èi xøng th× c¸c gi¸ trÞ mean, median vµ mode lµ
trïng nhau, trêng hîp d÷ liÖu cã ph©n bè kh«ng ®èi xøng th× chóng cã c¸c gi¸
trÞ kh¸c nhau nh minh häa trªn h×nh 3.1.
H×nh 3.1 VÞ trÝ cña c¸c gi¸ trÞ mean, median vµ mode
Midrange: ®é ®o nµy còng ®îc dïng ®Ó ®¸nh gi¸ ®é tËp trung cña d÷ liÖu,
nã lµ gi¸ trÞ trung b×nh cña gi¸ trÞ lín nhÊt (hµm max() trong SQL) vµ thÊp nhÊt
(hµm min() trong SQL) trong tËp d÷ liÖu.
3.2.2. §o ®é ph©n t¸n cña d÷ liÖu
Gäi x1, x2, ... , xN lµ N lµ tËp quan s¸t cho mét thuéc tÝnh nµo ®ã ®îc s¾p
xÕp theo thø tù t¨ng dÇn, ch¼ng h¹n thuéc tÝnh gi¸ (price). MiÒn gi¸ trÞ (range)
cña tËp d÷ liÖu nµy lµ [Min, Max], trong ®ã Min lµ gi¸ trÞ nhá nhÊt, vµ Max lµ
gi¸ trÞ lín nhÊt trong tËp d÷ liÖu nµy. PhÇn tö thø k% lµ phÇn tö xi sao cho xi cã
gi¸ trÞ lín h¬n hoÆc b»ng c¸c phÇn tö n»m trong phÇn k% tÝnh tõ ®Çu d·y. Nh
vËy trung vÞ (median) ë phÇn trªn lµ phÇn tö 50%. PhÇn tö hay ®îc dïng h¬n
trung vÞ trong phÇn nµy lµ phÇn tø (quartile), phÇn tø thø nhÊt ký hiÖu lµ Q1 lµ
111 112
phÇn tö 25%, phÇn tø thø 2 (Q2) lµ phÇn tö 50%, phÇn tø thø 3 (Q3) lµ phÇn tö
75%. C¸c gi¸ trÞ nµy thÓ hiÖn trung t©m, ®é bao phñ vµ h×nh d¹ng cña ph©n bè
d÷ liÖu. Kho¶ng c¸ch tõ phÇn tø thø nhÊt ®Õn phÇn tø thø 3 lµ ®é ®o ®¬n gi¶n thÓ
hiÖn sù bao phñ cña d÷ liÖu, hay nã chÝnh lµ miÒn gi¸ trÞ cña phÇn nöa gi÷a cña
d÷ liÖu. Kho¶ng c¸ch nµy ®îc gäi lµ interquartile range (IQR):
IQR = Q3 – Q1
Gi¸ trÞ nµy còng rÊt h÷u Ých ®Ó ph©n tÝch d÷ liÖu cã ph©n bè lÖch. Ngoµi ra
nã cßn cã thÓ dïng ®Ó ph¸t hiÖn ra c¸c phÇn tö ngo¹i lai, phÇn tö ngo¹i lai lµ
phÇn tö cã gi¸ trÞ nhá h¬n 1.5IQR gi¸ trÞ phÇn tø thø nhÊt, hoÆc lín h¬n
1.5IQR gi¸ trÞ phÇn tø thø 3. V× phÇn tø thø 3 cha chøa th«ng tin vÒ d÷ liÖu
n»m ë cuèi d·y nªn trong thùc tÕ, ®Ó m« t¶ d÷ liÖu, ngêi ta t¹o ra bé 5 tãm t¾t
d÷ liÖu (five-number summary) gåm: Min, Q1, Median, Q3, Max. Bé 5 tãm t¾t
nµy ®îc biÓu diÔn b»ng mét boxplot nh h×nh 3.2 m« t¶ ph©n bè cña d÷ liÖu gi¸
b¸n mét mÆt hµng t¹i c¸c chi nh¸nh kh¸c nhau. Trong ®ã phÇn díi cïng lµ Min,
phÇn tiÕp theo (®¸y cña h×nh ch÷ nhËt) lµ Q1, ®o¹n th¼ng n»m trong h×nh ch÷
nhËt lµ Median, c¹nh trªn cña h×nh ch÷ nhËt lµ Q3, vµ cao nhÊt lµ Max.
NÕu ta nhËn thÊy kh«ng cã d÷ liÖu bÊt thêng th× ta gi÷ nguyªn gi¸ trÞ cña
Max vµ Min, ngîc l¹i ta thay gi¸ trÞ cña Max b»ng 1.5IQR+Q3 vµ Min= Q1-
1.5IQR. C¸c ®iÓm d÷ liÖu xuÊt hiÖn ngoµi kho¶ng nµy ®îc coi lµ d÷ liÖu ngo¹i
lai. VÝ dô nh ë chi nh¸nh 1 trªn h×nh 3.2 ta cã 2 phÇn tö ngo¹i lai ë phÝa trªn
gi¸ trÞ Max.
H×nh 3.2 Boxplot cho d÷ liÖu gi¸ b¸n cho c¸c chi nh¸nh
Ph¬ng sai vµ ®é lÖch chuÈn: ph¬ng sai (variance) cña mét tËp d÷ liÖu
gåm N phÇn tö x1, x2, ... , xN lµ:
N
i
N
iii
N
ii x
Nx
Nxx
N 1 1
22
1
22 )(11
)(1
(3.4)
trong ®ã x lµ gi¸ trÞ trung b×nh. §é lÖch chuÈn (standard deviation) chÝnh
lµ c¨n bËc 2 cña ph¬ng sai. §é lÖch chuÈn hay ®îc dïng cïng gi¸ trÞ trung
b×nh khi ®é trung b×nh ®îc lùa chän lµ trung t©m, nã thÓ hiÖn sù bao phñ (®é
113 114
lÖch) cña d÷ liÖu quanh gi¸ trÞ trung b×nh. NÕu d÷ liÖu lµ gièng nhau th× =0,
ngîc l¹i >0. Gi¸ trÞ cña cµng lín th× gi¸ trÞ cña d÷ liÖu cµng kh¸c nhau
nhiÒu.
3.2.3. HiÓn thÞ d÷ liÖu tãm t¾t
Ngoµi c¸c biÓu ®å, ®å thÞ dïng ®Ó hiÓn thÞ d÷ liÖu, ta cßn cã c¸c c¸ch hiÓn
thÞ c¸c th«ng tin tãm t¾t vÒ d÷ liÖu bao gåm: biÓu ®å tÇn suÊt (histogram), q-q
plot, scatter plot vµ loes curve. Boxplot còng lµ mét c¸ch hiÓn thÞ d÷ liÖu tãm t¾t.
VÝ dô vÒ biÓu ®å tÇn suÊt cã thÓ xem ë môc 3.6.2.
§å thÞ quantile plot: lµ mét ph¬ng ph¸p hiÓn thÞ d÷ liÖu ®¬n gi¶n trªn d÷
liÖu mét chiÒu (univariate). Qua h×nh ¶nh hiÓn thÞ ta cã thÓ cã mét c¸i nh×n tæng
thÓ vÒ d÷ liÖu còng nh nh÷ng gi¸ trÞ bÊt thêng trong d÷ liÖu. Gäi xi lµ tËp gi¸
trÞ d÷ liÖu (1 ≤ i ≤ N) ®îc s¾p xÕp theo chiÒu t¨ng dÇn, mçi gi¸ trÞ xi ®îc g¸n
víi gi¸ trÞ phÇn tr¨m fi lµ gi¸ trÞ xÊp xØ víi fi % (tØ lÖ % sè lîng d÷ liÖu nhá h¬n
hoÆc b»ng xi) ®îc ®Ò cËp ë trªn. Gäi lµ fi xÊp xØ v× cã thÓ kh«ng tån t¹i d÷ liÖu
thùc tháa m·n ®iÒu kiÖn trªn vµ gi¸ trÞ cña fi ®îc tÝnh b»ng c«ng thøc sau:
fi=(0.5-i)/N. Nh vËy gi¸ trÞ cña fi =0.25 sÏ t¬ng ®¬ng víi Q1 , fi =0.5 sÏ t¬ng
®¬ng víi Q2, fi =0.75 sÏ t¬ng ®¬ng víi Q3.
Khi biÓu diÔn trªn ®å thÞ, gi¸ trÞ xi sÏ ®îc vÏ t¬ng øng víi fi. Gi¶ sö cã 2
tËp d÷ liÖu vÒ gi¸ b¸n cña mét chi nh¸nh t¹i 2 thêi ®iÓm kh¸c nhau, ®å thÞ
quantile plot sÏ cho chóng ta cã thÓ so s¸nh ®îc ph©n bè d÷ liÖu t¹i 2 thêi ®iÓm
kh¸c nhau. H×nh 3.3 lµ mét ®å thÞ quantile plot vÒ gi¸ tiÒn cña mÆt hµng.
H×nh 3.3 §å thÞ quantile plot cho thuéc tÝnh gi¸ (price)
§å thÞ quantile-quantile plot (q-q plot): ®Ó so s¸nh ph©n bè d÷ liÖu cña 2
chi nh¸nh kh¸c nhau ta cã thÓ sö dông ®å thÞ nµy. Gäi x1, x2, ... , xN lµ N phÇn tö
d÷ liÖu ®· ®îc s¾p xÕp cña chi nh¸nh thø nhÊt; y1, y2, ... , yM lµ M phÇn tö d÷
liÖu ®· ®îc s¾p xÕp cña chi nh¸nh thø 2. NÕu N=M th× ta chØ cÇn vÏ xi t¬ng
øng víi yi. NÕu M<N khi ®ã ta chØ vÏ M ®iÓm (i-0.5)/M cña d÷ liÖu x t¬ng øng
víi y.
H×nh 3.4 minh häa ®å thÞ q-q plot cña d÷ liÖu cho thuéc tÝnh price ë 2 chi
nh¸nh kh¸c nhau. §Ó dÔ so s¸nh ta vÏ thªm ®êng th¼ng ®i qua c¸c ®iÓm cã gi¸
trÞ b»ng nhau trªn 2 trôc sè. §iÓm thÊp nhÊt trong ®å thÞ lµ t¬ng øng víi 0.03
quantile, c¸c « ®îc t« ®Ëm t¬ng øng víi Q1, trung vÞ vµ Q3. Qua ®å thÞ nµy ta
cã thÓ thÊy ngay ®îc gi¸ b¸n t¹i chi nh¸nh 1 thÊp h¬n mét chót so víi chi
nh¸nh 2, nhng t¹i mét sè ®iÓm, ch¼ng h¹n nh ®iÓm cao nhÊt th× chi nh¸nh 1
l¹i cao h¬n chi nh¸nh 2.
115 116
H×nh 3.4 §å thÞ q-q plot so s¸nh 2 chi nh¸nh víi nhau
§å thÞ scatter plot: lµ mét trong nh÷ng c«ng cô ®å häa m¹nh nhÊt, nã cho
phÐp ta cã thÓ kiÓm tra xem liÖu cã mèi quan hÖ, mÉu hay xu híng gi÷a 2
thuéc tÝnh sè. §å thÞ nµy ®¬n gi¶n chØ vÏ lªn mÆt ph¼ng c¸c ®iÓm t¬ng øng víi
gi¸ trÞ cña cÆp thuéc tÝnh trªn (do ®ã cã thÓ nã chØ thÝch hîp khi sè lîng d÷ liÖu
lµ nhá). H×nh 3.5 lµ ®å thÞ scatter plot cña tËp d÷ liÖu vÒ gi¸. §å thÞ nµy cã thÓ
cho ta c¸i nh×n trùc quan vÒ d÷ liÖu, tõ ®ã cã thÓ ph¸t hiÖn ra ®Æc tÝnh cña d÷
liÖu, sù t¬ng quan gi÷a c¸c thuéc tÝnh vµ cã thÓ ph¸t hiÖn ra lu«n c¶ c¸c gi¸ trÞ
ngo¹i lai. Trong h×nh nµy ta kh«ng thÊy sù t¬ng quan nµo gi÷a 2 thuéc tÝnh.
H×nh 3.6 lµ mét ®å thÞ scatter plot kh¸c cho thÊy tån t¹i sù t¬ng quan gi÷a 2
thuéc tÝnh. H×nh bªn tr¸i lµ t¬ng quan d¬ng, h×nh bªn ph¶i lµ t¬ng quan ©m.
Loes curve: lµ ®å thÞ xÊp xØ ph©n bè d÷ liÖu, nã lµ mét c«ng cô quan träng
cung cÊp cho ngêi ph©n tÝch vÒ mèi quan hÖ gi÷a 2 thuéc tÝnh. Tõ loes lµ viÕt
t¾t cña tõ håi quy côc bé (local regression). H×nh 3.7 minh häa ®å thÞ loes curve
cho tËp d÷ liÖu ®îc vÏ ë h×nh 3.5.
H×nh 3.5 §å thÞ scatter plot cho thuéc tÝnh gi¸
H×nh 3.6 §å thÞ scatter cã tån t¹i sù t¬ng quan gi÷a 2 thuéc tÝnh
3.3. TiÒn xö lý d÷ liÖu
Cã nhiÒu c¸ch tiÒn xö lý d÷ liÖu kh¸c nhau nh»m môc tiªu t¨ng chÊt lîng
d÷ liÖu vµ tõ ®ã cã thÓ lµm t¨ng hiÖu qu¶ cña c¸c kü thuËt khai ph¸ d÷ liÖu. Mçi
mét kü thuËt cô thÓ sÏ gióp c¶i thiÖn chÊt lîng d÷ liÖu theo híng nhÊt ®Þnh vµ
hiÖu qu¶ cña nã phô thuéc rÊt nhiÒu vµo ®Æc trng cña d÷ liÖu. Mét sè kü thuËt
tiÒn xö lý d÷ liÖu thêng ®îc ¸p dông bao gåm:
117 118
H×nh 3.7 §å thÞ loes curve biÓu diÔn quan hÖ gi÷a 2 thuéc tÝnh
Kü thuËt lµm s¹ch d÷ (data cleaning) liÖu thêng ®îc sö dông ®Ó thªm
nh÷ng gi¸ trÞ bÞ thiÕu, lo¹i bá nhiÔu, x¸c ®Þnh vµ lo¹i bá c¸c gi¸ trÞ ngo¹i lai
vµ gi¶i quyÕt vÊn ®Ò kh«ng nhÊt qu¸n cña d÷ liÖu. HiÓn nhiªn ta sÏ kh«ng
thÓ tin tëng vµo kÕt qu¶ thu ®îc tõ bÊt kú thuËt to¸n khai ph¸ d÷ liÖu nµo
nÕu ta biÕt ch¾c r»ng d÷ liÖu cßn cha ®îc lµm s¹ch vµ cã chÊt lîng tèt.
Mét sè kü thuËt khai ph¸ d÷ liÖu ®· tÝch hîp s½n c¸c m« ®un ®Ó lo¹i bá
nhiÔu vµ xö lý d÷ liÖu thiÕu, tuy nhiªn phÇn lín chóng ho¹t ®éng kh«ng thùc
sù hiÖu qu¶. V× vËy thay v× tËp trung vµo viÖc lµm s¹ch d÷ liÖu c¸c thuËt
to¸n khai ph¸ d÷ liÖu cã thÓ tËp trung vµo viÖc x©y dùng c¸c m« h×nh hiÖu
qu¶ h¬n. NhiÖm vô lµm s¹ch d÷ liÖu sÏ ®îc thùc hiÖn trong qu¸ tr×nh tiÒn
xö lý d÷ liÖu tríc khi sö dông bÊt kú thuËt to¸n khai ph¸ d÷ liÖu nµo (xem
phÇn 3.4).
Kü thuËt tÝch hîp d÷ liÖu (data integration): cho phÐp trén (l¾p ghÐp/
tÝch hîp) d÷ liÖu tõ nhiÒu nguån kh¸c nhau vÒ mét kho chøa ®ång nhÊt vµ cã
tÝnh g¾n kÕt chÆt chÏ phôc vô cho qu¸ tr×nh khai ph¸ d÷ liÖu tiÕp theo. Nh
chóng ta ®· biÕt, c¸c nguån d÷ liÖu kh¸c nhau th× tæ chøc vµ ®Þnh nghÜa d÷
liÖu hoµn toµn cã thÓ kh¸c nhau. VÝ dô: ®Ó chØ cïng mét thuéc tÝnh tªn
ngêi cã nguån ®Þnh nghÜa lµ Name, nguån kh¸c ®Æt lµ TEN, hoÆc chia ra lµ
TEN, HO vµ DEM. Ngay c¶ trong miÒn gi¸ trÞ cña tõng thuéc tÝnh còng cã
thÓ ®îc ®Þnh nghÜa kh¸c nhau, vÝ dô nh thuéc tÝnh TUOI = {(0...3), (4-
18), (19-39), (40,59), (60, …)} t¬ng ®¬ng víi {“s¬ sinh”, “trÎ em”,
“thanh niªn”, “trung niªn”, “ngêi giµ”}. Qu¸ tr×nh khai ph¸ tri thøc sÏ
kh«ng thÓ thùc hiÖn, thùc hiÖn chËm hoÆc thùc hiÖn kh«ng chÝnh x¸c khi d÷
liÖu cã cµng nhiÒu d÷ liÖu d thõa. HiÓn nhiªn ta thÊy trong khi tÝch hîp d÷
liÖu c¸c kü thuËt lµm s¹ch d÷ liÖu ph¶i ®¬c ¸p dông nh»m tr¸nh sù d thõa
d÷ liÖu. Kh«ng nh÷ng thÕ c¸c kü thuËt lµm s¹ch cßn ®îc ¸p dông ®Ó ph¸t
hiÖn vµ lo¹i bá c¸c d÷ liÖu d thõa sau khi tÝch hîp d÷ liÖu tõ nhiÒu nguån
kh¸c nhau.
Thu gän (lµm gi¶m) d÷ liÖu (data reduction) nh»m gi¶m kÝch cì cña d÷
liÖu nhiÒu nhÊt cã thÓ mµ kh«ng lµm ¶nh hëng (hoÆc ¶nh hëng ë møc
chÊp nhËn ®îc) tíi kÕt qu¶ ph©n tÝch. ViÖc thu gän d÷ liÖu thêng x¶y ra
trong trêng hîp d÷ liÖu qu¸ lín tíi møc lµm gi¶m hiÖu n¨ng cña c¸c kü
thuËt khai ph¸ d÷ liÖu nh thêi gian ch¹y qu¸ l©u hoÆc kh«ng ®ñ bé nhí ®Ó
thùc hiÖn… Cã hai chiÕn lîc thu gän d÷ liÖu lµ gi¶m chiÒu d÷ liÖu
(dimensionality reduction) vµ gi¶m sè lîng d÷ liÖu (numerosity reduction).
Kü thuËt chuyÓn d¹ng d÷ liÖu (data transformation) cã thÓ øng dông víi
d÷ liÖu cã ph©n bæ kh«ng phï hîp víi c¸c thuËt to¸n ph©n tÝch d÷ liÖu dùa
trªn kho¶ng c¸ch nh m¹ng n¬ ron, ph©n líp K-l¸ng riÒng gÇn nhÊt,…. Víi
nh÷ng kü thuËt khai ph¸ d÷ liÖu nµy, th«ng thêng d÷ liÖu cÇn ®îc chuÈn
hãa vÒ cïng mét miÒn d÷ liÖu th× c¸c ®é ®o kho¶ng c¸ch míi ®îc ¸p dông
mét c¸ch hiÖu qu¶. Ph¬ng ph¸p rêi r¹c hãa (discretization) vµ t¹o c©y ph©n
cÊp kh¸i niÖm (concept hierarchy generation) d÷ liÖu còng lµ nh÷ng kü thuËt
rÊt hiÖu qu¶ trong viÖc chuyÓn d¹ng d÷ liÖu. VÝ dô thay v× biÓu diÔn tuæi
b»ng c¸c con sè, ta cã thÓ biÓu diÔn b»ng tËp hîp c¸c tõ “trÎ em”, “thanh
niªn”, “trung niªn” vµ “ngêi giµ”.
Nh÷ng kü thuËt vµ nhãm kü thuËt trªn ®©y cã thÓ ®îc ¸p dông ®ång thêi
víi nhau ®Ó t¨ng hiÖu qu¶ sö dông vµ chóng hoµn toµn kh«ng lo¹i trõ lÉn nhau.
H×nh vÏ 3.8 tæng kÕt c¸c kü thuËt tiÒn xö lý d÷ liÖu ®îc tr×nh bµy ë trªn.
119 120
Nãi chung, d÷ liÖu thùc tÕ thêng chøa nhiÒu nhiÔu, kh«ng ®Çy ®ñ vµ
kh«ng nhÊt qu¸n. TiÒn xö lý d÷ liÖu gióp tang chÊt lîng cña d÷ liÖu, tõ ®ã cã
thÓ c¶i tiÕn ®îc ®é chÝnh x¸c vµ hiÖu qu¶ cña c¸c qu¸ tr×nh khai ph¸ d÷ liÖu ë
c¸c bíc tiÕp theo. TiÒn xö lý d÷ liÖu lµ mét trong nh÷ng bíc rÊt quan träng
trong qu¸ tr×nh khai ph¸ tri thøc bëi tÝnh ®óng ®¾n cña c¸c quyÕt ®Þnh phô thuéc
rÊt nhiÒu vµo chÊt lîng cña d÷ liÖu. Ph¸t hiÖn ra sù bÊt thêng vµ söa ch÷a sím
d÷ liÖu còng nh gi¶m d÷ liÖu ph©n tÝch cã thÓ thu ®îc lîi Ých v« cïng lín
trong qu¸ tr×nh xö lý tri thøc ®Ó ®a ra quyÕt ®Þnh.
3.4. Lµm s¹ch d÷ liÖu
Nh tr×nh bµy ë môc 3.1, d÷ liÖu thêng kh«ng ®Çy ®ñ, chøa nhiÒu gi¸ trÞ
nhiÔu vµ kh«ng æn ®Þnh. Kü thuËt nµy t×m c¸ch tÝnh to¸n c¸c gi¸ trÞ cßn thiÕu,
lo¹i bá vµ lµm mÞn c¸c gi¸ trÞ nhiÔu trong qu¸ tr×nh x¸c ®Þnh ®Æc trng, còng nh
chØnh söa sù nhÊt qu¸n cña d÷ liÖu. ë phÇn nµy chóng t«i chØ tr×nh bµy mét sè
ph¬ng ph¸p c¬ b¶n ®Ó lµm s¹ch d÷ liÖu bao gåm c¸ch kh«i phôc d÷ liÖu bÞ
thiÕu, c¸c kü thuËt lµm mÞn, quy tr×nh lµm s¹ch d÷ liÖu.
H×nh 3.8 – C¸c kü thuËt tiÒn xö lý dữ liÖu
121 122
3.4.1. C¸c gi¸ trÞ bÞ thiÕu
Trong trêng hîp d÷ liÖu cã rÊt nhiÒu b¶n ghi cã c¸c thuéc tÝnh kh«ng cã
d÷ liÖu. LiÖu cã c¸ch nµo ®Ó lÊp ®Çy nh÷ng vÞ trÝ thiÕu d÷ liÖu nh vËy kh«ng?
Cã mét sè ph¬ng ph¸p nh sau:
1. Bá qua nh÷ng b¶n ghi thiÕu d÷ liÖu: kü thuËt nµy thêng ®îc ¸p dông khi
thuéc tÝnh nh·n bÞ thiÕu (trong trêng hîp ph©n líp). C¸ch thøc nµy thêng
kh«ng hiÖu qu¶, trõ trêng hîp b¶n ghi cã nhiÒu thuéc tÝnh thiÕu gi¸ trÞ. Kü
thuËt nµy ®Æc biÖt tåi trong trêng hîp sè lîng b¶n ghi cã c¸c thuéc tÝnh
kh«ng cã gi¸ trÞ chiÕm mét sè lîng ®¸ng kÓ so víi c¸c b¶n ghi ®Çy ®ñ.
Trong mét sè trêng hîp th× d÷ liÖu trong c¸c b¶n ghi kh«ng ®Çy ®ñ l¹i cã
thÓ cã mét ý nghÜa nµo ®ã trong qu¸ tr×nh ph©n tÝch d÷ liÖu.
2. X¸c ®Þnh c¸c gi¸ trÞ cßn thiÕu mét c¸ch thñ c«ng: nãi chung ®©y lµ mét kü
thuËt tèn kÐm vÒ mÆt thêi gian vµ nã thùc sù kh«ng kh¶ thi trong trêng hîp
d÷ liÖu lín víi nhiÒu gi¸ trÞ bÞ thiÕu.
3. Sö dông h»ng sè toµn côc: thay thÕ toµn bé c¸c gi¸ trÞ cßn thiÕu b»ng mét
h»ng sè ®îc ®Þnh nghÜa tríc. Ph¬ng ph¸p nµy thùc hiÖn kh¸ ®¬n gi¶n
tuy nhiªn hiÖu qu¶ cña nã kh«ng ®îc chøng minh mét c¸ch râ rµng.
4. Sö dông c¸c ®é ®o híng träng t©m cña d÷ liÖu (vÝ dô nh tÝnh trung b×nh
céng hoÆc tÝnh trung vÞ,…). Víi c¸c d÷ liÖu ®èi xøng th«ng thêng ¸p dông
kü thuËt tÝnh trung b×nh, cßn víi d÷ liÖu kh«ng ®èi xøng th× tÝnh trung vÞ
phï hîp h¬n.
5. Sö dông gi¸ trÞ b×nh qu©n hay trung vÞ cña mét thuéc tÝnh cho tÊt c¶ c¸c gi¸
trÞ cña cïng mét líp.
6. Sö dông gi¸ trÞ cã kh¶ n¨ng cao nhÊt ®Ó thay thÕ cho gi¸ trÞ thiÕu: ®iÒu nµy
cã thÓ x¸c ®Þnh ®îc th«ng qua kü thuËt håi quy hoÆc, sö dông c¸c c«ng cô
suy diÔn dùa trªn lý thuyÕt Bayes hay quy n¹p dùa trªn c©y quyÕt ®Þnh.
C¸c ph¬ng ph¸p tõ 3 ®Õn 6 cã thÓ bÞ ¶nh hëng bëi d÷ liÖu, do ®ã gi¸ trÞ
®îc thay thÕ cã thÓ kh«ng chÝnh x¸c. Tuy vËy, kü thuËt sè 6 l¹i ®îc sö dông
kh¸ phæ biÕn. Chóng ta cÇn lu ý, trong nhiÒu trêng hîp, c¸c gi¸ trÞ bÞ thiÕu
kh«ng cã nghÜa lµ d÷ liÖu bÞ lçi. VÝ dô khi chóng ta ®i kh¸m bÖnh, ngêi bÖnh
kh«ng cã thÎ b¶o hiÓm y tÕ sÏ ®îc ®Ó trèng ë môc thÎ BHYT. Nãi chung, mÆc
dï chóng ta cã thÓ sö dông kü thuËt ®Ó lµm s¹ch d÷ liÖu sau khi nhËn ®îc, tuy
nhiªn c¸c kü thuËt thu thËp d÷ liÖu còng cÇn ph¶i ®îc c¶i tiÕn ®Ó gi¶m sè lîng
c¸c gi¸ trÞ bÞ thiÕu còng nh lçi ngay t¹i bíc thu thËp d÷ liÖu ban ®Çu.
3.4.2. D÷ liÖu bÞ nhiÔu
NhiÔu lµ nh÷ng lçi ngÉu nhiªn hoÆc nh÷ng sai lÖch trong c¸c gi¸ trÞ ®o ®¹c
®îc. Cã nhiÒu ph¬ng ph¸p ®· ®îc sö dông ®Ó lo¹i bá nhiÔu, díi ®©y xin giíi
thiÖu mét sè ph¬ng ph¸pth«ng dông.
+ Ph¬ng ph¸p binning: ph¬ng ph¸p nµy sÏ g¸n gi¸ trÞ cho nhãm d÷ liÖu
®· ®îc s¾p xÕp b»ng c¸ch tham kh¶o c¸c gi¸ trÞ l©n cËn. C¸c gi¸ trÞ ®· ®îc s¾p
xÕp ®îc ph©n phèi vµo c¸c nhãm sè t¬ng øng. TiÕp theo ta ¸p dông ph¬ng
ph¸p lµm mÞn phï hîp víi tõng kiÓu d÷ liÖu. H×nh 3.9 m« t¶ mét sè ph¬ng ph¸p
lµm mÞn. Trong vÝ dô nµy ta cã thuéc tÝnh price cã gi¸ trÞ tõ 4 cho ®Õn 34 vµ
®îc ®¸nh gi¸ lµ d÷ liÖu nhiÔu. §Ó khö nhiÔu ta s¾p xÕp danh s¸ch gi¸ trÞ cña
thuéc tÝnh nµy råi chia thµnh 3 nhãm (trong trêng hîp nµy lµ chia sao cho sè
lîng trong mçi nhãm lµ ®Òu nhau), sau ®ã ta g¸n l¹i gi¸ trÞ cho c¸c phÇn tö
trong tõng nhãm c¸c gi¸ trÞ míi. Trêng hîp thø nhÊt c¸c gi¸ trÞ míi nµy lµ gi¸
trÞ trung b×nh, trêng hîp thø 2 lµ g¸n gi¸ trÞ cho c¸c phÇn tö ë gi÷a b»ng gi¸ trÞ
cña phÇn tö ngoµi biªn.
Trêng gi¸ trÞ cña thuéc tÝnh price sau khi s¾p xÕp: 4, 8, 15, 21, 21, 24, 25, 28, 34
Ph©n chia d÷ liÖu trªn thµnh c¸c nhãm (bin) dùa theo sè lîng
4, 8, 15
21, 21, 24
25, 28, 34
Lµm mÞn b»ng gi¸ trÞ trung b×nh cña tõng nhãm
9, 9, 9
22, 22, 22
29, 29, 29
123 124
Lµm mÞn b»ng gi¸ trÞ biªn cña tõng nhãm
4, 4, 15
21, 21, 24
25, 25, 34
H×nh 3.9. Ph¬ng ph¸p lµm mÞn d÷ liÖu Binning
T¬ng tù, ta cã thÓ ¸p dông ph¬ng ph¸p lµm mÞn dùa trªn gi¸ trÞ trung vÞ.
Trong ph¬ng ph¸p lµm mÞn dùa trªn c¸c gi¸ trÞ biªn, th× gi¸ trÞ lín nhÊt vµ nhá
nhÊt ®îc sö dông. Mçi gi¸ trÞ trong c¸c nhãm sè t¬ng øng sÏ ®îc thay thÕ
b»ng gi¸ trÞ lín nhÊt hay nhá nhÊt t¬ng øng tïy thuéc vµo gi¸ trÞ nµo gÇn nã
h¬n. Ph¬ng ph¸p nµy còng ®îc sö dông nh lµ mét ph¬ng ph¸p rêi r¹c hãa
d÷ liÖu sÏ ®îc tr×nh bµy trong môc 3.7.
+ Ph¬ng ph¸p håi quy (regression): håi quy lµ ph¬ng ph¸p t×m ra mét
hµm sè biÓu diÔn d÷ liÖu, cã nhiÒu ph¬ng ph¸p håi quy. Håi quy tuyÕn tÝnh
(linear regression) lµ ph¬ng ph¸p t×m ra ®êng th¼ng tèt nhÊt biÓu diÔn quan hÖ
gi÷a hai thuéc tÝnh, b»ng c¸ch nµy th× mét thuéc tÝnh cã thÓ suy diÔn ra thuéc
tÝnh cßn l¹i. Håi quy tuyÕn tÝnh ®a trÞ (multiple linear regression) lµ trêng hîp
më réng cña håi quy tuyÕn tÝnh trong ®ã cã nhiÒu h¬n hai thuéc tÝnh tham gia vµ
d÷ liÖu ®îc biÓu diÔn trªn kh«ng gia ®a chiÒu.
H×nh 3.10 VÝ dô vÒ ph©n côm vµ gi¸ trÞ ngo¹i lai
+ Ph¬ng ph¸p ph©n tÝch ngo¹i lai (outlier analysis): c¸c gi¸ trÞ ngo¹i lai cã
thÓ ®îc ph¸t hiÖn th«ng qua ph¬ng ph¸p ph©n côm (clustering), c¸c gi¸ trÞ
t¬ng ®ång víi nhau sÏ ®îc gom l¹i thµnh c¸c nhãm cã cïng tÝnh chÊt. Mét
c¸ch trùc quan, ta cã thÓ nhËn thÊy c¸c gi¸ trÞ n»m ngoµi c¸c côm cã thÓ ®îc
coi lµ c¸c gi¸ trÞ ngo¹i lai nh m« t¶ trªn h×nh 3.10.
3.4.3. Lµm s¹ch d÷ liÖu ph¶i lµ mét quy tr×nh
Gi¸ trÞ bÞ thiÕu, nhiÔu vµ kh«ng nhÊt qu¸n lµm cho d÷ liÖu kh«ng cßn chÝnh
x¸c. Nh ®· tr×nh bµy ë c¸c phÇn tríc, chóng ta ®· t×m kiÕm c¸c ph¬ng ph¸p
®Ó thùc hiÖn viÖc lo¹i bá c¸c gi¸ trÞ bÞ thiÕu vµ lµm mÞn d÷ liÖu.
Cã thÓ dÔ dµng thÊy ®©y lµ mét c«ng viÖc kh«ng hÒ ®¬n gi¶n, cã thÓ coi nã
lµ mét c«ng viÖc rÊt lín t¬ng ®¬ng víi mét quy tr×nh. Bíc ®Çu tiªn trong quy
tr×nh lµm s¹ch d÷ liÖu lµ ph¸t hiÖn ra c¸c bÊt thêng trong d÷ liÖu. Sù bÊt thêng
nµy cã thÓ ®Õn tõ nhiÒu nguån kh¸c nhau nh do thiÕt kÕ mÉu nhËp liÖu víi qu¸
nhiÒu trêng tïy chän, hay do lçi ngêi nhËp liÖu, lçi do cè ý, hay th«ng tin
kh«ng ®îc cËp nhËt. Sù bÊt thêng còng cã thÓ b¾t nguån tõ thÓ hiÖn cña d÷
liÖu kh«ng nhÊt qu¸n hoÆc c¸ch sö dông c¸c ®Þnh d¹ng biÓu diÔn kh¸c nhau.
Mét nguyªn nh©n g©y sù bÊt thêng hay gÆp kh¸c ®ã lµ do háng hãc ngµy trong
thiÕt bÞ thu nhËn d÷ liÖu hoÆc lçi hÖ thèng. Lçi còng cã thÓ gÆp ph¶i khi d÷ liÖu
®îc sö dông sai víi môc ®Ých ban ®Çu. Sù bÊt thêng d÷ liÖu còng cã thÓ ®îc
sinh ra trong qu¸ tr×nh tÝch hîp d÷ liÖu.
C©u hái ®Æt ra lµ lµm thÕ nµo ®Ó thùc hiÖn viÖc ph¸t hiÖn ra sù bÊt thêng
trong d÷ liÖu? Th«ng thêng ta cã thÓ b¾t ®Çu b»ng viÖc sö dông tÊt c¶ nh÷ng tri
thøc s½n cã ®èi víi c¸c tÝnh chÊt cña d÷ liÖu. Nh÷ng hiÓu biÕt nµy cã thÓ ®îc
hiÓu nh lµ siªu d÷ liÖu (metadata) hay b¶n chÊt nã lµ “d÷ liÖu vÒ d÷ liÖu”.
VÝ dô vÒ siªu d÷ liÖu lµ: kiÓu d÷ liÖu vµ miÒn gi¸ trÞ cho tõng thuéc tÝnh;
gi¸ trÞ cã thÓ cho mçi thuéc tÝnh. Sö dông mét sè ph¬ng ph¸p ph©n tÝch thèng
kª ®¬n gi¶n nh t×m trung b×nh, trung vÞ, ®é lÖch chuÈn, … cã thÓ gióp t×m ra xu
híng cña d÷ liÖu vµ x¸c ®Þnh ®îc nh÷ng dÞ thêng trong d÷ liÖu; kiÓm tra xem
d÷ liÖu lµ ®èi xøng hay bÊt ®èi xøng; t×m kho¶ng biÕn thiªn cña c¸c gi¸ trÞ; t×m
125 126
®é lÖch chuÈn cña mçi thuéc tÝnh; t×m sù phô thuéc gi÷a hai thuéc tÝnh bÊt kú…
Trong bíc nµy, ta cã thÓ tù viÕt ch¬ng tr×nh hoÆc sö dông c¸c c«ng cô cã s½n
®Ó thùc hiÖn. Tõ ®ã ta cã thÓ ph¸t hiÖn ra nhiÔu, sù bÊt thêng, c¸c gi¸ trÞ kh«ng
b×nh thêng cÇn ®îc nghiªn cøu.
Lµ ngêi ph©n tÝch d÷ liÖu, ta cÇn ph©n tÝch t×m hiÓu mäi sù m©u thuÉn
trong viÖc sö dông chuÈn hoÆc ®Þnh d¹ng d÷ liÖu. VÝ dô nh thuéc tÝnh thêi gian
cã thÓ ®îc biÓu diÔn b»ng c¸c chuÈn kh¸c nhau nh n¨m tríc, th¸ng råi míi
®Õn ngµy, cã chuÈn l¹i biÓu diÔn ngµy tríc. HoÆc cïng mét chuÈn l¹i ®îc biÓu
diÔn b»ng nhiÒu ®Þnh d¹ng kh¸c nhau nh “YYYY/MM/DD” vµ “YY/MM/DD”.
D÷ liÖu còng nªn ®îc kiÓm tra dùa trªn mét sè luËt bao gåm quy t¾c duy
nhÊt, liªn tôc vµ quy t¾c NULL. Quy t¾c duy nhÊt ph¸t biÓu nh sau: mçi gi¸ trÞ
cña mét thuéc tÝnh bÊt kú ph¶i kh¸c víi tÊt c¶ c¸c gi¸ trÞ cßn l¹i cña thuéc tÝnh
®ã vÝ dô nh sè chøng minh th. Do ®ã ta cã thÓ ph¸t hiÖn ra d÷ liÖu lçi nÕu cã 2
b¶n ghi cã cïng gi¸ trÞ cho thuéc tÝnh nµy. Quy t¾c liªn tôc kh«ng cã gi¸ trÞ nµo
bÞ mÊt gi÷a gi¸ trÞ lín nhÊt vµ nhá nhÊt trong cïng mét thuéc tÝnh, vµ c¸c gi¸ trÞ
nµy lµ duy nhÊt (vÝ dô nh sè thÎ sinh viªn). Quy t¾c NULL chØ râ c¸ch sö dông
cña c¸c ký tù trèng, dÊu hái (?), ký tù ®Æc biÖt hoÆc bÊt kú ký hiÖu nµo kh¸c
®îc dïng ®Ó thÓ hiÖn tr¹ng th¸i kh«ng cã d÷ liÖu vµ c¸ch sö dông gi¸ trÞ nµy.
Nh ®· tr×nh bµy ë phÇn tríc, c¸c gi¸ trÞ bÞ thiÕu cã thÓ bao gåm (1) ngêi
®îc hái c¸c gi¸ trÞ nµy tõ chèi cung cÊp hoÆc kh«ng cã th«ng tin ®Ó cung cÊp
(vÝ dô nh ngêi kh«ng cã hé chiÕu sÏ kh«ng thÓ ®iÒn sè hé chiÕu vµ ngµy cÊp),
(2) ngêi nhËp liÖu kh«ng biÕt gi¸ trÞ chÝnh x¸c cña d÷ liÖu, hoÆc (3) d÷ liÖu sÏ
®îc cung cÊp sau. Quy t¾c NULL sÏ chØ ra c¸ch thøc lu d÷ liÖu trong trêng
hîp kh«ng cã d÷ liÖu.
Ngoµi ra ta cßn cã rÊt nhiÒu c«ng cô cã thÓ sö dông hç trî cho viÖc ph¸t
hiÖn sù bÊt thêng trong d÷ liÖu (®éc gi¶ cã thÓ tham kh¶o c¸c c«ng cô nµy ë
môc 2.3 trong tµi liÖu [Han06]).
Mét sè trêng hîp d÷ liÖu kh«ng nhÊt qu¸n cã thÓ ®îc söa ch÷a thñ c«ng
b»ng viÖc sö dông c¸c tham kh¶o tõ d÷ liÖu gèc. VÝ dô nh lçi nhËp liÖu cã thÓ
®îc söa b»ng c¸ch tham kh¶o l¹i v¨n b¶n gèc. PhÇn lín c¸c lçi thêng sÏ yªu
cÇu chuyÓn d¹ng d÷ liÖu. §iÒu nµy cã nghÜa lµ khi ta ph¸t hiÖn ra sù bÊt thêng
cña d÷ liÖu, th«ng thêng ta sÏ ph¶i ®Þnh nghÜa vµ sö dông mét hoÆc nhiÒu phÐp
biÕn ®æi ®Ó hiÖu chØnh chóng.
Cã mét quy tr×nh gåm hai bíc: ph¸t hiÖn bÊt thêng vµ chuyÓn ®æi d÷ liÖu
®Ó söa ch÷a bÊt thêng nµy, hai bíc nµy ®îc lÆp ®i lÆp l¹i. Tuy vËy quy tr×nh
nµy kh«ng thÓ tr¸nh ®îc sai sãt vµ tèn kÐm thêi gian. Mét sè phÐp biÕn ®æi cßn
lµm t¨ng sù bÊt thêng cña d÷ liÖu. Mét sè bÊt thêng chØ ®îc ph¸t hiÖn sau khi
®îc söa ch÷a, vÝ dô lçi nhËp d÷ liÖu n¨m nhÇm thµnh “20004” chØ cã thÓ ph¸t
hiÖn ra ®îc khi ta chuyÓn nã vÒ ®Þnh d¹ng ngµy th¸ng. C¸c phÐp biÕn ®æi
thêng ®îc thùc hiÖn thµnh mét d·y c¸c chØ thÞ lÖnh. Ngêi dïng chØ cã thÓ
kiÓm tra kÕt qu¶ thùc hiÖn sau khi c¸c phÐp biÕn ®æi ®îc thùc hiÖn xong. Th«ng
thêng th× c¸c phÐp biÕn ®æi nµy ®îc thùc hiÖn lÆp ®i lÆp l¹i nhiÒu lÇn cho ®Õn
khi tháa m·n yªu cÇu. C¸c bé d÷ liÖu kh«ng thÓ tù ®éng thùc hiÖn ®îc trªn c¸c
phÐp biÕn ®æi sÏ ®îc ghi vµo tÖp mµ kh«ng cã gi¶i thÝch g× vÒ lý do phÐp biÕn
®æi kh«ng thùc hiÖn ®îc. KÕt qu¶ lµ toµn bé quy tr×nh lµm s¹ch d÷ liÖu còng
chÞu thiÖt h¹i do thiÕu c¸c phèi hîp gi÷a c¸c bíc.
C¸c c¸ch tiÕp cËn míi trong viÖc lµm s¹ch d÷ liÖu nhÊn m¹nh vµo viÖc c¶i
thiÖn sù phèi hîp gi÷a hai bíc nµy. VÝ dô: bé c«ng cô Potter’s Wheel.
Mét c¸ch tiÕp cËn kh¸c còng t¨ng sù t¬ng t¸c nµy lµ ph¸t triÓn bé ng«n
ng÷ tËp trung vµo c¸c phÐp biÕn ®æi d÷ liÖu. C«ng viÖc nµy tËp trung chñ yÕu vµo
c¸c ®Þnh nghÜa më réng cña ng«n ng÷ SQL vµ c¸c thuËt to¸n cho phÐp ngêi sö
dông thùc hiÖn ph¬ng ph¸p lµm s¹ch d÷ liÖu hiÖu qu¶ h¬n.
§ång thêi víi viÖc ph¸t hiÖn ra nh÷ng ®Æc tÝnh cña d÷ liÖu, chóng ta còng
ph¶i cËp nhËt nh÷ng ph¸t hiÖn nµy vµo metadata. Nh÷ng th«ng tin bæ sung nµy
sÏ gióp cho qu¸ tr×nh lµm s¹ch d÷ liÖu ngµy cµng hiÖu qu¶ h¬n víi d÷ liÖu ®·
cho.
127 128
3.4. TÝch hîp d÷ liÖu
TÝch hîp d÷ liÖu lµ mét bíc thêng ®îc sö dông trong khai ph¸ d÷ liÖu,
®©y lµ ph¬ng ph¸p hîp nhÊt d÷ liÖu tõ nhiÒu nguån kh¸c nhau vÒ mét n¬i,
th«ng thêng lµ kho d÷ liÖu (data warehouse). ViÖc tÝch hîp d÷ liÖu mét c¸ch
cÈn träng sÏ gióp gi¶m vµ tr¸nh ®îc d thõa còng nh sù kh«ng nhÊt qu¸n cña
d÷ liÖu kÕt qu¶. TÝch hîp d÷ liÖu sÏ gióp c¶i tiÕn hiÖu n¨ng vµ tèc ®é cña qu¸
tr×nh khai ph¸ d÷ liÖu. Cã rÊt nhiÒu vÊn ®Ò cÇn ph¶i gi¶i quyÕt trong qu¸ tr×nh
tÝch hîp d÷ liÖu. Díi ®©y sÏ giíi thiÖu mét sè vÊn ®Ò vµ c¸ch gi¶i quyÕt phæ
biÕn.
3.4.1. NhËn diÖn thùc thÓ
VÊn ®Ò ®Çu tiªn lµ sù kh«ng nhÊt qu¸n vÒ mÆt ng÷ nghÜa vµ cÊu tróc cña d÷
liÖu ®Æt ra nh÷ng th¸ch thøc rÊt lín trong tÝch hîp d÷ liÖu. TÝch hîp lîc ®å vµ
®èi s¸nh c¸c ®èi tîng cã thÓ rÊt phøc t¹p. Lµm thÕ nµo ®Ó cã thÓ so khíp, l¾p
ghÐp ®îc tËp c¸c thùc thÓ tõ nhiÒu nguån d÷ liÖu kh¸c nhau? §©y lµ bµi to¸n
nhËn diÖn thùc thÓ (entity identification). VÝ dô cã 2 nguån d÷ liÖu, lµm thÕ nµo
®Ó x¸c ®Þnh ®îc trêng customner_id trong mét b¶ng cña CSDL thø nhÊt vµ
trêng cus_number trong mét b¶ng cña CSDL thø 2 lµ hai tªn kh¸c nhau cña
cïng mét thuéc tÝnh? §Ó tr¶ lêi ®îc c©u hái nµy ta cã thÓ tham kh¶o c¸c th«ng
tin metadata m« t¶ 2 trêng nµy, bao gåm: tªn trêng, kiÓu d÷ liÖu; ý nghÜa
(môc ®Ých) cña trêng;miÒn gi¸ trÞ cho phÐp; quy t¾c xö lý gi¸ trÞ null. Sau khi
xem xÐt ®Çy ®ñ c¸c th«ng tin trªn vµ thÊy th«ng tin ®ång nhÊt th× ta cã thÓ ghÐp
thuéc tÝnh customer_id vµ cus_number lµm mét thuéc tÝnh duy nhÊt vµ chóng ta
xö lý xong mét trêng trong qu¸ tr×nh nhËn diÖn thùc thÓ. C¸c trêng kh¸c trong
b¶ng cña 2 CSDL trªn còng ®îc xö lý t¬ng tù.
Trong qu¸ tr×nh so s¸nh ®Ó l¾p ghÐp tËp thuéc tÝnh cña bé d÷ liÖu nµy víi
tËp thuéc tÝnh cña bé d÷ liÖu kia, cÇn ®Æc biÖt quan t©m tíi cÊu tróc cña d÷ liÖu.
§iÒu nµy gióp ®¶m b¶o tËp c¸c phô thuéc hµm vµ c¸c rµng buéc toµn vÑn sÏ
®îc kÕ thõa vµo trong bé d÷ liÖu sau khi tÝch hîp. VÝ dô: hÖ thèng A th× kh¸ch
hµng ®îc gi¶m gi¸ trªn mçi hãa ®¬n, cßn hÖ thèng B, kh¸ch hµng sÏ ®îc gi¶m
gi¸ trªn tõng mÆt hµng trong hãa ®¬n. D÷ liÖu cÇn ®îc tÝch hîp bao gåm c¶ d÷
liÖu cña A vµ B, nÕu rµng buéc nµy kh«ng ®îc kÕ thõa mét c¸ch phï hîp tríc
khi tÝch hîp, c¸c mÆt hµng trªn hÖ thèng míi sÏ kh«ng ®îc gi¶m gi¸ mét c¸ch
phï hîp.
Mét trêng hîp n÷a cã thÓ x¶y ra trong qu¸ tr×nh tÝch hîp d÷ liÖu lµ cã thÓ
kh«ng cã sù t¬ng ®ång vÒ sè lîng trêng (thuéc tÝnh) gi÷a 2 b¶ng trong 2
CSDL chóng ta ®ang tÝch hîp. §iÒu nµy còng kh«ng cã g× ng¹c nhiªn v× lý do
trong CSDL nµy ta chØ quan t©m (vµ cÇn) mét sè thuéc tÝnh cña thùc thÓ nµo ®ã,
ngîc l¹i trong CSDL kia ta l¹i quan t©m ®Õn mét tËp hîp thuéc tÝnh kh¸c. Khi
®ã c¸ch gi¶i quyÕt ®¬n gi¶n cã thÓ lµ t¹o ra mét b¶ng míi chøa ®Çy ®ñ c¶ tËp
thuéc tÝnh cña thùc thÓ vµ t×m c¸ch ®iÒn vµo c¸c gi¸ trÞ thiÕu.
3.4.2. Sù d thõa vµ ph©n tÝch ®é t¬ng quan
Sù d thõa lµ mét vÊn ®Ò quan träng kh¸c thêng x¶y ra trong qu¸ tr×nh
tÝch hîp d÷ liÖu. Mét thuéc tÝnh cã thÓ ®îc coi lµ d thõa nÕu nh nã cã thÓ suy
diÔn ®îc tõ mét hoÆc mét nhãm c¸c thuéc tÝnh kh¸c (vÝ dô nh: ®iÓm trung
b×nh hoÆc, tæng thu nhËp…). Sù kh«ng nhÊt qu¸n trong viÖc ®Æt tªn c¸c thuéc
tÝnh cã thÓ g©y ra sù d thõa trong tËp d÷ liÖu.
Mét sè lo¹i d thõa cã thÓ ®îc ph¸t hiÖn nhê ph¬ng ph¸p ph©n tÝch ®é
t¬ng quan. Víi hai thuéc tÝnh cho tríc, ph¬ng ph¸p nµy cã thÓ cho biÕt møc
®é liªn quan gi÷a chóng dùa trªn d÷ liÖu cã ®îc. Víi nh÷ng thuéc tÝnh cã gi¸
trÞ thuéc d¹ng ký tù, ta cã thÓ sö dông ph¬ng ph¸p X2(chi-square). Víi nh÷ng
thuéc tÝnh cã tËp gi¸ trÞ cã d¹ng sè th× cã thÓ ¸p dông ph¬ng ph¸p HÖ sè t¬ng quan (correlation coefficient) hoÆc HiÖp ph¬ng sai (covariance) ®Ó ph¸t hiÖn ra
møc ®é phô thuéc gi÷a hai thuéc tÝnh bÊt kú.
a) Ph¬ng ph¸p X2 (chi-square)
Víi d÷ liÖu sè, ®é t¬ng quan gi÷a 2 thuéc tÝnh A vµ B cã thÓ ®îc t×m
th«ng qua ph¬ng ph¸p Chi b×nh ph¬ng. Gi¶ sö thuéc tÝnh A cã c gi¸ trÞ lÇn
lît a1, a2, …, ac, vµ thuéc tÝnh B cã r gi¸ trÞ t¬ng øng b1, b2, …, bn. D÷ liÖu
129 130
®îc m« t¶ bëi A vµ B cã thÓ ®îc xÕp thµnh 1 b¶ng víi c gi¸ trÞ cña A xÕp
thµnh cét vµ r gi¸ trÞ cña B xÕp thµnh hµng. Gäi (Ai, Bj) lµ sù kiÖn ®ång thêi A
=ai vµ B=bj. Mçi mét kh¶ n¨ng cã thÓ cña (Ai, Bj) ®Òu ®îc ghi l¹i trong 1 « cña
b¶ng nµy. Gi¸ trÞ X2 ®îc tÝnh nh sau
ij
ijijc
i
r
j e
eo
1 1
2 (3.5)
Víi oij gi¸ trÞ quan s¸t (gi¸ trÞ thùc tÕ) vµ eij lµ gi¸ trÞ kú väng cña sù kiÖn
(Ai, Bj) ®îc tÝnh theo c«ng thøc sau:
n
bBcountaAcounte ji
ij
)()( (3.6)
Víi n lµ sè mÉu d÷ liÖu, count (A=ai) lµ sè lîng mÉu cã gi¸ trÞ ai trong
thuéc tÝnh A, tîng tù víi count(B=bj). C«ng thøc 3.5 sö dông ®Ó tÝnh tÊt c¶ c¸c
gi¸ trÞ trªn r c « cña b¶ng.
Ph¬ng ph¸p nµy dïng ®Ó kiÓm tra gi¶ thiÕt A vµ B lµ ®éc lËp víi nhau
(kh«ng cã mèi liªn hÖ nµo gi÷a chóng) hay kh«ng. KiÓm tra nµy dùa trªn møc
®é quan träng víi (r-1) (c-1) møc ®é tù do. NÕu phÐp kiÓm tra lµ kh«ng ®óng
th× ®iÒu ®ã cã nghÜa lµ A vµ B lµ cã t¬ng quan víi nhau vÒ mÆt thèng kª.
VÝ dô, ta cã ®iÒu tra 1500 ngêi xem hä cã thÝch ®äc truyÖn viÔn tëng
(fiction) hay kh«ng. KÕt qu¶ cña cuéc ®iÒu tra ®îc liÖt kª trong b¶ng 3.1, trong
®ã ta cã 2 thuéc tÝnh lµ giíi tÝnh, vµ së thÝch ®äc truyÖn:
Nam N÷ Tæng sè
Fiction 250 (90) 200 (360) 450
Nonfiction 50 (210) 1000 (840) 1050
Tæng sè 300 1200 1500
B¶ng 3.1 D÷ liÖu ®iÒu tra vÒ së thÝch ®äc truyÖn
Trong b¶ng nµy gi¸ trÞ kú väng eij (tÝnh theo c«ng thøc 3.2) ®îc ghi ë
trong ngoÆc ®¬n, vÝ dô:
901500
450300)()(11
n
fictioncountnamcounte
Do ®ã ta cã thÓ tÝnh ra ®îc gi¸ trÞ X2 nh sau:
93.507
840
)8401000(
360
)360200(
210
)21050(
90
)90250( 22222
Møc ®é tù do cña phÐp kiÓm tra ®èi víi b¶ng 22 lµ (2-1) (2-1)=1, ë møc
nµy gi¸ trÞ phñ ®Þnh gi¶ thiÕt ë møc ®é quan träng 0.001 lµ 10.827 (gi¸ trÞ nµy cã
thÓ tra b¶ng ë c¸c s¸ch thèng kª, b¶ng 3.2 liÖt kª mét sè gi¸ trÞ nµy). Gi¸ trÞ
507.93 > 10.827 cã nghÜa lµ gi¸ trÞ nµy ®· phñ ®Þnh gi¶ thiÕt giíi tÝnh vµ së thÝch
®äc truyÖn viÔn tëng lµ ®éc lËp nhau. Hay ta cã thÓ nãi hai thuéc tÝnh trªn lµ cã
®é t¬ng quan cao trong tËp d÷ liÖu ë trªn.
0.5 0.10 0.05 0.02 0.01 0.001
1 0.455 2.706 3.841 5.412 6.635 10.827
2 1.386 4.605 5.991 7.824 9.210 13.815
3 2.366 6.251 7.815 9.837 11.345 16.268
4 3.357 7.779 9.488 11.668 13.277 18.465
5 4.351 9.236 11.070 13.388 15.086 20.51
B¶ng 3.2 Gi¸ trÞ møc x¸c suÊt X2
b) Ph¬ng ph¸p HÖ sè t¬ng quan
Víi c¸c thuéc tÝnh sè, ta cã theetr tÝnh to¸n ®é phô thuéc gi÷a chóng
b»ng ph¬ng ph¸p HÖ sè t¬ng quan do Karl Pearson ®Ò xuÊt:
131 132
BB A
N
iii
A
N
iii
BAN
BANba
N
BbAa
r
11,
))((
(3.7)
Trong ®ã N lµ sè lîng mÉu d÷ liÖu, ai vµ bi lÇn lît lµ c¸c gi¸ trÞ t¬ng
øng cña thuéc tÝnh A vµ B ë mÉu thø i, A vµ B lµ gi¸ trÞ trung b×nh cña A vµ B,
ãA vµ ãB lµ c¸c ®é lÖch chuÈn t¬ng øng cña A vµ B.
N
a
A
N
ii
1 vµ N
b
B
N
ii
1
Lu ý r»ng -1 ≤ rA,,B ≤ +1, nÕu rA,,B nhËn gi¸ trÞ d¬ng th× A vµ B lµ ®ång
biÕn, tøc lµ nÕu gi¸ trÞ cña A t¨ng th× gi¸ trÞ cña B còng t¨ng theo. Gi¸ trÞ cña rA, B
cµng lín th× ®é phô thuéc cµng m¹nh. Do ®ã nÕu rA, B cã gi¸ trÞ ®ñ lín th× ta cã
thÓ lo¹i bá thuéc tÝnh A hoÆc B. NÕu kÕt qu¶ cña c«ng thøc 3.3 lµ 0 ®iÒu nµy cã
nghÜa lµ A ®éc lËp víi B (hay kh«ng cã sù liªn hÖ gi÷a chóng). Cßn nÕu gi¸ trÞ
nµy lµ ©m th× gi¸ trÞ cña thuéc tÝnh A nghÞch biÕn víi B. Lu ý r»ng sù t¬ng
quan nµy kh«ng cã hµm ý nh©n qu¶. NÕu A vµ B t¬ng quan víi nhau th× vai trß
cña A vµ B ë ®©y lµ t¬ng ®¬ng. VÝ dô: nÕu chóng ta t×m ra sù liªn quan gi÷a sè
lîng bÖnh viÖn vµ sè « t« bÞnh mÊt c¾p trong vïng. §iÒu kh«ng cã nghÜa lµ sè
lîng bÖnh viÖn lµ nguyªn nh©n g©y ra sè vô ®¸nh c¾p xe.
c) Ph¬ng ph¸p hiÖp ph¬ng sai
Trong lý thuyÕt s¾c xuÊt vµ thèng kª, ®é ®o t¬ng quan vµ hiÖp ph¬ng sai lµ hai ®é ®o cã cïng ý nghÜa nh»m íc lîng xem hai thuéc tÝnh ¶nh hëng lÉn
nhau nh thÕ nµo. XÐt hai thuéc tÝnh A vµ B, víi N mÉu d÷ liÖu cã d¹ng {(a1, b1),
…, (aN, bN)}. HiÖp ph¬ng sai (covariance) gi÷a A vµ B ®îc ®Þnh nghÜa nh
sau:
N
BbAa
BACov
N
iii
1
))((
),( (3.8)
So s¸nh c«ng thøc 3.7 vµ c«ng thøc 3.8 ta cã thÓ viÕt l¹i nh sau (®Ó ta cã
thÓ thÊy ®îc sù t¬ng ®ång cña 2 c«ng thøc):
B A
BA
BACovr
),(, (3.9)
Víi hai thuéc tÝnh A vµ B cã khuynh híng thay ®æi víi nhau. NÕu A lín
h¬n A th× B còng cã xu híng lín h¬n B th× Cov(A, B) cã gi¸ trÞ d¬ng. Ngîc
l¹i th× Cov(A, B) cã gi¸ trÞ ©m nÕu mét thuéc tÝnh cã khuynh híng cao h¬n gi¸
trÞ trung b×nh th× thuéc tÝnh cßn l¹i cã khuynh híng nhá h¬n gi¸ trÞ nµy cña nã.
3.4.3. Ph¸t hiÖn c¸c bé lÆp
Trong qu¸ tr×nh ph¸t hiÖn sù d thõa gi÷a c¸c thuéc tÝnh, viÖc ph¸t hiÖn vµ
lo¹i bá c¸c b¶n ghi lÆp l¹i (hay trïng nhau) còng lµ vÊn ®Ò ®¸ng ®îc quan t©m.
Sù kh«ng nhÊt qu¸n thêng gia t¨ng khi cã nhiÒu b¶n ghi bÞ lÆp do sai sãt trong
qu¸ tr×nh ®a d÷ liÖu vµo hoÆc cËp nhËt d÷ liÖu kh«ng ®óng c¸ch. VÝ dô: trong
CSDL b¸n hµng, nÕu ta dïng tªn kh¸ch hµng vµ ®Þa chØ kh¸ch hµng lµm khãa,
khi ®ã do lçi nhËp liÖu, trêng ®Þa chØ cña cïng 1 kh¸ch hµng cã thÓ ®îc nhËp
kh«ng ®óng theo mét ®Þnh d¹ng duy nhÊt, khi ®ã cïng mét kh¸ch hµng ta l¹i cã
thÓ tån t¹i nhiÒu b¶n ghi kh¸c nhau trong b¶ng (nhng vÒ b¶n chÊt nã lµ 1).
3.4.4. Ph¸t hiÖn xung ®ét trong d÷ liÖu vµ møc ®é trõu tîng.
TÝch hîp d÷ liÖu còng bao hµm viÖc ph¸t hiÖn xung ®ét vµ thay ®æi møc ®é
trõu tîng trong gi¸ trÞ cña d÷ liÖu. VÝ dô: víi cïng mét ®èi tîng trong thÕ giíi
thùc th× mçi CSDL sÏ cã c¸ch biÓu diÔn, m« t¶ hay m· hãa kh¸c nhau. Ch¼ng
h¹n nh nhiÖt ®é cã thÓ biÓu diÔn theo nhiÒu ®é ®o kh¸c nhau (®é C hoÆc ®é F).
Th«ng tin vÒ ®iÓm sè cña häc sinh ë mçi trêng còng cã thÓ kh¸c nhau nh theo
thang ®iÓm 10, thang ®iÓm 4, hoÆc thang ®iÓm ch÷… C¸ch tÝnh ®iÓm kh¸c nhau
nh vËy sÏ g©y khã kh¨n trong viÖc chuyÓn ®æi d÷ liÖu tõ hÖ thèng nä sang hÖ
thèng kia vµ ngîc l¹i. Trong qu¸ tr×nh tÝch hîp d÷ liÖu ta còng cÇn ph¶i xö lý
133 134
trêng hîp nµy, cô thÓ lµ ph¶i chän mét ®Þnh d¹ng d÷ liÖu duy nhÊt vµ chuyÓn
®æi c¸c kiÓu d÷ liÖu kh¸c sang.
C¸c thuéc tÝnh còng cã thÓ cã møc ®é trõu tîng kh¸c nhau gi÷a c¸c hÖ
thèng tïy theo nhu cÇu cña hÖ thèng ®ã. VÝ dô nh tæng sè sinh viªn cã thÓ lµ
sinh viªn cña mét líp trong ë trong hÖ thèng niªn chÕ nhng sÏ lµ tæng sè sinh
viªn cña mét líp-m«n häc trong hÖ thèng tÝn chØ.
3.5. ChuyÓn ®æi d÷ liÖu
3.5.1. C¸c chiÕn lîc chuyÓn ®æi d÷ liÖu
Trong c¸c phÐp biÕn ®æi d÷ liÖu, d÷ liÖu sÏ ®îc chuyÓn ®æi hoÆc hîp nhÊt
vµo c¸c ®Þnh d¹ng phï hîp cho viÖc khai ph¸ d÷ liÖu. ChiÕn lîc cho c¸c phÐp
biÕn ®æi nµy bao gåm:
Lµm mÞn (smoothing): lo¹i bá nhiÔu trong d÷ liÖu (tr×nh bµy trong phÇn
3.4.1)
Tæng hîp (aggregation): thùc hiÖn c¸c thao t¸c tæng hîp (ch¼ng h¹n nh
phÐp tÝnh tæng) trªn d÷ liÖu. VÝ dô ta cã thÓ tÝnh tæng doanh thu theo
ngµy, th¸ng hoÆc n¨m. Thao t¸c nµy thêng ®îc sö dông trong qu¸ tr×nh
x©y dùng khèi d÷ liÖu (data cube) ®Ó ph©n tÝch d÷ liÖu ë nhiÒu møc chi
tiÕt kh¸c nhau.
Kh¸i qu¸t hãa (generationization) d÷ liÖu: d÷ liÖu th« ban ®Çu sÏ ®îc
thay thÕ b»ng c¸c kh¸i niÖm ë møc cao h¬n (trong c©y ph©n cÊp kh¸i
niÖm). VÝ dô nh thuéc tÝnh phè (street) cã gi¸ trÞ rêi r¹c, thuéc tÝnh nµy
cã thÓ ®îc kh¸i qu¸t hãa lªn b»ng thuéc tÝnh thµnh phè (city) hay ®Êt
níc (country) tïy theo môc ®Ých. Thuéc tÝnh cã gi¸ trÞ sè lµ tuæi (age)
còng cã thÓ ®îc kh¸i qu¸t hãa thµnh thuéc tÝnh ë møc cao h¬n nh trÎ
(youth), trung niªn (middle-age) vµ cao niªn (senior).
X©y dùng c¸c thuéc tÝnh (attribute construction): c¸c thuéc tÝnh ®îc x©y
dùng thªm tõ d÷ liÖu gèc nh»m hç trî cho qu¸ tr×nh khai ph¸ d÷ liÖu.
ChuÈn hãa: biÕn ®æi miÒn gi¸ trÞ cña c¸c thuéc tÝnh vÒ nh÷ng miÒn gi¸ trÞ
nhá h¬n vÝ dô nh [0.0, 1.0] hoÆc [-1.0, 1.0] nh»m lµm cho c¸c gi¶i thuËt
khai ph¸ ho¹t ®éng hiÖu qu¶ h¬n.
Rêi r¹c hãa: khi nh÷ng gi¸ trÞ sè trong miÒn liªn tôc sÏ ®îc chuyÓn vÒ
c¸c kho¶ng sè ®îc g¸n nh·n (vd: nh 0-10, 11-20, …) hoÆc c¸c kho¶ng
g¸n nh·n (thiÕu niªn, thanh niªn vµ trung niªn, …). C¸c møc nµy hoµn
toµn cã thÓ ®îc gom nhãm l¹i víi møc cao h¬n tïy yªu cÇu ®Ó t¹o lªn
kh¸i niÖm ph©n cÊp cho c¸c thuéc tÝnh.
Rêi r¹c hãa d÷ liÖu cã thÓ ph©n lo¹i dùa trªn c¸ch thøc thùc hiÖn rêi r¹c
hãa, nh cã sö dông th«ng tin ph©n líp hoÆc c¸ch thøc thùc hiÖn tõ trªn xuèng
(topdown), hay tõ díi lªn (bottom-up). NÕu ph¬ng ph¸p rêi r¹c hãa dïng
th«ng tin ph©n líp nã ®îc gäi lµ rêi r¹c hãa cã gi¸m s¸t, nÕu kh«ng th× ®îc gäi
lµ kh«ng cã gi¸m s¸t.
3.5.2. ChuÈn hãa d÷ liÖu
C¸c ®¹i lîng ®o ®¹c cã thÓ ¶nh hëng tíi ph©n tÝch d÷ liÖu. VÝ dô sù thay
®æi c¸c ®¹i lîng gi÷a ®é C vµ ®é F trong ®o ®¹c nhiÖt ®é, gi÷a mÐt vµ inch
trong ®o ®é dµi, cã thÓ dÉn tíi c¸c kÕt qu¶ kh¸c nhau. Nãi chung khi chia nhá
mét thuéc tÝnh th× ®ång nghÜa víi viÖc më réng miÒn gi¸ trÞ cña thuéc tÝnh ®ã, sÏ
dÉn tíi viÖc thuéc tÝnh ®ã cã ¶nh hëng lín h¬n c¸c gi¸ thuèc tÝnh kh¸c. §Ó
tr¸nh sù phô thuéc vµo c¸ch chän ®¹i lîng ®o lêng, d÷ liÖu nªn ®îc chuÈn
hãa tríc khi sö dông. Mét trong sè c¸c c¸ch thêng dïng lµ chuyÓn miÒn d÷
liÖu vÒ n»m trong kho¶ng [-1, 1] hoÆc [0.0, 1.0].
Cã rÊt nhiÒu ph¬ng ph¸p chuÈn hãa d÷ liÖu. ë ®©y chóng ta chØ tr×nh
bµy mét sè ph¬ng ph¸p c¬ b¶n bao gåm chuÈn hãa min-max, z-score,…
Gäi A lµ thuéc tÝnh cã kiÓu sè víi n gi¸ trÞ v1, v2, …, vn.
ChuÈn hãa min-max: thùc hiÖn mét phÐp biÕn ®æi tuyÕn tÝnh trªn d÷ liÖu
gèc. Gi¶ sö minA vµ maxA lµ gi¸ trÞ nhá nhÊt vµ lín nhÊt cña thuéc tÝnh A.
Ph¬ng ph¸p nµy chuyÓn mét gi¸ trÞ vi thµnh gi¸ trÞ 'iv trong miÒn [
'min A ,
maxA’] ®îc tÝnh nh sau:
135 136
'''' min)min(maxminmax
minAAA
AA
Aii
vv
(3.10)
Ph¬ng ph¸p nµy b¶o tån ®îc quan hÖ gi÷a c¸c gi¸ trÞ trong d÷ liÖu gèc.
D÷ liÖu sau khi chuÈn hãa cã thÓ bÞ lçi nÕu d÷ liÖu míi n»m ngoµi kho¶ng gi¸ trÞ
cña d÷ liÖu gèc.
VÝ dô: gi¶ sö gi¸ trÞ min vµ max cña thuéc tÝnh thu nhËp (income) lµ
12000$ vµ 98000$, ta muèn chuyÓn ®æi vÒ kho¶ng [0, 1]. Khi ®ã thu nhËp cã gi¸
trÞ 73600$ sÏ cã gi¸ trÞ míi lµ
716.00)01(1200098000
1200073600'
iv
ChuÈn hãa z-score: c¸c gi¸ trÞ cña thuéc tÝnh A sÏ ®îc chuÈn hãa dùa trªn
gi¸ trÞ trung b×nh vµ ®é lÖch chuÈn cña A. Gi¸ trÞ vi’ sÏ ®îc tÝnh to¸n dùa trªn vi
nh sau:
A
ii
Avv
' (3.11)
Víi A lµ gi¸ trÞ trung b×nh vµ A lµ ®é lÖch chuÈn. Ph¬ng ph¸p chuÈn
hãa nµy thêng ®îc sö dông trong trêng hîp kh«ng x¸c ®Þnh ®îc chÝnh x¸c
gi¸ trÞ lín nhÊt vµ gi¸ trÞ nhá nhÊt cña thuéc tÝnh hoÆc trong trêng hîp c¸c gi¸
trÞ ngo¹i lai chi phèi ph¬ng ph¸p chuÈn hãa min-max.
n
Avn
ii
A
1
2
2
)(
(3.12)
Mét biÕn thÓ thêng ®îc sö dông trong chuÈn hãa nµy lµ thay thÕ A
b»ng gi¸ trÞ trung b×nh tuyÖt ®èi. Gi¸ trÞ nµy, ký hiÖu lµ sA ®îc tÝnh nh sau:
n
iiA Av
nS
1
||1
(3.13)
ChuÈn hãa thay ®æi tû lÖ (scaling): Gi¸ trÞ míi v’=v/10j víi j lµ sè nguyªn
nhá nhÊt tháa m·n ®iÒu kiÖn max(|v’|)<1. VÝ dô: gi¶ sö thuéc tÝnh A cã gi¸ trÞ tõ
-986 ®Õn 917. Gi¸ trÞ tuyÖt ®èi lín nhÊt cña thuéc tÝnh nµy lµ 986 (xÊp xØ 103),
®Ó chuÈn hãa sang tØ lÖ míi ta cã thÓ chia cho 103 , khi ®ã gi¸ trÞ 917 sÏ cã gi¸ trÞ
míi lµ 0.917.
3.6. Ph¬ng ph¸p thu gän d÷ liÖu
Ph¬ng ph¸p thu gän d÷ liÖu cã thÓ ®îc ¸p dông nh»m gi¶m lîng d÷ liÖu
nhiÒu nhÊt cã thÓ mµ vÉn gi÷ ®îc tÝnh toµn vÑn cña d÷ liÖu gèc. §iÒu nµy cã
nghÜa r»ng c¸c ph¬ng ph¸p ph©n tÝch d÷ liÖu khi thùc hiÖn mét c¸ch hiÖu qu¶
h¬n trªn d÷ liÖu ®· thu gän mµ vÉn tr¶ l¹i kÕt qu¶ ph©n tÝch nh khi thùc hiÖn
trªn d÷ liÖu gèc (hoÆc gÇn tèt nh thùc hiÖn trªn d÷ liÖu gèc).
C¸c chiÕn lîc thu gän d÷ liÖu bao gåm gi¶m sè chiÒu cña d÷ liÖu, gi¶m sè
lîng d÷ liÖu (numerosity reduction) vµ nÐn d÷ liÖu.
Gi¶m chiÒu d÷ liÖu: lµ qu¸ tr×nh lµm gi¶m bít sè lîng c¸c thuéc tÝnh theo
mét chiÕn lîc nµo ®ã. C¸c ph¬ng ph¸p gi¶m chiÒu d÷ liÖu bao gåm phÐp biÕn
®æi wavelet, PCA. TrÝch chän tËp c¸c thuéc tÝnh lµ mét trong c¸c ph¬ng ph¸p
gi¶m chiÒu d÷ liÖu dùa trªn viÖc ph¸t hiÖn vµ lo¹i bá c¸c thuéc tÝnh thõa, thuéc
tÝnh Ýt phï hîp vµ kh«ng phï hîp.
Gi¶m sè lîng d÷ liÖu: cho phÐp thay thÕ d÷ liÖu gèc b»ng mét c¸ch thÓ
hiÖn kh¸c víi kh«ng gian nhá h¬n d÷ liÖu gèc. Ph¬ng ph¸p nµy cã thÓ cã hoÆc
kh«ng cã tham sè. Víi ph¬ng ph¸p cã tham sè, m« h×nh ®îc sö dông ®Ó íc
lîng d÷ liÖu, v× vËy th«ng thêng ta chØ cÇn lu tr÷ c¸c tham sè cña d÷ liÖu mµ
kh«ng cÇn lu toµn bé d÷ liÖu gèc (vÝ dô nh m« h×nh håi quy). Ph¬ng ph¸p
kh«ng dïng tham sè bao gåm ph©n phèi theo tÇn suÊt, ph©n côm, ph¬ng ph¸p
lÊy mÉu.
137 138
3.6.1. Gi¶m chiÒu d÷ liÖu
Lùa chän tËp con thuéc tÝnh (attribute subset selection): cã nhiÒu trêng
hîp tËp d÷ liÖu chóng ta cÇn khai ph¸ cã chøa hµng tr¨m (thËm chÝ hµng ngh×n)
thuéc tÝnh. §Æc biÖt lµ cã nhiÒu thuéc tÝnh kh«ng cã ý nghÜa, hoÆc d thõa trong
qu¸ tr×nh khai ph¸ d÷ liÖu, ch¼ng h¹n nh thuéc tÝnh sè chøng minh th hay sè
®iÖn tho¹i. Nªn nÕu bá ®i ®îc c¸c thuéc tÝnh nµy kh«ng nh÷ng lµm gi¶m ®îc
chiÒu d÷ liÖu, lµm gi¶m ®îc thêi gian xö lý mµ cßn cã thÓ lµm t¨ng ®îc hiÖu
qu¶ cña c¸c gi¶i thuËt khai ph¸. Môc ®Ých cña ph¬ng ph¸p lùa chän tËp con
thuéc thuéc tÝnh lµ t×m ra ®îc tËp con thuéc tÝnh nhá nhÊt mµ vÉn biÓu diÔn
®îc sù ph©n bè cña d÷ liÖu gèc ban ®Çu.
Cho n thuéc tÝnh, ta cã 2n tËp con, nªn viÖc t×m ra tËp con tèt nhÊt lµ mét
bµi to¸n cã chi phÝ rÊt cao nÕu ta xÐt tõng tËp con mét. Thay v× t×m kiÕm tËp con
thuéc tÝnh tèt nhÊt, ta cã thÓ sö dông c¸c thuËt to¸n dùa trªn kinh nghiÖm, vÝ dô
lµ thuËt to¸n tham lam (greedy), ®Ó lùa chän thuéc tÝnh tèt nhÊt t¹i mçi bíc.
§©y lµ gi¶i ph¸p dùa vµo tèi u côc bé ®Ó hy väng t×m ra tèi u toµn côc. C¸c
ph¬ng ph¸p nµy lµ mét lùa chän tèt trong thùc tÕ khi sè lîng c¸c thuéc tÝnh
trong tËp d÷ liÖu lµ lín. C¸c thuéc tÝnh tèt nhÊt vµ xÊu nhÊt cã thÓ x¸c ®Þnh ®îc
th«ng qua c¸c ®é ®o dùa trªn thèng kª. Cã rÊt nhiÒu ®é ®o, vÝ dô lµ ®é ®o ®é lîi th«ng tin (information gain) ®îc ®Ò cËp ë môc 6.2 ch¬ng 6. C¸c ph¬ng ph¸p
dùa trªn kinh nghiÖm cã c¸c chiÕn lîc sau:
Lùa chän dÇn tõng thuéc tÝnh (stepwise forward selection): thñ tôc b¾t ®Çu
tõ tËp rçng, t¹i mçi bíc nã lùa chän thªm mét thuéc tÝnh ®îc ®¸nh gi¸ lµ
tèt nhÊt (trong nh÷ng thuéc tÝnh cßn l¹i) vµ cho vµo tËp. Qu¸ tr×nh nµy lÆp
l¹i cho ®Õn hÕt c¸c thuéc tÝnh. Sau khi thñ tôc hoµn thµnh ta cã mét danh
s¸ch c¸c thuéc tÝnh ®· ®îc xÕp h¹ng gi¶m dÇn theo ®é “tèt”, tïy vµo
trêng hîp cô thÓ ta cã thÓ quyÕt ®Þnh lÊy tËp con víi sè lîng lµ bao nhiªu
tõ ®Çu danh s¸ch ®· ®îc s¾p xÕp nµy.
Lo¹i bá dÇn tõng thuéc tÝnh (stepwise backward elimination): thñ tôc b¾t
®Çu tõ tËp toµn bé c¸c thuéc tÝnh, t¹i tõng bíc lÆp nã lo¹i bá mét thuéc
tÝnh ®îc ®¸nh gi¸ lµ xÊu nhÊt. KÕt qu¶ ta còng thu ®îc mét danh s¸ch ®·
s¾p xÕp c¸c thuéc tÝnh theo thø tù gi¶m dÇn cña ®é “tèt” vµ viÖc lùa chän
l¹i gièng nh trêng hîp ë trªn.
KÕt hîp c¶ lùa chän vµ lo¹i bá thuéc tÝnh: gi¶i thuËt kÕt hîp c¶ 2 gi¶i thuËt
trªn l¹i ®Ó võa chän thuéc tÝnh tèt nhÊt võa lo¹i bá thuéc tÝnh xÊu nhÊt t¹i
mçi bíc.
Sö dông c©y quyÕt ®Þnh: ta còng cã thÓ sö dông c©y quyÕt ®Þnh nh ID3,
C4.5 hay CART (xem ë ch¬ng 6) ®Ó lùa chän danh s¸ch c¸c thuéc tÝnh
tèt. §iÓm m¹nh cña c©y quyÕt ®Þnh lµ nã sÏ kh«ng ®a vµo c©y c¸c thuéc
tÝnh ®îc ®¸nh gi¸ lµ “kh«ng liªn quan”, do ®ã ta cã thÓ sö dông lu«n c¸c
thuéc tÝnh xuÊt hiÖn ë trªn c©y lµm tËp thuéc tÝnh con tèt nhÊt mµ kh«ng
cÇn ph¶i xö lý thªm nh ë c¸c ph¬ng ph¸p ë trªn.
Gi¶m sè chiÒu b»ng ph¬ng ph¸p biÕn ®æi: mét ph¬ng ph¸p kh¸c ®Ó gi¶m
sè chiÒu lµ biÕn ®æi (hay m· hãa) d÷ liÖu sang mét d¹ng kh¸c. NÕu d÷ liÖu sau
khi biÕn ®æi cã thÓ t¸i x©y dung l¹i ®îc thµnh d÷ liÖu gèc th× ph¬ng ph¸p biÕn
®æi ®ã ®îc gäi lµ kh«ng mÊt m¸t (lossless), nÕu kh«ng th× ph¬ng ph¸p ®ã ®îc
gäi lµ biÕn ®æi cã mÊt m¸t (lossy). Díi ®©y sÏ tr×nh bµy s¬ lîc 2 ph¬ng ph¸p
biÕn ®æi (cã mÊt m¸t) th«ng dông lµ phÐp biÕn ®æi rêi r¹c d¹ng sãng (wavelet),
vµ ph¬ng ph¸p ph©n tÝch thµnh phÇn chÝnh (Principal Component Analysis).
PhÐp biÕn ®æi rêi r¹c d¹ng sãng (Discrete Wavelet Transform – DWT): lµ
mét ph¬ng ph¸p xö lý tÝn hiÖu sè, ®îc sö dông khi biÕn ®æi mét vÐc t¬ X
thµnh mét vÐc t¬ X’ kh¸c (cã cïng kÝch thíc) theo hÖ sè wavelet. Tuy
r»ng vÐc t¬ kÕt qu¶ X’ sau khi biÕn ®æi cã cïng kÝch thíc víi vÐc t¬ ban
®Çu, nhng ta cã thÓ lµm gi¶m sè chiÒu cña X’ b»ng c¸ch chØ gi÷ l¹i c¸c hÖ
sè wavelet cã träng sè lín. Ch¼ng h¹n víi mét ngìng ®Çu vµo, ta chØ gi÷
l¹i c¸c thµnh phÇn vÐc t¬ cã träng sè wavelet lín h¬n ngìng vµ lo¹i bá
nh÷ng thµnh phÇn cßn l¹i. Sau khi biÕn ®æi kh«ng gian míi cã thÓ rÊt tha
so víi kh«ng gian ban ®Çu, do ®ã c¸c gi¶i thuËt chuyªn xö lý d÷ liÖu tha
sÏ rÊt phï hîp víi phÐp biÕn ®æi wavelet. Khi ®· cã mét tËp c¸c hÖ sè
wavelet, ta cã thÓ x©y dùng l¹i d÷ liÖu xÊp xØ víi d÷ liÖu ban ®Çu tõ d÷ liÖu
sau khi ®îc biÕn ®æi. Ph¬ng ph¸p biÕn ®æi nµy kh¸ gièng víi ph¬ng
ph¸p biÕn ®æi Fourier (Discrete Fourier Transform -DFT), nhng u ®iÓm
139 140
cña DWT lµ t¹o ra mét vÐc t¬ xÊp xØ víi d÷ liÖu gèc tèt h¬n DFT. H¬n n÷a
nÕu biÕn ®æi Fourier chØ cã mét th× biÕn ®æi wavelet l¹i cã rÊt nhiÒu hä
hµm.
Ph©n tÝch thµnh phÇn chÝnh: Gi¶ sö c¸c phÇn tö d÷ liÖu ®îc biÓu diÔn b»ng
mét vÐc t¬ n chiÒu, ph¬ng ph¸p ph©n tÝch thµnh phÇn chÝnh (hay cßn gäi
lµ ph¬ng ph¸p Karhunen-Loeve hay K-L cho gän) sÏ t×m k vÐc t¬ trùc
giao n chiÒu cã thÓ dïng ®Ó biÓu diÔn d÷ liÖu, víi k ≤ n. Do vËy d÷ liÖu ban
®Çu cã thÓ ®îc biÓu diÔn b»ng mét kh«ng gian nhá h¬n b»ng phÐp chiÕu
trªn kh«ng gian k chiÒu. Kh¸c víi ph¬ng ph¸p lùa chän tËp con thuéc tÝnh
– nã chän ra mét tËp con thuéc tÝnh tõ tËp thuéc tÝnh ban ®Çu, ph¬ng
ph¸p ph©n tÝch thµnh phÇn chÝnh kÕt hîp b¶n chÊt cña c¸c thuéc tÝnh l¹i víi
nhau ®Ó t¹o ra thuéc tÝnh míi ®Ó thay thÕ. Chi tiÕt cña ph¬ng ph¸p nµy
n»m ngoµi ph¹m vi cña cuèn gi¸o tr×nh nµy.
3.6.2. Gi¶m sè lîng d÷ liÖu
Gi¶m sè lîng d÷ liÖu lµ ph¬ng ph¸p thay thÕ d÷ liÖu gèc b»ng mét c¸ch thÓ hiÖn kh¸c víi kh«ng gian nhá h¬n d÷ liÖu gèc. Díi ®©y sÏ tr×nh bµy mét sè ph¬ng ph¸p phæ biÕn.
Tæng hîp khèi d÷ liÖu (data cube aggregation): thùc hiÖn c¸c phÐp to¸n
tæng hîp (aggregation) trªn d÷ liÖu trong qu¸ tr×nh x©y dung khèi d÷ liÖu.
Gi¶ sö trong mét c¬ së d÷ liÖu b¸n hµng ta cã cét tiÒn (sales) cho tõng mÆt
hµng mµ kh¸ch hµng ®· mua. NÕu chØ muèn xem d÷ liÖu doanh sè b¸n
hµng cña mét ngµy ta cã thÓ tæng hîp tæng tiÒn cña tÊt c¶ c¸c mÆt hµng
trong ngµy l¹i. T¬ng tù ta cã thÓ tæng hîp doanh sè theo th¸ng, quý, n¨m
tïy theo nhu cÇu ph©n tÝch sè liÖu. Nh vËy cø mçi lÇn tæng hîp th× sè
lîng d÷ liÖu l¹i gi¶m ®i rÊt nhiÒu, ®Æc biÖt tuy d÷ liÖu gi¶m ®i nhng sè
liÖu cuèi cïng l¹i kh«ng hÒ bÞ ¶nh hëng. Ph¬ng ph¸p nµy ®îc ¸p dông
vµo trong qu¸ tr×nh x©y dùng khèi d÷ liÖu. H×nh 3.11 vµ 3.12 minh häa vÒ
ph¬ng ph¸p nµy.
M« h×nh håi quy vµ tuyÕn tÝnh logarit: trong trêng hîp håi quy tuyÕn tÝnh
®¬n gi¶n, d÷ liÖu ®îc m« h×nh hãa ®Ó cã thÓ biÓu diÔn ®îc b»ng mét
®êng th¼ng. Cô thÓ quan hÖ gi÷a 2 biÕn cã thÓ ®îc biÓu diÔn b»ng
ph¬ng tr×nh y= wx+b. Trong bµi to¸n khai ph¸ d÷ liÖu th× x vµ y lµ biÕn
biÓu diÔn c¸c thuéc tÝnh, cßn w vµ b ®îc gäi lµ c¸c hÖ sè håi quy. Sau khi
x©y dùng ®îc ph¬ng tr×nh biÓu diÔn ®êng th¼ng trªn th× ta chØ cÇn lu
l¹i c¸c tham sè håi quy w vµ b mµ kh«ng cÇn ph¶i lu tr÷ d÷ liÖu thùc sù,
kÕt qu¶ lµ ta lµm gi¶m ®îc sè lîng d÷ liÖu. Håi quy tuyÕn tÝnh logarit
(log-linear) xÊp xØ ph©n bè x¸c suÊt ®a chiÒu rêi r¹c. Cho mét tËp d÷ liÖu
®îc biÓu diÔn b»ng c¸c vÐc t¬ n chiÒu (d÷ liÖu cã n thuéc tÝnh), ta cã thÓ
coi 1 phÇn tö d÷ liÖu lµ mét ®iÓm trong kh«ng gian n chiÒu. M« h×nh tuyÕn
tÝnh logarit cã thÓ íc lîng x¸c suÊt cña tong ®iÓm trong kh«ng gian ®a
chiÒu cho mét tËp c¸c thuéc tÝnh ®îc rêi r¹c hãa dùa trªn mét tËp con
chiÒu kh«ng gian nhá h¬n. Sau khi íc lîng xong, ta còng chØ cÇn gi÷ l¹i
c¸c tham sè íc lîng mµ kh«ng cÇn ph¶i lu l¹i d÷ liÖu. Ngoµi ra v× m«
h×nh tuyÕn tÝnh logarit cã thÓ biÓu diÔn d÷ liÖu gèc b»ng mét kh«ng gian cã
sè chiÒu nhá h¬n nªn nã còng cã thÓ sö dông ®Ó lµm gi¶m sè chiÒu d÷ liÖu.
Ph¬ng ph¸p håi quy vµ tuyÕn tÝnh logarit thuéc líp ph¬ng ph¸p cã tham
sè.
BiÓu ®å tÇn suÊt (histogram): ph¬ng ph¸p nµy xÊp xØ ph©n bè d÷
liÖu b»ng c¸ch chia d÷ liÖu thµnh c¸c nhãm (c¸c tËp kh«ng giao
nhau) dùa trªn mét thuéc tÝnh nµo ®ã, nÕu mét nhãm chøa c¸c
phÇn tö d÷ liÖu cã gi¸ trÞ thuéc tÝnh ®ang xÐt lµ b»ng nhau th× ta
gäi lµ nhãm duy nhÊt (singleton bucket). Sau khi chia xong th× ta
dïng c¸c nhãm d÷ liÖu nµy ®Ó biÓu diÔn d÷ liÖu thay v× d÷ liÖu
gèc, do ®ã sè lîng d÷ liÖu sÏ ®îc gi¶m ®i. VÝ dô ta cã gi¸ trÞ cho
thuéc tÝnh gi¸ (price) sau khi s¾p xÕp tÝnh b»ng USD lµ: 1, 1, 5, 5,
5, 5, 5, 8, 8, 10, 10, 10, 10, 12, 14, 14, 14, 15, 15, 15, 15, 15, 15,
18, 18, 18, 18, 18, 18, 18, 18, 20, 20, 20, 20, 20, 20, 20, 21, 21,
21, 21, 25, 25, 25, 25, 25, 28, 28, 30, 30, 30. NÕu ta chia tËp d÷
liÖu nµy thµnh c¸c nhãm cã gi¸ trÞ b»ng nhau th× ta thu ®îc 13
nhãm nh H×nh 3.13. Do ®ã tõ tËp d÷ liÖu ban ®Çu lµ 52 phÇn tö ta
141 142
chØ cßn 13 phÇn tö. Trong trêng hîp d÷ liÖu lµ liªn tôc th× mçi
mét nhãm sÏ cã mét miÒn gi¸ trÞ.
H×nh 3.11. D÷ liÖu n¨m ®îc tæng hîp tõ d÷ liÖu quý
Cã nhiÒu tiªu chÝ ®Ó chia d÷ liÖu thµnh c¸c nhãm, díi ®©y giíi thiÖu
mét sè tiªu chÝ:
§é réng b»ng nhau (equal-width): miÒn gi¸ trÞ cho mçi nhãm
lµ b»ng nhau. VÝ dô mét thuéc tÝnh cã gi¸ trÞ tõ 1 ®Õn 100, nÕu
chia thµnh c¸c nhãm cã “®é réng” lµ 10 th× ta cã 10 nhãm
(100/10=10).
B»ng tuÇn suÊt (equal-frequency): sè lîng c¸c phÇn tö d÷ liÖu
trong tõng nhãm lµ (xÊp xØ) b»ng nhau.
Ph©n côm (clustering): ph¬ng ph¸p nµy sö dông c¸c gi¶i thuËt
ph©n côm ®Ó nhãm d÷ liÖu l¹i thµnh c¸c côm, c¸c côm nµy sÏ ®îc
dïng lµm ®¹i diÖn cho d÷ liÖu gèc. C¸c gi¶i thuËt ph©n côm sÏ
®îc tr×nh bµy ë ch¬ng 5.
LÊy mÉu (sampling): ph¬ng ph¸p nµy chØ ®¬n gi¶n lµ lÊy ngÉu
nhiªn mét tËp con cña d÷ liÖu. Gi¶ sö ta cã mét tËp d÷ liÖu lín D
gåm N phÇn tö d÷ liÖu, ta cã c¸c ph¬ng ph¸p lÊy mÉu sau:
o LÊy mÉu ngÉu nhiªn ®¬n gi¶n kh«ng cã thay thÕ: ta lÊy ngÉu
nhiªn s phÇn tö tõ D (s < N), khi ®ã mçi phÇn tö sÏ cã x¸c suÊt
®îc lÊy lµ 1/N.
LÊy mÉu ngÉu nhiªn ®¬n gi¶n cã thay thÕ: ta lÊy ngÉu nhiªn s phÇn tö tõ D (s <
N), ®iÓm kh¸c so víi ph¬ng ph¸p trªn lµ: mét phÇn tö sau khi ®îc lÊy mÉu nã
l¹i ®îc bá vµo tËp D, do ®ã nã cã kh¶ n¨ng ®îc lÊy mÉu nhiÒu h¬n 1 lÇn.
H×nh 3.12 Khèi d÷ liÖu ®îc t¹o ra nhê c¸c thao t¸c tæng hîp
143 144
H×nh 3.13. C¸c nhãm sau khi chia theo biÓu ®å tÇn suÊt
o LÊy mÉu côm: Khi D ®îc ph©n thµnh M côm kh«ng giao
nhau, khi ®ã ta cã thÓ lÊy ngÉu nhiªn s côm (s < M).
o LÊy mÉu theo tÇng (stratified sampling): gi¶ sö D ®îc ph©n
thµnh c¸c phÇn kh«ng giao nhau gäi lµ c¸c tÇng (strata). Ta sÏ
tiÕn hµnh lÊy mÉu ngÉu nhiªn ®¬n gi¶n trªn tõng tÇng. Ph¬ng
ph¸p nµy ®¶m b¶o tÇng nµo còng ®îc lÊy mÉu, do ®ã d÷ liÖu
mÉu thu ®îc cã kh¶ n¨ng ®¹i diÖn tèt cho d÷ liÖu gèc.
C¸c ph¬ng ph¸p lÊy mÉu cã u ®iÓm lµ chi phÝ thÊp nªn cã thÓ øng
dông trong nh÷ng trêng hîp cÇn tèc ®é xö lý.
3.7. Rêi r¹c hãa d÷ liÖu vµ sinh c©y kh¸i niÖm ph©n cÊp
Rêi r¹c hãa vµ sinh c©y ph©n cÊp kh¸i niÖm lµ ph¬ng ph¸p lµm gi¶m sè
lîng d÷ liÖu, ®ång thêi cho phÐp ngêi dïng ph©n tÝch d÷ liÖu ë c¸c møc trõu
tîng kh¸c nhau.
3.7.1. Ph¬ng ph¸p ¸p dông cho d÷ liÖu sè
a) Ph¬ng ph¸p binning
Ph¬ng ph¸p nµy lµ ph¬ng ph¸p ph©n t¸ch tõ trªn xuèng dùa trªn c¸c
nhãm sè. Ph¬ng ph¸p nµy ®îc tr×nh bµy kü trong phÇn lµm mÞn d÷ liÖu (phÇn
3.4) ë trªn. Ph¬ng ph¸p nµy còng ®îc sö dông ®Ó lµm rêi r¹c hãa d÷ liÖu. VÝ
dô nh gi¸ trÞ cña thuéc tÝnh cã thÓ ®îc rêi r¹c hãa b»ng c¸ch nhãm theo c¸c
gi¸ trÞ b»ng nhau vÒ ®é réng hoÆc b»ng nhau vÒ tÇn sè, sau ®ã cã thÓ thay thÕ c¶
nhãm gi¸ trÞ ®ã b»ng gi¸ trÞ trung b×nh hoÆc trung vÞ. Ph¬ng ph¸p nµy cã thÓ
®îc ¸p dông lÆp l¹i ®Ó cã thÓ thu ®îc sù rêi r¹c hãa kiÓu ph©n cÊp.
Ph¬ng ph¸p nµy kh«ng sö dông th«ng tin vÒ ph©n líp nªn ®îc gäi lµ
ph¬ng ph¸p rêi r¹c hãa kh«ng cã gi¸m s¸t. Ph¬ng ph¸p nµy kh¸ nh¹y c¶m víi
sè lîng nhãm t¹o ra còng nh sù xuÊt hiÖn cña gi¸ trÞ ngo¹i lai.
b) Ph¬ng ph¸p ph©n tÝch biÓu ®å tÇn suÊt
Còng gièng ph¬ng ph¸p Binning, ph¬ng ph¸p nµy còng lµ ph¬ng ph¸p
rêi r¹c hãa kh«ng cã gi¸m s¸t. Ph¬ng ph¸p nµy ph©n chia c¸c gi¸ trÞ cña thuéc
tÝnh thµnh tõng nhãm kh«ng giao nhau. Cã rÊt nhiÒu c¸ch ph©n chia kh¸c nhau
cã thÓ ®¬c dïng ®Ó ®Þnh nghÜa biÓu ®å. Ph©n tÝch biÓu ®å cã thÓ ®îc ¸p dông
lÆp ®i lÆp l¹i víi tõng khèi ®Ó cã thÓ tù ®éng t¹o ra ph©n cÊp ®a møc, vßng lÆp
nµy sÏ dõng l¹i khi ®¹t tíi møc ®îc ®Þnh nghÜa tríc. BiÓu ®å tÇn suÊt còng cã
thÓ ®îc ph©n r· dùa trªn ph©n tÝch nhãm dùa trªn ph©n bæ cña d÷ liÖu.
c) Ph¬ng ph¸p ph©n côm, c©y quyÕt ®Þnh vµ ph©n tÝch t¬ng quan
Ph©n côm, c©y quyÕt ®Þnh vµ ph©n tÝch t¬ng quan còng thêng ®îc sö
dông ®Ó rêi r¹c hãa d÷ liÖu. Trong phÇn nµy chóng t«i chØ giíi thiÖu ng¾n gän
tõng ph¬ng ph¸p.
145 146
Ph©n côm lµ mét ph¬ng ph¸p rêi r¹c hãa kh¸ phæ biÕn. C¸c ph¬ng ph¸p
ph©n côm cã thÓ ®îc sö dông ®Ò rêi r¹c hãa c¸c thuéc tÝnh sè b»ng c¸ch ph©n
nhá gi¸ trÞ cña thuéc tÝnh A vµo c¸c côm hoÆc c¸c nhãm. Ph¬ng ph¸p ph©n
côm cho phÐp ph©n tÝch ph©n bè cña thuéc tÝnh A, tõ ®ã cã thÓ tr¶ l¹i c¸c kÕt
qu¶ rêi r¹c hãa cã chÊt lîng tèt.
Ph©n côm cã thÓ ®îc dïng ®Ó t¹o thµnh c¸c møc ph©n cÊp dùa theo c¶ hai
chiÕn thuËt tõ ph©n r· trªn xuèng vµ gom nhãm tõ díi lªn. VÒ mÆt lý thuyÕt th×
mçi mét nhãm lµ mét nót trong c©y ph©n cÊp, víi mçi nót cha sÏ ®îc ph©n r·
thµnh mét sè côm con thÓ t¹o thµnh møc thÊp h¬n. Ngîc l¹i, c¸c côm ®îc
h×nh thµnh tõ viÖc nhãm mét vµi côm gÇn nhau t¹o thµnh nót cã møc cao h¬n.
C©y quyÕt ®Þnh dïng trong ph©n líp còng cã thÓ ®îc dïng ®Ó rêi r¹c hãa
d÷ liÖu. Ph¬ng ph¸p nµy thùc hiÖn theo c¸ch tiÕp cËn ph©n r· trªn xuèng.
Kh«ng gièng c¸c ph¬ng ph¸p ®· giíi thiÖu ë trªn, c©y quyÕt ®Þnh rêi r¹c hãa
b»ng c¸ch tiÕp cËn häc cã gi¸m s¸t dùa trªn th«ng tin cña thuéc tÝnh ph©n líp.
VÝ dô víi tËp d÷ liÖu vÒ c¸c triÖu chøng cña bÖnh víi mçi ngêi sÏ cã kÕt qu¶
chÈn ®o¸n t¬ng øng. Ph©n bè cña kÕt qu¶ ph©n líp sÏ ®îc sö dông ®Ó tÝnh to¸n
vµ x¸c ®Þnh c¸c vÞ trÝ ph©n t¸ch nót. Mét c¸ch trùc quan, ý tëng chÝnh cña lµ lùa
chän c¸c ®iÓm ph©n chia c¸c nót sao cho cã thÓ ph©n chia thµnh c¸c côm víi c¸c
bé d÷ liÖu cã cïng thuéc tÝnh nh·n. Lý thuyÕt vÒ ®é ®o Entropy thêng ®îc sö
dông cho môc ®Ých nµy. §Ó rêi r¹c hãa mét thuéc tÝnh sè A, ph¬ng ph¸p sÏ lùa
chän gi¸ trÞ cña A sao cho tèi thiÓu hãa ®é ®o Entropy t¹i ®iÓm ph©n t¸ch, c«ng
viÖc nµy ®îc lÆp l¹i cho tíi khi ®¹t møc rêi r¹c phï hîp.
TÝnh to¸n ®é t¬ng quan còng cã thÓ sö dông ®Ó rêi r¹c hãa d÷ liÖu.
Ph¬ng ph¸p tõ tríc tíi giê ®· ®îc tr×nh bµy thêng sö dông híng tiÕp cËn
ph©n r· tõ trªn xuèng. Ngîc l¹i ph¬ng ph¸p nµy lµ ph¬ng ph¸p tæng hîp tõ
díi lªn b»ng c¸ch t×m c¸c l¸ng giÒng gÇn nhau nhÊt vµ ghÐp chóng l¹i víi nhau
thµnh nhãm lín h¬n. Còng gièng nh c¸ch tiÕp cËn dùa trªn c©y quyÕt ®Þnh,
ph¬ng ph¸p nµy còng lµ ph¬ng ph¸p häc cã gi¸m s¸t dùa trªn th«ng tin ph©n
líp. Quan ®iÓm c¬ b¶n cña híng tiÕp cËn nµy lµ ®Ó cã rêi r¹c hãa tèt, tÇn suÊt
cña c¸c líp liªn quan kh¸ phï hîp trong cïng mét kho¶ng. V× vËy nÕu hai
kho¶ng liÒn kÒ cã ph©n bè ph©n líp gièng nhau th× cã thÓ ®îc ghÐp l¹i víi
nhau, nÕu kh«ng th× chóng kh«ng thÓ ghÐp ®îc víi nhau. Ph¬ng ph¸p dùa trªn
chi-test (®îc tr×nh bµy ë môc 3.4 ë trªn) nµy ®îc thùc hiÖn nh sau. §Çu tiªn,
mçi gi¸ trÞ riªng biÖt cña thuéc tÝnh sè A sÏ ®îc coi lµ mét côm ®éc lËp. Hµm
X2 ®îc thùc hiÖn víi tÊt c¶ c¸c nhãm liÒn kÒ nhau. C¸c nhãm víi gi¸ trÞ X2 nhá
nhÊt sÏ ®îc ghÐp víi nhau (do gi¸ trÞ X2 cho biÕt ®é t¬ng ®ång gi÷a hai thuéc
tÝnh, gi¸ trÞ cµng nhá cã nghÜa lµ ph©n bæ cµng gièng nhau). Qu¸ tr×nh gom
nhãm ®îc lÆp l¹i tíi khi tiªu chuÈn dõng ®îc ®Þnh nghÜa tríc.
3.7.Ph¬ng ph¸p ¸p dông cho d÷ liÖu ph©n lo¹i
D÷ liÖu ph©n lo¹i (categorical data) (vÝ dô nh d÷ liÖu vÒ giíi tÝnh, mµu
s¾c, vÞ trÝ ®Þa lý) lµ d÷ liÖu rêi r¹c. §Æc ®iÓm cña lo¹i d÷ liÖu nµy lµ h÷u h¹n
nhng trong mét sè trêng hîp lµ rÊt lín, vµ ®Æc biÖt lµ kh«ng cã thø tù. ViÖc
x¸c ®Þnh thø tù cho lo¹i d÷ liÖu nµy cÇn ph¶i cã chuyªn gia ®Þnh nghÜa. VÝ dô
trong kho d÷ liÖu ta cã c¸c thuéc tÝnh ngâ, phè, tØnh (thµnh phè), quèc gia, khi
®ã ta cã thÓ ®Þnh nghÜa mét c©y ph©n cÊp (hay thø tù) gi÷a c¸c thuéc tÝnh nµy lµ:
ngâ < phè < tØnh < quèc gia. Khi nhãm d÷ liÖu ta còng cÇn ®Þnh nghÜa nh÷ng gi¸
trÞ nµo thuéc vµo nhãm nµo, vÝ dô nh phè nµo thuéc thµnh phè nµo, hay nh÷ng
phè nµo thuéc phÝa b¾c Hµ néi, nh÷ng phè nµo thuéc phÝa nam Hµ néi, ... Sau
khi ®Þnh nghÜa ®îc c¸c nhãm vµ c©y ph©n cÊp nh trªn th× ta cã thÓ ¸p dông c¸c
thuËt to¸n xö lý t¬ng tù nh thuéc tÝnh sè ë trªn.
3.8. Tæng kÕt
ChuÈn bÞ d÷ liÖu lµ mét c«ng viÖc cã vai trß quan träng trong qu¸ tr×nh ph©n tÝch d÷ liÖu. B¶n chÊt cña c«ng t¸c chuÈn bÞ d÷ liÖu lµ xö lý th« d÷ liÖu theo môc ®Ých khai ph¸ cô thÓ nµo ®ã cña ngêi ph©n tÝch. Theo c¸ch tiÕp cËn nµy, viÖc xö lý d÷ liÖu nµy sÏ cã ¶nh hëng lín tíi kÕt qu¶ ph©n tÝch. ChuÈn bÞ d÷ liÖu ®îc ph©n chia thµnh mét sè nhãm nh lµm s¹ch d÷ liÖu, tÝch hîp d÷ liÖu vµ thu gän d÷ liÖu vµ biÕn ®æi d÷ liÖu… tuy nhiªn c¸c ph¬ng ph¸p nµy thêng ®îc sö dông kÕt hîp víi nhau nh»m lµm t¨ng hiÖu qu¶ cña giai ®o¹n khai ph¸ d÷ liÖu theo nhu cÇu cô thÓ cña ngêi ph©n tÝch d÷ liÖu. Trong mçi nhãm l¹i cã rÊt nhiÒu ph¬ng ph¸p cô thÓ kh¸c nhau mµ ë ®©y chóng t«i chØ giíi thiÖu mét
147 148
sè ph¬ng ph¸p ®iÓn h×nh. Tïy thuéc vµo ®Æc tÝnh d÷ liÖu vµ môc tiªu bµi to¸n, ph©n tÝch viªn cÇn lùa chän ph¬ng ph¸p chuÈn bÞ d÷ liÖu t¬ng øng vµ c«ng viÖc nµy thêng rÊt khã ®¸nh gi¸ ®Þnh lîng mét c¸ch chÝnh x¸c. Tuy nhiªn viÖc lùa chän ph¬ng ph¸p thÝch hîp l¹i gióp cho qu¸ tr×nh ph©n tÝch, khai ph¸ d÷ liÖu trë nªn dÔ dµng vµ hiÖu qu¶ h¬n rÊt nhiÒu.
C©u hái vµ Bµi tËp
1. D÷ liÖu trong thùc tÕ thêng kh«ng ®Çy ®ñ, mét sè mÉu cã thÓ bÞ thiÕu mét hoÆc mét vµi gi¸ trÞ. Tr×nh bµy mét sè ph¬ng ph¸p gi¶i quyÕt vÊn ®Ò nµy?
2. Gi¶ sö d÷ liÖu cña thuéc tÝnh tuæi ®îc gom l¹i theo nhãm nh sau:
Tuæi TÇn sè
1-5 200
6-15 450
16-20 300
21-50 1500
51-80 700
81-100 44 TÝnh gi¸ trÞ trung vÞ (xÊp xØ) cña tËp d÷ liÖu trªn.
3. Gi¶ sö gi¸ trÞ cña thuéc tÝnh tuæi lµ nh sau: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70
a. TÝnh gi¸ trÞ trung b×nh vµ trung vÞ cña tËp d÷ liÖu trªn b. TÝnh gi¸ trÞ mode vµ kÕt luËn tËp d÷ liÖu nµy cã ®Æc ®iÓm g×
(unimodal, bimodal, trimodal,...) c. TÝnh gi¸ trÞ midrange cña tËp d÷ liÖu. d. TÝnh gi¸ trÞ (xÊp xØ) Q1 vµ Q3. e. TÝnh bé 5 tãm t¾t cña tËp d÷ liÖu trªn. f. VÏ s¬ ®å boxplot
4. Sö dông tËp d÷ liÖu ë bµi 3. a. Sö dông ph¬ng ph¸p lµm mÞn bin theo tÇn suÊt lµ 3. B×nh luËn
vÒ kÕt qu¶ thu ®îc. b. Lµm c¸ch nµo ®Ó ph¸t hiÖn ®îc trêng hîp ngo¹i lai trong tËp
d÷ liÖu nµy.
c. Sö dông mét ph¬ng ph¸p lµm mÞn kh¸c cho tËp d÷ liÖu nµy. 5. Cho biÕt d÷ liÖu vÒ tuæi cã gi¸ trÞ nh sau: 13, 15, 16, 16, 19, 20, 20, 21,
22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70, thùc hiÖn mét sè yªu cÇu sau
a. Víi kü thuËt min-max, cho biÕt gi¸ trÞ cña tuæi 35 trong kho¶ng [0, 1]
b. Dïng kü thuËt z-score ®Ó chuyÓn gi¸ trÞ 35 víi ®é lÖch chuÈn lµ 12.94
6. Gi¶ sö d÷ liÖu kiÓm tra sù liªn quan gi÷a tuæi vµ sù bÐo ph× cña bÖnh viÖn trªn 18 ngêi chän ngÉu nhiªn:
age 23 23 27 27 39 41 47 49 50
%fat 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2
age 52 54 54 56 57 58 58 60 61
%fat 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7
a. TÝnh gi¸ trÞ trung b×nh, trung vÞ, vµ ®é lÖch chuÈn cña hai thuéc tÝnh tuæi (age) vµ tØ lÖ bÐo (%fat) cho tËp d÷ liÖu trªn.
b. VÔ biÓu ®å boxplot cho 2 thuéc tÝnh trªn c. VÔ biÓu ®å scatter plot vµ q-q plot cho 2 thuéc tÝnh trªn d. ChuÈn hãa 2 thuéc tÝnh trªn b»ng z-score e. TÝnh hÖ sè t¬ng quan gi÷a 2 thuéc tÝnh trªn. KÕt luËn xem 2
thuéc tÝnh nµy cã quan hÖ g× víi nhau hay kh«ng? 7. Sö dông lîc ®å ®Ó tãm t¾t c¸c kü thuËt trÝch chän thuéc tÝnh
a. Më réng dÇn tËp con (forward selection) b. Lo¹i bá dÇn c¸c thuéc tÝnh (backward elimination) c. KÕt hîp hai ph¬ng ph¸p trªn
149 150
Ch¬ng 4. Ph¸t hiÖn luËt kÕt hîp
4.1 Giíi thiÖu vÒ luËt kÕt hîp
MÉu phæ biÕn (frequent patterns) lµ c¸c mÉu (vÝ dô: tËp c¸c môc, chuçi
con hoÆc c¸c thµnh phÇn cÊu tróc con) mµ xuÊt hiÖn mét c¸ch thêng xuyªn
trong mét tËp d÷ liÖu. VÝ dô nh: mét tËp c¸c môc (nh b¸nh m× vµ s÷a), thêng
®îc mua cïng nhau trong c¸c hãa ®¬n hµng siªu thÞ, th× ta gäi lµ tËp môc phæ
biÕn (frequent Itemset). Mçi chuçi con thêng xuÊt hiÖn lÇn lît trong c¬ së d÷
liÖu th× ®îc coi lµ mét mÉu tuÇn tù (sequential pattern) vÝ dô nh kh¸ch hµng
thêng mua laptop tríc sau ®ã cã thÓ mua m¸y ¶nh sè råi ®Õn thÎ nhí. Mét
thµnh phÇn cÊu tróc con nh ®å thÞ con, c©y con, m¹ng con… xuÊt hiÖn thêng
xuyªn th× l¹i ®îc gäi lµ mÉu phæ biÕn cã cÊu tróc (structured pattern). Trong
bµi to¸n khai ph¸ luËt kÕt hîp, chóng ta thêng quan t©m ®Õn c¸c tËp môc phæ
biÕn nhiÒu h¬n.
Khai ph¸ luËt kÕt hîp lµ t×m ra c¸c mÉu cã tÇn suÊt cao, c¸c mÉu kÕt hîp,
liªn quan hoÆc c¸c cÊu tróc tån t¹i gi÷a c¸c tËp hîp ®èi tîng trong c¬ sö d÷ liÖu
c¸c giao dÞch, c¬ së d÷ liÖu quan hÖ hoÆc c¸c kho chøa th«ng tin kh¸c. Nãi c¸ch
kh¸c lµ chóng ta ®i t×m tÊt c¶ c¸c tËp phæ biÕn tõ trong
Cho mét tËp c¸c giao t¸c, khai ph¸ luËt kÕt hîp cã nhiÖm vô t×m ra c¸c luËt
mµ dù ®o¸n sù xuÊt hiÖn cña mét ®èi tîng dùa vµo sù xuÊt hiÖn cña c¸c ®èi
tîng kh¸c trong giao t¸c. Nhng nã kh«ng cã kh¶ n¨ng khai ph¸ ra c¸c chuçi
®èi tîng x¶y ra tuÇn tù ®¶m b¶o mét ®iÒu kiÖn nµo ®ã. §iÒu nµy sÏ ®îc xö lý
trong bµi to¸n khai ph¸ c¸c mÉu tuÇn tù.
Mét trong nh÷ng vÝ dô ®iÓn h×nh cho bµi to¸n khai ph¸ luËt kÕt hîp lµ bµi
to¸n s¾p xÕp hµng hãa trong Siªu thÞ. Gi¶ sö b¹n lµ mét chñ cöa hµng. §Ó ®a ra
chiÕn lîc kinh doanh hiÖu qu¶, b¹n muèn quan t©m ®Õn thãi quen mua s¾m cña
kh¸ch hµng. Mét trong c¸c c©u hái ®Æt ra lµ “Nhãm nh÷ng mÆt hµng nµo mµ
kh¸ch hµng thêng mua cïng trong mét lÇn ghÐ cöa hµng?” Sau khi xö lý trªn
khèi d÷ liÖu hãa ®¬n tõ xa ®Õn nµy th× nhËn ra r»ng: cã 30 % hãa ®¬n cã tÝnh
tiÒn c¶ bia vµ t· lãt trÎ em, vµ cø 100 ngêi mua t· lãt th× cã ®Õn 40 ngêi mua
thªm bia. Nã gîi ý cho b¹n r»ng nªn ®Ó gian hµng bia vµ t· lãt gÇn nhau ®Ó tiÖn
cho kh¸ch hµng. Trong vÝ dô nµy , tËp {bia, t· lãt} lµ mét tËp phæ biÕn víi tÇn
suÊt 30%, luËt {40% ngêi mua t· lãt th× mua lu«n c¶ bia} lµ mét luËt kÕt hîp.
Bµi to¸n ®Æt ra nh sau:
Cho biÕt T = {t1,t2,..., tn} lµ tËp c¸c giao dÞch (transaction) víi n lµ sè c¸c
giao dÞch cã trong T. TËp I = {i1, i2,…. , im} lµ mét tËp gåm m tËp môc kh¸c nhau
xuÊt hiÖn trong ti. Mçi giao dÞch ti lµ mét tËp c¸c môc xuÊt hiÖn ®ång thêi. Ta cã
ti I. Víi X vµ Y lµ c¸c tËp môc. LuËt kÕt hîp cã thÓ biÓu diÔn bëi c«ng thøc
sau:
X # Y, víi X I, Y I vµ X#Y=#
Mét giao dÞch ti thuéc T chøa mét tËp môc X nÕu X lµ tËp con cña ti.
XÐt c¬ së d÷ liÖu bao gåm 8 giao dÞch (n=8) vµ cã 5 môc d÷ liÖu kh¸c nhau
®îc g¸n gi¸ trÞ lÇn lît lµ a, b, c, d, e, vËy ta cã m=5 vµ I= { a, b, c, d, e }. D÷
liÖu trong CSDL ®îc ph©n bæ nh trong b¶ng 4.1
B¶ng 4.1. C¬ së d÷ liÖu vÝ dô gåm 5 giao dÞch
TID TËp môc trong giao dÞch
1 {a, b, c, d, e } 2 {b, c } 3 {a, b, f } 4 {a, b, g } 5 {a, f, h}
151 152
§é hç trî cña X trong T lµ sè giao dÞch chøa X trong T (viÕt t¾t lµ
X.count). VÝ dô: a.count= 4, b.count = 4
Hai kh¸i niÖm hÕt søc c¬ b¶n ®Ó ®o ®é m¹nh cña mét luËt kÕt hîp lµ ®é hç trî vµ ®é tin cËy.
§é hç trî cña mét luËt X Y lµ tØ lÖ % c¸c giao dÞch trong T mµ chøa c¶
X vµ Y. Nã gióp x¸c ®Þnh møc ®é phæ biÕn cña c¸c giao dÞch chøa tËp môc
(X Y) trong tæng sè tÊt c¶ c¸c giao dÞch. C«ng thøc tÝnh ®é hç trî (support):
support (XY) = ( ).
( )X Y count
P X Yn
(
4.1)
§é tin cËy cña luËt X Y l¹i lµ tØ lÖ % c¸c giao dÞch trong T chøa c¶ X vµ
Y trªn tæng sè c¸c giao dÞch trong T chØ chøa X. Nã lµ ®¹i lîng x¸c ®Þnh kh¶
n¨ng dù ®o¸n cña luËt vµ ®îc tÝnh nh sau:
confidence (XY) = ( ).
( | ).
X Y countP X Y X
X count
(
4.2)
Bµi to¸n c¬ b¶n ®Æt ra: cho mét tËp c¸c giao dÞch T, t×m ra tÊt c¶ c¸c luËt
kÕt hîp trong T mµ cã ®é hç trî kh«ng nhá h¬n mét ngìng nµo ®ã(minsup) vµ
®ång thêi còng cã ®é tin cËy kh«ng nhá h¬n mét ngìng kh¸c (mincon). LuËt
®îc sinh ra tháa m·n kh«ng nhá h¬n hai ngìng minsup vµ minconf ®îc gäi lµ luËt m¹nh. Nh×n chung, bµi to¸n khai ph¸ luËt kÕt hîp thêng ®îc chia lµm 2
pha chÝnh:
Pha 1(T×m tÊt c¶ c¸c tËp môc phæ biÕn): Mçi tËp môc sÏ ®îc tÝnh x¸c suÊt
xuÊt hiÖn, c¸c tËp môc phæ biÕn ph¶i tháa m·n ®é hç trî kh«ng nhá h¬n ®é hç
trî tèi thiÓu minsup
Pha 2 (Sinh ra c¸c luËt kÕt hîp m¹nh tõ c¸c tËp môc phæ biÕn ë pha 1): C¸c
luËt nµy ph¶i cã ®é tin cËy kh«ng nhá h¬n ®é tin cËy nhá nhÊt mincon
Kh¸c víi c¸c kiÓu khai ph¸ d÷ liÖu kh¸c, dùa vµo c¸c ngìng tèi thiÓu,
khai ph¸ luËt kÕt hîp lu«n chØ cã duy nhÊt mét tËp kÕt qu¶ cho dï ¸p dông bÊt k×
mét gi¶i thuËt nµo. Th¸ch thøc lín nhÊt cña khai ph¸ tËp môc phæ biÕn lµ nã
thêng sinh ra mét lîng v« cïng lín c¸c tËp môc tháa m·n ngìng minsup, ®Æc
biÖt khi minsup kh¸ nhá. §iÒu nµy do nÕu mét tËp môc lµ thêng xuyªn th× mçi
tËp con cña nã còng thêng xuyªn x¶y ra. Víi mét tËp môc dµi vµ tæ hîp cña c¸c
tËp môc con cña nã. VÝ dô: ta cã mét tËp môc thêng xuyªn cã ®é dµi 100, sÏ
chøa 100 tËp môc cã ®é dµi 1, chøa …
Sè lîng c¸c tËp thêng xuyªn nh vËy lµ qu¸ lín ®Ó tÝnh to¸n nªn ngêi ta
®a ra mét sè kh¸i niÖm ®Ó gi¶i quyÕt vÊn ®Ò nµy bao gåm tËp thêng xuyªn ®ãng vµ tËp thêng xuyªn cùc ®¹i. Mét tËp môc ®îc gäi lµ tËp thêng xuyªn
®ãng trong tËp D nÕu nã võa ®ãng vµ thêng xuyªn trong D. ???
4.2 Ph¬ng ph¸p khai ph¸ tËp môc phæ biÕn
Apriori lµ mét thuËt gi¶i ®îc do R. Agrawal, R. Srikant ®Ò xuÊt lÇn ®Çu
vµo n¨m 1994 nh»m khai ph¸ tËp môc phæ biÕn nhÞ ph©n. ThuËt to¸n nµy thùc
hiÖn lÆp l¹i viÖc t×m kiÕm theo møc, sö dông th«ng tin ë møc k ®Ó duyÖt møc
k+1. §Çu tiªn, tËp c¸c môc thêng xuyªn cã ®é dµi lµ 1 ®îc x©y dùng b»ng
viÖc duyÖt qua toµn bé d÷ liÖu ®Ó ®Õm sù xu©t hiÖn cña tõng phÇn tö vµ gi¸ trÞ
nµy ph¶i lín h¬n hoÆc b»ng ®é hç trî nhá nhÊt (minsup). KÕt qu¶ cña viÖc ®Õm
nµy ®îc ký hiÖu lµ L1. TiÕp theo L1 nµy ®îc sö dông ®Ó t×m L2 lµ tËp môc
thêng xuyªn cã ®é dµi 2. T¸c vô nµy ®îc thùc hiÖn lÆp l¹i ®Õn khi kh«ng t×m
®îc tËp môc thêng xuyªn cã ®é dµi k tháa m·n ®iÒu kiÖn minsup. Lu ý r»ng
mçi lÇn thùc hiÖn viÖc t×m tËp c¸c môc thêng xuyªn Lk yªu cÇu duyÖt toµn bé
d÷ liÖu. Tõ tËp môc thêng xuyªn nµy ta sinh ra luËt kÕt hîp m¹nh b»ng c¸ch
t×m c¸c luËt trong tËp môc thêng xuyªn tháa m·n ngìng minconf.
153 154
Apriori Algorithm
1. DuyÖt toµn bé CSDL giao dÞch ®Ó tÝnh gi¸ trÞ hç trî lµ phÇn tö cña tËp
phæ biÕn tiÒm n¨ng C1 cña 1-itemset, so s¸nh víi minsup, ®Ó cã ®îc 1-itemset
(L1)
2. L1 nèi (phÐp join) L1 ®Ó sinh ra 2-itemset lµ tËp phæ biÕn tiÒm n¨ng.
Lo¹i bá c¸c tËp môc kh«ng ph¶i lµ tËp phæ biÕn thu ®îc 2-itemset C2
3. DuyÖt toµn bé CSDL giao dÞch ®Ó tÝnh gi¸ trÞ hç trî cña mçi øng viªn
2-itemset, so s¸nh tõng phÇn tö víi minsup ®Ó thu ®îc tËp môc thêng xuyªn 2-
itemset (L2)
4. LÆp l¹i tõ bíc 2 cho ®Õn khi tËp øng cö tiÒm n¨ng C= # (kh«ng t×m
thÊy tËp môc phæ biÕn)
5. Víi mçi môc phæ biÕn I, sinh tÊt c¶ c¸c tËp con s kh«ng rçng cña I
6. Víi mçi tËp con s kh«ng rçng cña I, sinh ra c¸c luËt s => (I-s) nÕu ®é
tin cËy (Confidence) cña nã # minconf
VÝ dô:
XÐt CSDL trong B¶ng 4.1, t×m tÊt c¶ c¸c luËt kÕt hîp ¸p dông thuËt to¸n trªn tháa m·n ®iÒu kiÖn minsup= 40% vµ minconf=80% TËp luËt sinh ra sau khi thùc hiÖn thuËt to¸n cã thÓ nh sau R1: ab (support=60%, confidence= 75%) R2: ba (support=60%, confidence= 75%) R3: fa (support=40%, confidence= 100%) R4: cb (support=40%, confidence= 100%)
4.3. ThuËt to¸n FP-Growth
4.3.1. ý tëng thuËt to¸n
ThuËt to¸n kinh ®iÓn Apriori t×m tËp môc phæ biÕn thùc hiÖn kh¸ hiÖu qu¶ tèt bëi rót gän kÝch thíc c¸c tËp øng cö nhê kü thuËt tØa nh¸nh nh giíi thiÖu ë phÇn tríc. Tuy nhiªn, trong t×nh huèng mµ sè c¸c d÷ liÖu nhiÒu, ®é dµi cña giao dÞch dµi hoÆc ®é hç trî cùc tiÓu thÊp, c¸c thuËt to¸n Apriori gÆp ph¶i 2 chi phÝ lín:
- Chi phÝ cho sè lîng khæng lå c¸c tËp øng cö. VÝ dô: nÕu cã 104 tËp 1-môc phæ biÕn th× thuËt to¸n Apriori sÏ cÇn sinh ra h¬n 107 c¸c øng cö 2-itemset vµ thùc hiÖn kiÓm tra s xuÊt hiÖn cña chóng. H¬n n÷a, ®Ó kh¸m ph¸ ®îc mét sè mÉu phæ biÕn kÝch thíc (®é dµi) lµ l, thuËt to¸n ph¶i kiÓm tra (2l-2 ) c¸c mÉu phæ biÕn tiÒm n¨ng. VÝ dô l=100, ch¼ng h¹n lµ
155 156
{a1,a2,....,a100}, nã ph¶i sinh ra tæng sè 2100 1030 c¸c øng cö (®©y chÝnh lµ sè tËp con cña tËp cã 100 phÇn tö)
- §ßi hái lÆp l¹i nhiÒu lÇn duyÖt CSDL ®Ó kiÓm tra tËp rÊt lín c¸c øng cö. Sè lÇn duyÖt CSDL cña thuËt to¸n Apriori b»ng ®é dµi cña mÉu phæ biÕn dµi nhÊt t×m ®îc. Trong trêng hîp mÉu phæ biÕn dµi h¬n vµ CSDL lín, cã nhiÒu b¶n ghi, ®iÒu nµy lµ kh«ng thÓ thùc hiÖn ®îc. ThuËt to¸n Apriori chØ thÝch hîp cho c¸c CSDL tha (sparse), víi c¸c CSDL cã mËt ®é dµy (dense) th× thuËt to¸n thùc hiÖn kÐm hiÖu qu¶ h¬n.
Nh»m kh¾c phôc c¸c nhîc ®iÓm trªn, thuËt to¸n cã tªn lµ FP-growth ®îc giíi thiÖu bëi Jiawei Hai Jian Pei vµ Yiwen Yin n¨m 2000. ThuËt to¸n t×m c¸c tËp phæ biÕn hiÖu qña h¬n thuËt to¸n Apriori b»ng viÖc sö dông mét kü thuËt kh¸c kh«ng cÇn sinh c¸c øng cö. Sù hiÖu qu¶ cña khai ph¸ nhËn ®îc víi 3 kü thuËt chÝnh:
Thø nhÊt nã më réng cña cÊu tróc c©y prefix (prefix tree), ®îc gäi lµ c©y mÉu phæ biÕn (frequent pattern tree hoÆc gäi t¾t lµ FP- tree) dïng ®Ó nÐn d÷ liÖu thÝch hîp. ChØ cã c¸c môc ®é dµi l (l-itemset) ë trong c©y vµ c¸c nót cña c©y ®îc s¾p ®Æt ®Ó c¸c nót xuÊt hiÖn thêng xuyªn h¬n cã thÓ dÔ dµng chia sÎ víi c¸c nót xuÊt hiÖn Ýt h¬n. CSDL lín ®îc nÐn chÆt tíi cÊu tróc d÷ liÖu nhá h¬n (FP-tree), tr¸nh ®îc chi phÝ lÆp l¹i duyÖt qua CSDL.
Thø hai, ph¬ng ph¸p khai ph¸ ph¸t triÓn (growth) tõng ®o¹n dùa trªn Fp-tree gäi lµ ph¬ng ph¸p FP – growth ®· ®îc thùc hiÖn. B¾t ®Çu tõ mÉu phæ biÕn ®é dµi 1, FP-growth chØ xem xÐt c¬ së mÉu phô thuéc cña nã (condition pattern base) nh lµ CSDL con (sub-database) bao gåm tËp c¸c môc phæ biÕn cïng xuÊt hiÖn víi mÉu hËu tè (suffix pattern), x©y dùng condition FP-tree t¬ng øng cña nã vµ thùc hiÖn khai ph¸ ®Ö qui trªn c©y nµy. MÉu ph¸t triÓn lµ nhËn ®îc qua viÖc nèi mÉu hËu tè (suffix pattern) víi mét ®o¹n mÉu ®îc sinh ra tõ condition FP-tree. Khai ph¸ dùa trªn FP-tree ®îc thùc hiÖn theo c¸ch ph¸t triÓn (growth) c¸c ®o¹n mÉu ®Ó tr¸nh chi phÝ cho viÖc sinh ra sè lîng lín c¸c tËp øng cö.
Thø ba, kü thuËt t×m kiÕm ®îc dïng ë ®©y lµ dùa vµo kü thuËt chia ®Ó trÞ (divide-and-conquer method) ®Ó ph©n r· nhiÖm vô khai ph¸ thµnh tËp c¸c nhiÖm vô nhá h¬n víi giíi h¹n c¸c mÉu trong c¸c CSDL nh»m thu gän kh«ng gian t×m kiÕm.
Ph¬ng ph¸p FP-growth ®· chøng tá ®îc tÝnh hiÖu qu¶ cña nã vµ thÓ hiÖn khai ph¸ cho c¶ c¸c mÉu ng¾n vµ dµi, nhanh h¬n thuËt to¸n Apriori, lu«n chØ cÇn duyÖt CSDL 2 lÇn
4.3.2. ThuËt to¸n FP-growth.
1. DuyÖt CSDL lÇn thø nhÊt ®Ó tÝnh ®é hç trî cña tÊt c¶ 1-itemset. Lo¹i bá
nh÷ng môc cã ®é hç trî nhá h¬n minsup. C¸c môc cßn l¹i ®îc s¾p theo thø tù gi¶m dÇn cña ®é hç trî (còng tøc lµ gi¶m dÇn theo sè lÇn xuÊt hiÖn trong CSDL), ta nhËn ®îc danh s¸ch L c¸c môc ®· s¾p.
2. DuyÖt CSDL lÇn thø 2, víi mçi t¸c vô t, lo¹i c¸c môc kh«ng ®ñ ®é hç trî, c¸c môc cßn l¹i theo thø tù gièng nh xuÊt hiÖn trong L (tøc lµ thø tù gi¶m dÇn theo ®é hç trî) ®îc ®a vµo c©y FP-tree.
3. T×m c¸c tËp môc phæ biÕn trªn c©y FP-tree ®· x©y dùng mµ kh«ng cÇn duyÖt l¹i CSDL n÷a.
§Þnh nghÜa 4.1: CÊu tróc c©y FP-tree ®îc ®Þnh nghÜa nh sau: - Gèc cña c©y nh·n null, c¸c ®êng ®i trªn c©y biÓu diÔn mét tËp c¸c tiÒn
tè cña mét tËp môc - Mçi nót trong c©y cã chøa 3 thµnh phÇn: tªn môc, sè lÇn xuÊt hiÖn
(count), con trá. Trong ®ã, count lµ sè lîng xuÊt hiÖn cña nh¸nh con (tõ NULL ®Õn nót nµy) trong c¸c giao dÞch, cßn con trá liªn kÕt (mòi tªn nÐt ®øt) ®Õn nót cã cïng tªn tiÕp theo cña nã.
- Mçi dßng trong b¶ng header chøa 2 trêng: tªn môc vµ nót rçng trá tíi ®Õn nót ®Çu tiªn cïng mét môc trªn c©y FP
H×nh 4.2- VÝ dô vÒ c©y FP (x©y dùng tõ d÷ liÖu ë b¶ng 4.1)
Ta x©y dùng hµm _ (( , ), )insert tree p P T víi T lµ gèc cña mét nh¸nh
con ta ®ang duyÖt ®Õn. NÕu T cã mét nót con lµ N tháa m·n N.tªn = p.tªn th×
157 158
N.count t¨ng lªn 1. Ngîc l¹i, ta t¹o mét nót con míi Q víi Q.tªn=P.tªn víi
Q.count = 1 . Gäi tiÕp hµm ®Ö quy insert_tree cho tËp con P vµ N hoÆc Q øng
víi tõng trêng hîp. Thñ tôc thªm mét d·y c¸c môc (®· s¾p gi¶m dÇn theo ®é hç
trî) cña mét t¸c vô vµo c©y thùc hiÖn ®Ö quy nh sau: Procedure insert_tree(string[p|P],tree cã gèc T) If T cã nót con N mµ N.itemname=p Then N.count++
else T¹o mét nót míi N; N.itemname:=p; N.count:=1 Thay ®æi nót liªn kÕt cho p bao gåm N; End if If p # rçng insert_tree(P,N);
VÝ dô: X©y dùng l¹i c©y FP tuÇn tù tõng bíc 1 T×m tËp môc phæ biÕn trªn c©y FP-tree: Sau khi x©y dùng xong FP-tree cho CSDL, viÖc khai ph¸ t×m c¸c mÉu phæ biÕn chØ thùc hiÖn trªn c©y FP-tree mµ kh«ng cÇn duyÖt CSDL n÷a. KiÕn tróc cña c©y FP ®¶m b¶o mét kiÕn tróc d÷ liÖu kh¶ bÒn v÷ng. Tuy nhiªn nã kh«ng mÆc ®Þnh ®¶m b¶o ch¾c ch¾n r»ng nã cã ®é hiÖu qu¶ cao h¬n nhiÒu bëi v× nÕu vÉn ®¬n gi¶n sö dông c©y FP ®Ó sinh vµ kiÓm tra tÊt c¶ c¸c mÉu øng viªn th× chóng ta vÉn ph¶i ®èi mÆt víi mét lîng tæ hîp lín c¸c øng viªn ®îc sinh ra.
Mét gi¶i thuËt chia-®Ó-trÞ ®îc x©y dùng gióp gi¶i quyÕt ®iÓm h¹n chÕ trªn.
Tríc hÕt, cÇn lµm râ mét sè bæ ®Ò, tÝnh chÊt hç trî cho gi¶i thuËt.
TÝnh chÊt 1(TÝnh chÊt liªn kÕt nót)
Víi bÊt cø môc phæ biÕn ai nµo, tÊt c¶ c¸c mÉu phæ biÕn cã phÇn tö cuèi
cïng lµ ai ®Òu cã thÓ ®îc t×m ra th«ng qua c¸c liªn kÕt nót cña ai, b¾t ®Çu tõ nót
®Çu trªn b¶ng tiªu ®Ò c¸c môc
ThËt vËy, nÕu ta lo¹i bá c¸c nh¸nh kh«ng chøa d vµ c¸c nót con ®»ng sau d
nh trong H×nh 4.3(a) dùa vµo ®êng liªn kÕt nót. TÊt c¶ th«ng tin vÒ c¸c mÉu
phæ biÕn cã phÇn tö cuèi lµ d ®Òu chøa trong ®å thÞ bªn ph¶i..
H×nh 4.3: M« t¶ tÝnh chÊt liªn kÕt nót
Ta cã c¸c mÉu ®iÒu kiÖn c¬ së(conditional pattern base) cho nót d lµ {(a:8, b:5, c:3), (a:8, b:5), (a:8, c:1), (a:8),(b:2, c:2, d:1)}. §ã lµ c¸c ®êng kÐo tõ nót
gèc ®Õn d. Qua ®ã ta t×m ra ®îc c©y ®iÒu kiÖn gäi lµ c©y FP ®iÒu
kiÖn(conditional FP-tree) bao gåm c¸c nót trªn H×nh 4.3(b) mµ cã tæng sè lÇn
xuÊt hiÖn trªn c¸c mÉu ®iÒu kiÖn c¬ së cña ai lín h¬n ®é hç trî tèi thiÓu. VÝ dô
trong H×nh 4.3(c), c¸c biÕn count ®· ®îc ®iÒu chØnh øng víi c.count, nÕu
minsup = 4 th× ta cã c©y FP ®iÒu kiÖn lµ (a:4,b:5)|c, cßn nÕu minsup = 5 th× ta cã
c©y FP ®iÒu kiÖn lµ{(b:5)}|c
TÝnh chÊt 2 (TÝnh chÊt §êng tiÒn tè -Prefix path)
159 160
§Ó tÝnh c¸c mÉu phæ biÕn cho nót ai trªn ®êng ®¬n P, chØ cÇn quan t©m
®Õn c¸c nót ®i tríc nót ai trªn ®êng P, vµ c¸c nót ®ã cã cïng gi¸ trÞ count víi
nót ai nÕu coi nh c©y chØ bao gåm duy nhÊt ®êng P.
ThËt vËy, víi nh¸nh ®Çu tiªn trong H×nh 4.3(c), ta cã ®êng {(a:3,b:3)} cho
nót (c:3) . §êng nµy gäi lµ transform prefixed path cña ai trªn P.
Bæ ®Ò Fragment Growth
Cho lµ mét tËp môc trong d÷ liÖu giao dÞch D, B lµ mÉu ®iÒu kiÖn cña , vµ lµ mét tËp môc trong B. Khi ®ã, ®é hç trî cña ( ) trong D
t¬ng ®¬ng víi ®é hç trî cña trong B .
ThËt vËy, trong H×nh 4.3 (b)(c) th× nót ai ë ®©y lµ c hoÆc d ®Òu n»m ë nót
l¸ vµ .ia count lµ lín nhÊt. Do ®ã ®é hç trî cña ( ) b»ng ®é hç trî
cña . Ngoµi ra, ta rót ra ®îc nhËn xÐt lµ ®Ó ( ) lµ tËp môc phæ biÕn khi
vµ chØ khi còng lµ tËp môc phæ biÕn.
TÝnh chÊt 3 (Sinh ra mÉu trªn ®êng FP-tree ®¬n)
Gi¶ sö mét c©y FP lµ T (nh H×nh 4.3 (a)) cã mét ®êng ®¬n P. TËp tÊt c¶
c¸c mÉu phæ biÕn cña T cã thÓ t×m ®îc b»ng c¸ch tæ hîp c¸c nót trªn P mµ cã
®é hç trî kh«ng nhá h¬n minsup
VÝ du, gi¶ sö ta cã c©y FP ®iÒu kiÖn lµ {(a:4,b:5) }|c th× ta cã thÓ kiÓm tra
c¸c tæ hîp {ac, bc ,abc}.
Procedure FP-Growth(Tree, ){// lµ 1 itemset
(1) If Tree chøa mét ®êng ®¬n P
(2) then for each tæ hîp © cña c¸c nót trªn P do
(3) sinh ra mÉu cã ®é hç trî b»ng ®é
hç trî nhá nhÊt cña c¸c nót trong ©;
(4) End for;
(5) else for each ai trªn hµng ®Çu tiªn cña Tree do
(6) sinh ra mÉu ia víi ®é hç trî = ®é hç trî cña ai;
(7) x©y dùng mÉu ®iÒu kiÖn cña ;
(8) x©y dùng c©y FP ®iÒu kiÖn Tree ;
(9) if Tree
(10) then gäi ( , )FP growth Tree
(11) end for;
(12)end if;
VÝ dô minh häa:
§èi víi mçi item ta t¹o ra c¸c c©y con ®êng cha (nh H×nh 4.4) dùa vµo
c¸c ®êng mÉu ®iÒu kiÖn c¬ b¶n cña nã.
§èi víi mçi c©y con ®ã(øng víi mét item) ta sinh ra c©y FP ®iÒu kiÖn b»ng
c¸ch(vÝ dô mÉu víi c©y c¶ e trong H×nh 4.4(a))
CËp nhËt l¹i c¸c con ®Õm count . Lóc nµy chØ cã 2 ®êng qua a , nh vËy
a.count = 2. T¬ng tù ta cã b.count =1 vµ c.count = 1. Lo¹i bá c¸c nót e nh
H×nh 4.5 Ta thùc hiÖn tiÕp tôc t×m c¸c tËp phæ biÕn møc 3 chøa de ë cuèi nh
H×nh 4.7 (lµm t¬ng tù víi ae, ce). Trong c©y FP ®iÒu kiÖn cña e, nh¸nh bªn ph¶i
NULL kh«ng chøa l¸ d, do vËy nh¸nh nµy bÞ c¾t ®i khi xem xÐt ®Õn c¸c tËp phæ
biÕn cã chøa de. Sau khi c¾t ta ®îc h×nh 4.7b ë gi÷a cha c¸c ®êng tiÕn tè cña
de.
161 162
H×nh 4.5. C©y sau khi lo¹i bá nót e
TiÕp tôc xem xÐt ®Õn ®é hç trî cña c¸c môc trong c©y 4.7b, c.count=1 nhá
h¬n ®é hç trî tèi thiÓu nªn môc c bÞ c¾t ®i. Ta cßn l¹i h×nh 4.7c chøa c©y FP ®iÒu
kiÖn cho de vµ nã chØ cã duy nhÊt ®Ønh a (kh«ng tÝnh gèc). VËy ta cã thªm tËp
môc phæ biÕn {a,d,e}. Lo¹i bá nót cã ®é hç trî nhá h¬n ®é hç trî tèi thiÓu trong
c©y (H×nh 4.6). ë ®©y, ®é hç trî cña B lµ 1, trong khi minsup=2. Tõ c©y nµy ta
t×m ®îc c¸c tËp phæ biÕn møc 2 chøa e ë cuèi : ae, de, ce
H×nh 4.6 C©y sau khi lo¹i bá nót e vµ tÝnh to¸n l¹i ®é hç trî
H×nh 4.7. TËp phæ biÕn møc 3
4.4 Mét sè thuËt to¸n song song
Mét sè thuËt to¸n song song ®· ®îc ®Ò xuÊt vµ thö nghiÖm. C¸c thuËt to¸n
nµy ®îc thiÕt kÕ trªn hÖ m¸y tÝnh song song kh«ng chia sÎ (shared-nothing
architecture) cã tÝnh chÊt nh sau:
HÖ cã N bé xö lý (BXL - processor), mçi BXL iP nµy cã b« nhí trong
(RAM) vµ bé nhí ngoµi (thêng lµ æ ®Üa) ®éc lËp víi c¸c BXL cßn l¹i trong hÖ
thèng.
N BXL nµy cã thÓ truyÒn th«ng víi nhau nhê mét m¹ng tèc ®é cao sö dông
c¬ chÕ truyÒn th«ng ®iÖp (message passing).
163 164
4.4.1. ThuËt to¸n ph©n phèi ®é hç trî
ThuËt to¸n song song ph©n phèi ®é hç trî dùa trªn nÒn thuËt to¸n Apriori
[AS94]. Trong thuËt to¸n nµy, N lµ sè BXL, iP lµ BXL thø i,
iD lµ phÇn d÷
liÖu ®îc g¾n víi BXL iP (CSDL D ban ®Çu ®îc chia ra lµm N phÇn, mçi
phÇn g¾n víi mét BXL). ThuËt to¸n bao gåm c¸c bíc sau:
Bíc 1: víi k = 1, tÊt c¶ N BXL ®Òu nhËn ®îc kL lµ tËp tÊt c¶ c¸c tËp
thuéc tÝnh phæ biÕn cã lùc lîng b»ng 1.
Bíc 2: víi mäi k > 1, thuËt to¸n thùc hiÖn lÆp ®i lÆp l¹i c¸c bíc sau:
Mçi BXL iP t¹o ra tËp c¸c tËp thuéc tÝnh øng cö viªn kC b»ng c¸ch
kÕt nèi c¸c tËp thuéc tÝnh phæ biÕn trong 1kL . Nhí r»ng, tÊt c¶ c¸c BXL ®Òu cã
th«ng tin vÒ 1kL gièng hÖt nhau nªn chóng sinh ra kC còng gièng hÖt nhau.
Mçi BXL iP duyÖt qua CSDL
iD cña riªng nã ®Ó cËp nhËt ®é hç trî
côc bé cho c¸c tËp thuéc tÝnh øng cö viªn trong kC . §©y chÝnh lµ qu¸ tr×nh c¸c
BXL thùc hiÖn song song víi nhau.
Sau khi ®· cËp nhËt xong ®é hç trî côc bé cho c¸c tËp thuéc tÝnh øng cö
viªn trong kC , c¸c BXL tiÕn hµnh truyÒn th«ng tin cho nhau ®Ó thu ®îc ®é hç
trî toµn côc. ë bíc nµy, c¸c BXL b¾t buéc ph¶i ®ång bé hãa víi nhau.
C¸c BXL c¨n cø vµo ®é hç trî tèi thiÓu minsup ®Ó chän ra tËp nh÷ng tËp
thuéc tÝnh phæ biÕn kL tõ tËp c¸c øng cö viªn kC .
Mçi BXL cã quyÒn kÕt thóc t¹i bíc nµy hoÆc tiÕp tôc thùc hiÖn lÆp l¹i
bíc 2.1.
H×nh 4.8 minh häa nguyªn lý lµm viÖc cña thuËt to¸n nµy.
H×nh 4.8. ThuËt to¸n Ph©n phèi ®é hç trî trªn 3 BXL
4.4.2. ThuËt to¸n ph©n phèi d÷ liÖu
¦u ®iÓm næi bËt cña thuËt to¸n ph©n phèi ®é hç trî lµ kh«ng cÇn truyÒn d÷
liÖu gi÷a c¸c BXL trong qu¸ tr×nh tÝnh to¸n. Do ®ã, chóng cã thÓ ho¹t ®éng ®éc
lËp vµ kh«ng ®ång bé víi nhau trong khi duyÖt d÷ liÖu trªn bé nhí hoÆc æ ®Üa
côc bé. Tuy nhiªn, nhîc ®iÓm cña thuËt to¸n nµy lµ kh«ng khai th¸c hÕt søc
m¹nh tæng hîp cña N bé nhí øng víi N BXL cña toµn hÖ thèng. Gi¶ sö mçi
BXL cã dung lîng bé nhí côc bé lµ |M| th× sè tËp thuéc tÝnh øng cö viªn ®îc
c©p nhËt ®é hç trî trong mçi pha bÞ giíi h¹n bëi h»ng sè m phô thuéc |M|. Khi
sè BXL trong hÖ th«ng t¨ng tõ 1 ®Õn N, hÖ thèng sÏ cã mét bé nhí tæng hîp víi
dung lîng N x |M|, nhng víi thuËt to¸n ph©n phèi ®é hç trî ë trªn, chóng ta
còng chØ ®Õm ®îc m tËp thuéc tÝnh øng cö viªn do tÝnh chÊt cña thuËt to¸n lµ tÊt
c¶ c¸c BXL ®Òu cã tËp kC gièng hÖt nhau.
ThuËt to¸n ph©n phèi d÷ liÖu (data distribution) ®îc thiÕt kÕ víi môc ®Ých
tËn dông ®îc søc m¹nh tæng hîp cña bé nhí hÖ thèng khi sè BXL t¨ng lªn.
165 166
Trong thuËt to¸n nµy, mçi BXL tiÕn hµnh cËp nhËt ®é hç trî cho mét sè c¸c tËp
thuéc tÝnh øng cö viªn cña riªng nã. Do ®ã, khi sè BXL trong hÖ thèng t¨ng lªn,
thuËt to¸n nµy cã thÓ cËp nhËt ®é hç trî cho rÊt nhiÒu c¸c tËp thuéc tÝnh øng cö
viªn trong mét pha. Nhîc ®iÓm cña thuËt to¸n nµy lµ mçi BXL ph¶i truyÒn vµ
nhËn d÷ liÖu ë mçi pha nªn nã chØ kh¶ thi khi hÖ thèng cã mét m«i trêng
truyÒn th«ng nhanh vµ æn ®Þnh gi÷a c¸c nót trong hÖ thèng. ThuËt to¸n song
song ph©n phèi d÷ liÖu (data distribution) còng dùa trªn nÒn thuËt to¸n Apriori
[AS94]. Trong thuËt to¸n nµy, N lµ sè BXL, iP lµ BXL thø i,
iD lµ phÇn d÷
liÖu ®îc g¾n víi BXL iP (CSDL D ban ®Çu ®îc chia ra lµm N phÇn, mçi
phÇn g¾n víi mét BXL). ThuËt to¸n bao gåm c¸c bíc sau:
Bíc 1: t¬ng tù nh trong thuËt to¸n ph©n phèi ®é hç trî
Bíc 2: víi k > 1:
Mçi BXL iP t¹o tËp c¸c tËp thuéc tÝnh øng cö viªn kC tõ tËp c¸c tËp
thuéc tÝnh phæ biÕn 1kL . Nã kh«ng thao t¸c tÊt c¶ trªn kC mµ chØ gi÷ l¹i mét
phÇn cña kC ®îc chia ®Òu cho N BXL. PhÇn ®îc gi÷ l¹i cho BXL iP ®îc
x¸c ®Þnh nhê ®Þnh danh tiÕn tr×nh (process identification) mµ kh«ng c©n truyÒn
th«ng gi÷ c¸c tiÕn tr×nh. C¸c ikC ®îc chia tháa m·n: Øj
kik CC (víi mäi i
# j) vµ
kik
N
iCC
1
BXL iP chØ ®Õm ®é hç trî cho c¸c tËp môc øng cö viªn trong i
kC b»ng
c¸ch sö dông d÷ liÖu côc bé iD cña nã vµ d÷ liÖu nhËn ®îc tõ c¸c BXL kh¸c
trong hÖ thèng.
Sau khi ®Õm xong ®é hç trî, mçi BXL iP chän ra tËp nh÷ng tËp thuéc tÝnh
phæ biÕn côc bé ikL tõ i
kC t¬ng øng. Nhí r»ng Øjk
ik LL (víi mäi i # j) vµ
kik
N
iLL
1
H×nh 4.9 - ThuËt to¸n ph©n phèi d÷ liÖu trªn 3 BXL
C¸c BXL tiÕn hµnh trao ®æi ikL cho nhau sao cho tÊt c¶ c¸c BXL ®Òu nhËn
®îc kL ®Ó sinh kC cho lÇn lÆp tiÕp theo. Bíc nµy cÇn sù ®ång bé hãa gi÷a
c¸c BXL. Sau khi nhËn ®îc bíc kL , mçi BXL cã thÓ ®éc lËp quyÕt ®Þnh
ngõng lµm viÖc hoÆc tiÕp tôc thùc hiÖn bíc lÆp tiÕp theo. H×nh 4.9 minh häa
nguyªn lý lµm viÖc cña thuËt to¸n nµy.
4.4.3. ThuËt to¸n ph©n phèi tËp øng cö viªn
H¹n chÕ cña hai thuËt to¸n trªn (count & data distribution) ë chç do mäi
giao dÞch hoÆc b¶n ghi trong CSDL ®Òu cã thÓ hç trî mét tËp thuéc tÝnh øng cö
viªn nµo ®ã nªn c¸c giao dÞch hay b¶n ghi ph¶i ®îc ®èi s¸nh víi tÊt c¶ c¸c tËp
thuéc tÝnh øng cö viªn. §iÒu nµy dÉn ®Õn viÖc thuËt to¸n ph©n phèi ®é hç trî
ph¶i lu gi÷ tËp c¸c tËp øng cö viªn gièng nhau trªn mäi BXL vµ thuËt to¸n ph©n
phèi d÷ liÖu ph¶i göi d÷ liÖu cho nhau trong qu¸ tr×nh cËp nhËt ®é hç trî. H¬n
n÷a, hai thuËt to¸n nµy ph¶i tiÕn hµnh ®ång bé hãa ë cuèi mçi pha thùc hiÖn
song song ®Ó trao ®æi ®é hç trî côc bé hoÆc tËp c¸c tËp phæ biÕn cho nhau. Yªu
cÇu ®ång bé hãa trong suèt thêi gian thùc hiÖn cña thuËt to¸n sÏ lµm gi¶m hiÖu
167 168
suÊt thùc hiÖn cña hÖ thèng do c¸c BXL hoµn thµnh c«ng viÖc sím ph¶i “chê
®îi” c¸c BXL hoµn thµnh c«ng viÖc muén h¬n. Nguyªn nh©n cña vÊn ®Ò nµy lµ
do hai thuËt to¸n trªn míi chia c«ng viÖc cho c¸c BXL mét c¸ch “c«ng b»ng”
chø cha chia mét c¸ch võa “c«ng b»ng” võa “kh«n ngoan”.
ThuËt to¸n ph©n phèi tËp øng cö viªn (candidate distribution) cè g¾ng chia
tËp øng cö viªn sao cho c¸c BXL cã thÓ ®éc lËp lµm viÖc vµ h¹n chÕ tèi ®a c«ng
viÖc ®ång bé hãa. B¾t ®Çu mét pha l nµo ®ã (l ®îc x¸c ®Þnh dùa theo kinh
nghiÖm), thuËt to¸n nµy chia tËp thuéc tÝnh phæ biÕn Ll-1 cho c¸c BXL sao cho
mçi BXL iP cã thÓ t¹o ra tËp øng cö viªn imC (m # l) ®éc lËp víi c¸c BXL
kh¸c j)iØ,( jm
im CC . §ång thêi, d÷ liÖu còng ®îc chia l¹i sao cho
mçi BXL iP cã thÓ cËp nhËt ®é hç trî cho c¸c tËp øng cö viªn trong i
mC ®éc
lËp víi c¸c BXL kh¸c. §óng thêi gian ®ã, d÷ liÖu ®îc ph©n chia l¹i sao cho mçi
BXL iP cã thÓ cËp nhËt ®é hç trî cho c¸c tËp thuéc tÝnh øng cö viªn trong imC
mét c¸ch ®éc lËp víi c¸c BXL kh¸c. Nhí r»ng, sù ph©n chia d÷ liÖu phô thuéc
rÊt nhiÒu vµo bíc ph©n chia tËp øng cö viªn tríc ®ã. NÕu ph©n chia tËp øng cö
viªn kh«ng “khÐo lÐo” th× chóng ta kh«ng thÓ cã mét ph©n ho¹ch d÷ liÖu cho c¸c
BXL mµ chØ cã mét ph©n chia t¬ng ®èi – nghÜa lµ cã thÓ cã nh÷ng phÇn d÷
liÖu trïng lÆp trªn c¸c BXL.
Sau khi ph©n ho¹ch 1kL , c¸c BXL lµm viÖc ®éc lËp víi nhau. ViÖc cËp
nhËt ®é hç trî cho tËp c¸c øng cö viªn côc bé kh«ng ®ßi hái c¸c BXL ph¶i
truyÒn th«ng víi nhau. ChØ cã mét sù phô thuéc duy nhÊt gi÷a c¸c BXL lµ chóng
ph¶i göi cho nhau nh÷ng th«ng tin cÇn cho viÖc c¾t tØa c¸c øng cö viªn kh«ng
cÇn thiÕt. Tuy nhiªn, nh÷ng th«ng tin nµy cã thÓ ®îc truyÒn cho nhau theo chÕ
®é dÞ bé vµ c¸c BXL kh«ng cÇn ph¶i ®îi ®Ó nhËn ®Çy ®ñ th«ng tin nµy tõ c¸c
BXL kh¸c. C¸c BXL cè g¾ng c¾t tØa ®îc cµng nhiÒu cµng tèt nhê vµo nh÷ng
th«ng tin ®Õn tõ c¸c BXL kh¸c. Nh÷ng th«ng tin ®Õn muén sÏ ®îc sö dông cho
lÇn c¾t tØa tiÕp theo. ThuËt to¸n ph©n phèi tËp øng cö viªn bao gåm nh÷ng bíc
sau:
Bíc 1 (k < l): sö dông mét trong hai thuËt to¸n ph©n phèi ®é hç trî hoÆc
ph©n phèi d÷ liÖu.
Bíc 2 (k = l):
Ph©n chia 1kL cho N BXL. Chóng ta sÏ xem xÐt c¸ch ph©n chia ë phÇn
sau. Qu¸ tr×nh ph©n chia nµy lµ gièng hÖt nhau vµ ®îc thùc hiÖn song song trªn
c¸c BXL.
Mçi BXL iP sÏ sö dông i
kL 1 ®Ó t¹o ra ikC cña nã.
iP sÏ cËp nhËt ®é hç trî cho c¸c tËp øng cö viªn trong ikC vµ CSDL sÏ
®îc ph©n chia l¹i ngay sau ®ã.
Sau ®ã, iP thùc hiÖn trªn d÷ liÖu côc bé vµ tÊt c¶ d÷ liÖu nhËn ®îc tõ c¸c
BXL kh¸c. Nã t¹o ra N-1 bé ®Öm nhËn dÞ bé ®Ó nhËn c¸c jkL tõ c¸c BXL kh¸c.
Nh÷ng jkL nµy cÇn thiÕt cho bíc c¾t tØa c¸c tËp øng cö viªn trong i
kC 1 .
iP sinh ra ikL tõ i
kC vµ truyÒn th«ng lan truyÒn (broadcast) dÞ bé tíi N-1
bé vi xö lý kh¸c.
Bíc 3 (k > l):
Mçi BXL iP thu thËp tÊt c¶ nh÷ng tËp phæ biÕn tõ c¸c BXL kh¸c. Th«ng
tin vÒ c¸c tËp phæ biÕn nµy sÏ ®îc dïng ®Ó c¾t tØa. C¸c tËp thuéc tÝnh nhËn ®îc
tõ BXL j sÏ cã ®é dµi k-1, nhá h¬n k-1 (nÕu lµ BXL chËm), hoÆc lín h¬n k-1
(nÕu lµ BXL nhanh). iP t¹o ra i
kC dùa vµo ikL 1 . Mét trêng hîp cã thÓ x¶y ra lµ
iP kh«ng
nhËn ®îc jkL 1 tõ c¸c BXL kh¸c, do ®ã
iP cÇn ph¶i “cÈn thËn” trong kho¶ng
thêi gian c¾t tØa. iP thùc hiÖn duyÖt d÷ liÖu ®Ó cËp nhËt ®é hç trî cho c¸c tËp thuéc tÝnh
trong ikC . Sau ®ã nã tÝnh to¸n i
kL tõ ikC vµ truyÒn dÞ bé th«ng tin vÒ i
kL tíi N-
1 BXL cßn l¹i trong hÖ thèng.
169 170
ChiÕn lîc ph©n chia d÷ liÖu: Chóng ta xem xÐt c¸ch ph©n chia d÷ liÖu cña
thuËt to¸n nµy th«ng qua mét vÝ dô ®¬n gi¶n sau ®©y.
Cho L3 = {ABC, ABD, ABE, ACD, ACE, BCD, BCE, BDE, CDE}.
L4 = {ABCD, ABCE, ABDE, ACDE, BCDE},
L5 = {ABCDE},
L6 = #.
Chóng ta xÐt tËp # = {ABC, ABD, ABE} víi c¸c thµnh viªn cña nã cã
chung ph©n ®Çu lµ AB. Nhí r»ng, c¸c tËp thuéc tÝnh ABCD, ABCE, ABDE vµ
ABCDE còng cã chung tiÒn tè AB.
Do ®ã, gi¶ sö r»ng c¸c thuéc tÝnh trong tËp thuéc tÝnh ®îc s¾p theo thø tù
tõ vùng, chóng ta cã thÓ ph©n chia c¸c tËp phæ biÕn trong kL dùa vµo tiÒn tè cã
®é dµi k-1 ®Çu tiªn cña c¸c tËp, nhê vËy c¸c BXL cã thÓ lµm viÖc ®éc lËp víi
nhau.
Cµi ®Æt thuËt to¸n nµy trong thùc tÕ phøc t¹p h¬n rÊt nhiÒu bëi hai lý do. Lý
do thø nhÊt lµ mét BXL cã thÓ ph¶i nhËn c¸c tËp thuéc tÝnh phæ biÕn ®îc tÝnh
to¸n bëi c¸c BXL kh¸c cho bíc c¾t tØa tiÕp theo. Trong vÝ dô trªn, BXL ®îc
g¸n tËp øng cö viªn # ph¶i biÕt BCDE cã ph¶i lµ tËp phæ biÕn hay kh«ng míi
quyÕt ®Þnh ®îc cã c¾t tØa tËp ABCDE hay kh«ng, nhng tiÒn tè cña BCDE lµ
BC nªn BCDE l¹i thuéc vÒ mét BXL kh¸c. Lý do thø hai lµ chóng ta ph¶i tÝnh
to¸n c©n b»ng t¶i cho c¸c BXL trong hÖ thèng.
4.4.4. ThuËt to¸n sinh luËt song song
Cho mét tËp phæ biÕn h, ch¬ng tr×nh con sinh luËt kÕt hîp sÏ sinh ra luËt
d¹ng a => (h – a), trong ®ã a lµ mét tËp con kh¸c rçng cña h. §é hç trî cña luËt
chÝnh lµ ®é hç trî cña tËp phæ biÕn h (tøc lµ s(h)), cßn ®é tin cËy cña luËt lµ tû sè
s(h)/s(a).
§Ó sinh luËt hiÖu qu¶, chóng ta tiÕn hµnh duyÖt c¸c tËp con cña h cã kÝch
thíc lín tríc tiªn vµ sÏ tiÕp tôc xÐt c¸c tËp con nhá h¬n khi luËt võa sinh tháa
m·n ®é tin cËy tèi thiÓu (minconf). VÝ dô, h lµ tËp phæ biÕn ABCD, nÕu luËt
ABC => D kh«ng tháa m·n ®é tin cËy tèi thiÓu th× luËt AB => CD còng kh«ng
tháa m·n do ®é hç trî cña AB lu«n lín h¬n hoÆc b»ng ABC. Nh vËy chóng ta
kh«ng cÇn xÐt c¸c luËt mµ vÕ tr¸i lµ tËp con cña ABC v× chóng kh«ng tháa m·n
®é tin cËy tèi thiÓu.
ThuËt to¸n sinh luËt tuÇn tù [AS94] thÓ hiÖn ý tëng trªn nh sau:
Forall frequent itemset 1, khk do
Call gen_rules( kk hh , );
// The gen_rules generates all valid rules ¸=>(l-¸),
// for all ma
Procedure gen_rules( kh :frequent k-itemset, ma :frequent m-itemset)
1 itemsetsmA )1{( }| 11 mmm aaa
1 Forall Aam 1 do
3 conf = s( kh )/s( 1ma );
4 if (conf # minconf) then
5 output the rule 1ma => ( 1 mk ah );
6 if (m – 1 > 1) then
7 Call gen_rules( 1, mk ah );
8 end 9 end
§Ó sinh luËt song song, chóng ta chia tËp c¸c tËp thuéc tÝnh phæ biÕn cho
tÊt c¶ c¸c BXL trong hÖ thèng. Mçi BXL sinh luËt trªn c¸c tËp phæ biÕn ®îc
ph©n chia cho nã sö dông thuËt to¸n trªn. Trong thuËt to¸n sinh luËt song song,
®Ó tÝnh ®é tin cËy cña mét luËt, BXL cã thÓ cÇn ph¶i tham chiÕu ®Õn ®é hç trî
cña mét tËp phæ biÕn n»m trªn mét BXL kh¸c. V× lý do nµy, c¸c BXL nªn cã
th«ng tin vÒ toµn bé c¸c tËp phæ biÕn truíc khi thùc hiÖn thuËt to¸n sinh luËt
song song.
171 172
4.4.5. Mét sè thuËt to¸n kh¸c
Ngoµi ba thuËt to¸n nªu trªn, c¸c nhµ nghiªn cøu trong lÜnh vùc nµy ®· ®Ò
xuÊt thªm kh¸ nhiÒu thuËt to¸n khai ph¸ luËt kÕt hîp song song kh¸c.
ThuËt to¸n ph©n phèi d÷ liÖu th«ng minh (Intelligent Data Distribution
Algorithm) [HKK97] ®îc ®Ò xuÊt dùa trªn thuËt to¸n ph©n phèi d÷ liÖu víi mét
bíc c¶i tiÕn trong viÖc truyÒn d÷ liÖu gi÷a c¸c BXL trong thêi gian tÝnh to¸n.
Thay v× truyÒn d÷ liÖu gi÷a cÆp BXL, c¸c BXL trong thuËt to¸n nµy ®îc tæ chøc
thµnh mét vßng logic vµ chóng tiÕn hµnh truyÒn d÷ liÖu theo vßng trßn nµy.
ThuËt to¸n MLFPT (Multiple Local Frequent Pattern Tree) [ZHL98] lµ
thuËt to¸n dùa trªn FP-growth. ThuËt to¸n nµy gi¶m ®îc sè lÇn duyÖt qua
CSDL, kh«ng cÇn t¹o ra tËp øng cö viªn vµ c©n b»ng t¶i gi÷a c¸c BXL trong hÖ
thèng.
ThuËt to¸n khai ph¸ luËt kÕt hîp song song do [ZPO01] ®Ò xuÊt kh¸c víi
c¸c thuËt to¸n kh¸c ë chç nã lµm viÖc trªn hÖ thèng ®a xö lý ®èi xøng (SMP, cßn
®îc gäi lµ shared-everything system) thay v× trªn hÖ song song ph©n t¸n kh«ng
chia sÎ tµi nguyªn (shared-nothing system).
4.5 Mét sè øng dông cña luËt kÕt hîp
Ngoµi viÖc ¸p dông c¸c kÜ thuËt ph©n tÝch luËt kÕt hîp ®Ó hç trî kinh
doanh, t×m hiÓu thãi quen mua s¾m cña kh¸ch hµng nh trªn. LuËt kÕt hîp còng
®îc ¸p dông ®Ó ph¸t hiÖn th«ng tin trong mét sè lÜnh vùc kh¸c nh :
C¸c kh¸i niÖm cã liªn quan: Coi c¸c tõ lµ c¸c môc vµ tµi liÖu lµ mét giao
dÞch (vÝ dô trang web, blogs, tweets…). Mét tµi liÖu sÏ chøa rÊt nhiÒu tõ trong
®ã. NÕu ta bá qua tÊt c¶ nh÷ng tõ th«ng dông nh ‘vµ’, ‘nhng’… chóng ta cã
thÓ t×m ra trong c¸c cÆp tõ thêng xuyªn xuÊt hiÖn cïng nhau ®îc mét sè cÆp tõ
mµ cã quan hÖ kÕt hîp víi nhau. VÝ dô c¸c cÆp nh {Brad, Angelina}, {Mac,
Angen}…
Vi ph¹m b¶n quyÒn: ta coi mçi môc lµ mét tµi liÖu vµ mçi giao dÞch lµ mét
c©u. Thø tù nµy ngîc so víi thùc tÕ suy nghÜ th«ng thêng. Nhng ®èi víi bµi
to¸n t×m ra viÖc sao chÐp tr¸i phÐp th× thø tù nµy bÞ ®¶o ngîc lµ cã ý ®å. Bëi v×
ta thÊy nhiÒu tµi liÖu cã thÓ cïng chøa mét c©u. Ta cÇn ph¶i t×m c¸c cÆp môc (tµi
liÖu) mµ cã cïng trong mét giao dÞch (c©u). Cã thÓ hiÓu r»ng giao dÞch ®îc g¸n
nh·n lµ mét c©u vµ giao dÞch nµy chøa c¸c môc lµ c¸c tµi liÖu. Trong thùc tÕ, chØ
cÇn ph¸t hiÖn c¸c tµi liÖu cã 1-2 c©u gièng nhau th× còng lµ dÊu hiÖu thuËn lîi ®Ó
t×m vi ph¹m b¶n quyÒn tµi liÖu.
DÊu hiÖu sinh häc: Coi c¸c môc lµ d÷ liÖu gåm 1 bé 2 thuéc tÝnh lµ gen
(hoÆc protein m¸u) vµ bÖnh tËt. Mçi giao dÞch lµ mét tËp d÷ liÖu vÒ mét bÖnh
nhËn nh bé gen, ph©n tÝch sinh hãa m¸u vµ lÞch sö bÖnh. Mét tËp môc phæ biÕn
bao gåm mét bÖnh vµ mét hoÆc nhiÒu gen, protein quy ®Þnh. Nã cã kh¶ n¨ng gîi
ý, hç trî chuÈn ®o¸n bÖnh tËt cña ngêi bÖnh.
HÖ hç trî ra quyÕt ®Þnh trong chøng kho¸n: mçi giao dÞch lµ mét tËp c¸c
m· cæ phiÕu trong mçi phiªn vµ chØ lÊy c¸c m· mµ ngêi dïng quan t©m. Mçi
môc lµ mét mét m· cæ phiÕu. Trong mét giao dÞch, mçi môc (m· cæ phiÕu) chØ
xuÊt hiÖn nÕu gi¸ cña nã t¨ng trong phiªn ®ã. HÖ hç trî sÏ gîi ý nhµ ®Çu t
nh÷ng m· cæ phiÕu nµo cã kh¶ n¨ng cao sÏ t¨ng cïng nhau trong mét phiªn.
Mét sè kü thuËt míi nh luËt kÕt hîp hiÕm, luËt kÕt hîp ©m… ®· ®îc ph¸t
triÓn trong thêi gian gÇn ®©y nh»m t¨ng kh¶ n¨ng cña luËt kÕt hîp vµ më réng
ph¹m vi øng dông cña luËt kÕt hîp
C©u hái vµ Bµi tËp
4.1. Cho CSDL D víi 4 thuéc tÝnh z, y, z vµ t víi mçi thuéc tÝnh cã 3 gi¸ trÞ kh¸c nhau. Cho biÕt cã thÓ t¹o ra ®îc bao nhiªu luËt nÕu chØ cã 1 thuéc tÝnh ë bªn ph¶i luËt?
4.2. Gi¶ sö L3 bao gåm danh s¸ch sau {{a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, {b, c, w}, {b, c, x}, {p, q,
r}, {p, q, s}, {p, q, t}, {p, r, s}, {q, r, s}}
173 174
TËp môc nµo sÏ bÞ lo¹i bá ë bíc nèi tiÕp theo C4? Vµ tËp nµo sÏ bÞ lo¹i bá ë bíc tØa bít L4?
4.3. Cho biÕt CSDL giao dÞch gåm 5000 giao dÞch vµ ta thu ®îc 1 luËt t¬ng øng LR víi c¸c ®é hç trî sau
Count (L) = 3400 Count (R) = 4000 Count (L U R) = 3000
T×m ®é hç trî vµ ®é tin cËy cña luËt trªn? 4.4. Cho CSDL giao dÞch gåm 8 giao dÞch víi thø tù giao dÞch nh sau:
TID TËp môc trong giao dÞch
1 {a, b, c} 2 {a, b, c, d, e } 3 {b } 4 {c, d, e } 5 {b} 6 {b, c, d } 7 {c, d, e} 8 {c, e}
T×m tÊt c¶ c¸c luËt cã thÓ sinh ra ®îc bíi minsup=25% vµ minconf=80%
Ch¬ng 5. Ph©n côm d÷ liÖu
5.1. Giíi thiÖu
5.1.1. Bµi to¸n ph©n côm
Mét trong nh÷ng bµi to¸n quan träng trong lÜnh vùc khai ph¸ d÷ liÖu lµ bµi
to¸n ph©n côm. Trong nhiÒu trêng hîp ta cã mét tËp d÷ liÖu lín cha cã nh·n
(®¸nh dÊu xem mét phÇn tö d÷ liÖu lµ thuéc líp nµo), lý do lµ viÖc g¸n nh·n cho
c¸c phÇn tö d÷ liÖu lµ rÊt tèn kÐm. VÝ dô trong c¬ së d÷ liÖu cña ng©n hµng chøa
mét sè lîng lín c¸c giao dÞch cña kh¸ch hµng, viÖc g¸n nh·n cho c¸c kh¸ch
hµng nµo thuéc kh¸ch hµng tiÒm n¨ng cã thÓ mang l¹i lîi nhuËn cho ng©n hµng
lµ ®iÒu rÊt khã thùc hiÖn. Mét trong nh÷ng gi¶i ph¸p ®Ó xö lý vÊn ®Ò nµy lµ tù
®éng nhãm c¸c phÇn tö d÷ liÖu cã ®é t¬ng tù nhau (gièng nhau) vµo cïng mét
côm. C¸c phÇn tö trong cïng mét côm sÏ cã ®é t¬ng tù lín, vµ ®é t¬ng tù gi÷a
c¸c phÇn tö trong cïng mét côm sÏ lín h¬n ®é t¬ng tù gi÷a nã víi mét phÇn tö
d÷ liÖu trong côm kh¸c. Hay nãi mét c¸ch kh¸c, c¸c phÈn tö gi÷a c¸c côm kh¸c
nhau sÏ cã ®é kh¸c biÖt h¼n víi nhau. §é ®o kh¸c biÖt ®îc ®o dùa trªn gi¸ trÞ
cña c¸c thuéc tÝnh m« t¶ phÈn tö d÷ diÖu, th«ng thêng ngêi ta thêng sö dông
®é ®o kho¶ng c¸ch ®Ó ®o ®é kh¸c biÖt.
Ph©n côm còng lµ mét viÖc rÊt tù nhiªn, gièng nh viÖc chóng ta ph©n lo¹i
®éng vËt thµnh c¸c loµi, c¸c hä kh¸c nhau (hay c¸c nhãm cã cïng mét sè ®Æc
®iÓm nµo ®ã, vµ c¸c ®Æc ®iÓm nµy l¹i rÊt kh¸c víi c¸c lo¹i kh¸c). Trong líp häc
ngêi ta cã thÓ ph©n ra c¸c nhãm sinh viªn häc giái, häc kh¸, häc kÐm, … Ph©n
côm ®îc sö dông réng r·i trong rÊt nhiÒu lÜnh vùc (bµi to¸n) nh nghiªn cøu thÞ
trêng, nhËn d¹ng mÉu, ph©n tÝch d÷ liÖu, xö lý ¶nh, … Trong kinh doanh, ph©n
175 176
côm cã thÓ gióp ta ph©n kh¸ch hµng thµnh c¸c nhãm kh¸c nhau ®ång thêi cho ta
biÕt c¸c ®Æc trng cña c¸c nhãm ngêi dïng nµy, tõ ®ã c«ng ty sÏ cã c¸c chÝnh
s¸ch kh¸c nhau cho c¸c nhãm kh¸ch hµng nµy.
ViÖc ph©n côm d÷ liÖu lµ bµi to¸n cÇn ®îc mét c¸ch tù ®éng, do ®ã nã
thuéc vµo líp c¸c bµi to¸n häc kh«ng gi¸m s¸t (unsupervised learning).
5.1.2. C¸c ph¬ng ph¸p ph©n côm
ViÖc ph©n lo¹i c¸c gi¶i thuËt ph©n côm lµ bµi to¸n kh«ng ®¬n gi¶n, lý do lµ
cã nhiÒu tiªu chÝ ph©n lo¹i, h¬n n÷a cã nhiÒu gi¶i thuËt cã cïng mét sè ®Æc trng
nªn viÖc ph©n lo¹i còng kh«ng thÓ t¸ch b¹ch ®îc. Hay nãi c¸ch kh¸c, gi÷a c¸c
ph©n lo¹i lµ cã sù giao nhau. Díi ®©y liÖt kª mét sè c¸ch ph©n lo¹i c¸c ph¬ng
ph¸p ph©n côm:
1. Ph©n côm ph¼ng vµ ph©n côm ph©n cÊp: ph©n côm ph¼ng chØ ®¬n gi¶n chia
tËp d÷ liÖu thµnh mét sè tËp con kh«ng giao nhau. Ph©n côm ph¼ng cßn
®îc gäi lµ ph¬ng ph¸p ph©n côm ph©n vïng (partitioning), lý do lµ khi
biÓu diÔn trªn mÆt ph¼ng th× mçi mét côm sÏ t¬ng øng víi mét vïng. Mét
trong c¸c gi¶i thuËt thuéc líp gi¶i thuËt ph©n côm ph¼ng lµ k-means. Cßn
ph©n côm ph©n cÊp t¹o ra mét c©y ph©n cÊp cña c¸c côm: trªn mçi nót
trong c©y sÏ t¬ng øng víi mét côm, côm ë nót cha sÏ lµ hîp cña c¸c côm
nót con. ViÖc ph©n ho¹ch cã thÓ thùc hiÖn theo hai c¸ch (hay hai ph¬ng
ph¸p): gép (agglomerative) hay chia/t¸ch (divisive).
Ph¬ng ph¸p ph©n côm gép, ban ®Çu sÏ coi tõng phÇn tö d÷ liÖu lµ
c¸c côm ®¬n. Gi¶i thuËt sÏ lÇn lît gép (ghÐp) c¸c côm ®¬n cã ®é
t¬ng tù nhau cao vµo thµnh mét côm lín h¬n. Qu¸ tr×nh gép c¸c
côm sÏ ®îc lÆp ®i lÆp l¹i cho ®Õn khi chóng ta thu ®îc mét côm
duy nhÊt (nót gèc) hoÆc tháa m·n 1 ®iÒu kiÖn dõng nµo ®ã (xem
chi tiÕt ë phÇn gi¶i thuËt). Ph¬ng ph¸p ph©n côm gép cßn ®îc
gäi lµ ph©n côm tõ díi lªn (bottom-up), lý do lµ c©y ph©n cÊp
®îc x©y dùng tõ l¸ ®Õn gèc (tõ díi lªn trªn).
Ph¬ng ph¸p ph©n côm chia, ban ®Çu sÏ coi toµn bé tËp d÷ liÖu lµ
mét côm (nót gèc), côm nµy sÏ ®îc chia nhá ra thµnh c¸c côm
con. Tõng côm con sÏ ®îc tiÕp tôc chia nhá ra thµnh c¸c côm
nhá h¬n. Qu¸ tr×nh chia tiÕp tôc cho ®Õn khi mçi côm chØ chøa
mét phÇn tö d÷ liÖu hoÆc tháa m·n ®iÒu kiÖn dõng nµo ®ã. Gi¶i
thuËt nµy còng cßn ®îc gäi lµ ph¬ng ph¸p ph©n côm tõ trªn
xuèng, lý do lµ viÖc x©y dùng c©y ph©n cÊp ®îc tiÕn hµnh tõ gèc
®Õn l¸ (tõ trªn xuèng díi).
Mét trong nh÷ng nhîc ®iÓm cña ph¬ng ph¸p ph©n côm ph©n cÊp lµ
khi mét phÇn tö ®· ®îc ph©n vµo mét côm th× nã sÏ kh«ng bao giê ®îc
ph©n l¹i vµo côm kh¸c. Do ®ã nÕu viÖc ph©n ®ã lµ sai th× nã sÏ t¹o ra lçi vµ
lçi ®ã sÏ kh«ng ®îc chØnh söa.
2. Ph©n côm dùa vµo mËt ®é (density-based): phÇn lín c¸c gi¶i thuËt ph©n
côm thêng dùa vµo ®é ®o kho¶ng c¸ch ®Ó quyÕt ®Þnh viÖc ph©n d÷ liÖu
vµo c¸c côm, dÉn ®Õn c¸c côm ®îc t¹o ra thêng cã d¹ng h×nh cÇu (cã
t©m lµ träng t©m cña côm). Do ®ã ph¬ng ph¸p nµy chØ phï hîp khi c¸c
côm ®îc ph©n bè theo h×nh cÇu. Tuy nhiªn ®iÒu nµy sÏ kh«ng ®¸p øng
®îc c¸c thÓ lo¹i d÷ liÖu kh¸c nhau trong thùc tÕ (chóng cã thÓ tån t¹i ë
bÊt kú h×nh d¹ng nµo). Ph¬ng ph¸p ph©n côm nµy sÏ dùa vµo mËt ®é
ph©n bè cña d÷ liÖu ®Ó quyÕt ®Þnh g¸n mét phÇn tö d÷ liÖu vµo c¸c côm.
MËt ®é ë ®©y ®îc ®Þnh nghÜa lµ sè lîng c¸c phÇn tö l©n cËn (neighbour)
trong mét b¸n kÝnh nµo ®ã vµ t©m lµ phÇn tö ®ang xÐt. Mét côm sÏ ®îc
tiÕp tôc cã thªm phÇn tö d÷ liÖu ®ang xÐt nÕu mËt ®é cña nã lín h¬n 1
ngìng nµo ®ã. Mét sè c¸c gi¶i thuËt ph©n côm thuéc líp nµy lµ
DBSCAN, OPTICS vµ DENCLUE.
3. Ph¬ng ph¸p ph©n côm dùa trªn líi (grid-based): ph¬ng ph¸p nµy chia
kh«ng gian d÷ liÖu thµnh mét c¸i líi (grid) chøa mét sè lîng h÷u h¹n
c¸c « (cell). Toµn bé c¸c thao t¸c ph©n côm sÏ ®îc thùc hiÖn dùa trªn c¸c
« nµy. ¦u ®iÓm cña ph¬ng ph¸p nµy lµ thêi gian xö lý, do nã chØ phô
thuéc vµo sè lîng c¸c « chø kh«ng phô thuéc vµo sè lîng c¸c phÇn tö d÷
liÖu. Gi¶i thuËt ph©n côm thuéc líp nµy lµ STING.
177 178
4. Ph¬ng ph¸p ph©n côm dùa trªn m« h×nh (model): Ph¬ng ph¸p nµy gi¶
thiÕt lµ cã mét m« h×nh t¬ng øng biÓu diÔn mét côm, gi¶i thuËt sÏ t×m c¸c
phÇn tö d÷ liÖu ®Ó ph©n vµo c¸c côm sao cho phï hîp víi m« h×nh nhÊt.
Gi¶i thuËt ph©n côm dùa trªn m« h×nh thêng t¹o ra c¸c côm b»ng c¸ch
x©y dùng c¸c hµm mËt ®é ph¶n ¸nh sù ph©n bè cña d÷ liÖu trong kh«ng
gian. Gi¶i thuËt nµy còng cã thÓ ®îc sö dông ®Ó t×m ra sè lîng côm tèi
u mét c¸ch tù ®éng dùa vµo thèng kª. Gi¶i thuËt cùc ®¹i kú väng
Expectation Maximization (EM) lµ thuéc líp ph©n côm dùa trªn m« h×nh.
5. Ph©n côm ®¬n ®Þnh (deterministic) vµ ph©n côm x¸c suÊt (probability):
Trong ph©n côm ®¬n ®Þnh, mçi mét phÇn tö d÷ liÖu chØ phô thuéc vµo mét
côm (hay x¸c suÊt cña phÇn tö ®ã thuéc vµo trong côm nã ®îc ph©n lµ
100%, cßn x¸c suÊt cña nã thuéc vµo c¸c côm kh¸c lµ 0%). ViÖc chØ cho
phÐp mét phÇn tö d÷ liÖu thuéc vµo mét líp trong mét sè trêng hîp lµ
kh«ng chÝnh x¸c. VÝ dô nÕu chóng ta ph©n nh÷ng ngêi cã tuæi nhá h¬n
hoÆc b»ng 30 lµ thuéc líp trÎ, cßn lín h¬n 30 lµ thuéc líp giµ lµ kh«ng tù
nhiªn. V× 2 ngêi (mét ngêi 30 ngêi kia 31) chØ h¬n nhau 1 tuæi ®·
thuéc 2 líp kh¸c nhau. Ph¬ng ph¸p ph©n côm x¸c suÊt sÏ g¸n x¸c suÊt mµ
mét phÇn tö d÷ liÖu thuéc vµo mét líp, x¸c suÊt nµy cã gi¸ trÞ n»m trong
kho¶ng [0,1]. Trong trêng hîp nµy ngêi 30 tuæi sÏ cã mét x¸c suÊt (>0)
thuéc líp giµ vµ ngîc l¹i ngêi 31 tuæi còng sÏ cã mét x¸c suÊt (>0)
thuéc vµo líp trÎ. VÝ dô vÒ gi¶i thuËt ph©n côm thuéc lo¹i ph¬ng ph¸p
nµy lµ ph©n ph¬ng ph¸p ph©n côm mê (fuzzy).
6. Ph©n côm d÷ liÖu cã sè chiÒu lín (high-dimensional data): trong mét sè
miÒn øng dông, sè lîng chiÒu cña d÷ liÖu lµ rÊt lín, ch¼ng h¹n nh xö lý
v¨n b¶n (text) hay xö lý d÷ liÖu chuçi DNA. §Æc ®iÓm cña lo¹i d÷ liÖu nµy
lµ sè chiÒu lín, cã nhiÒu chiÒu lµ kh«ng liªn quan, d÷ liÖu tha (v× sè chiÒu
lín), mËt ®é d÷ liÖu nhá. Do ®ã ta cÇn mét líp gi¶i thuËt ®Ó gi¶i quyÕt lo¹i
d÷ liÖu nµy. Mét sè gi¶i thuËt thuéc líp nµy lµ CLIQUE vµ PROCLUS. ý
tëng cña c¸c gi¶i thuËt nµy lµ t×m ra mét tËp con c¸c thuéc tÝnh (chiÒu) cã
liªn quan vµ thao t¸c trªn tËp c¸c thuéc tÝnh ®ã.
7. Ph©n côm dùa trªn rµng buéc (constraint-based): gi¶i thuËt thuéc líp nµy
sÏ ®îc bæ sung thªm mét sè rµng buéc khi thùc thi. Mçi mét rµng buéc sÏ
thÓ hiÖn mét yªu cÇu (kú väng) cña ngêi dïng hay nã m« t¶ thuéc tÝnh
(property) cña côm kÕt qu¶. Ph¬ng ph¸p nµy cho phÐp sù t¬ng t¸c gi÷a
ngêi dïng vµ gi¶i thuËt. VÝ dô trong d÷ liÖu giao dÞch cña mét siªu thÞ
ngêi ta chØ muèn ph©n côm c¸c kh¸ch hµng mçi lÇn mua cã sè tiÒn lín 3
triÖu.
8. Ph©n côm theo l« (batch) vµ ph©n côm gia t¨ng (incremental): Ph¬ng
ph¸p ph©n lo¹i nµy dùa vµo c¸ch thøc xö lý d÷ liÖu cña gi¶i thuËt. Trong
ph©n theo l«, toµn bé tËp d÷ liÖu ®îc sö dông ®Ó t¹o ra c¸c côm. NÕu
chóng ta cã thªm 1 phÇn tö d÷ liÖu míi, th× nã sÏ t¹o ra mét tËp d÷ liÖu
míi vµ gi¶i thuËt ph©n côm l¹i ph¶i thùc thi trªn tËp d÷ liÖu míi nµy ®Ó
ph©n côm l¹i. Do ®ã gi¶i thuËt ph©n côm theo l« chØ phï hîp khi tËp d÷
liÖu lµ Ýt biÕn ®æi (nÕu kh«ng th× ®é phøc t¹p thuËt to¸n sÏ cao). Trong
ph©n côm gia t¨ng, gi¶i thuËt ph©n côm lÊy tõng phÇn tö d÷ liÖu vµ cËp
nhËt c¸c côm ®Ó ph©n vµo côm thÝch hîp. Khi cã thªm phÇn tö d÷ liÖu míi
th× nã chØ lµm nhiÖm vô ph©n phÇn tö ®ã vµo côm thÝch hîp chø kh«ng cÇn
ph¶i ph©n côm l¹i nh÷ng phÇn tö d÷ liÖu ®· ®îc ph©n tríc ®ã. Gi¶i thuËt
nµy rÊt thÝch hîp khi tËp d÷ liÖu lµ lu«n lu«n biÕn ®æi.
V× sè lîng c¸c gi¶i thuËt ph©n côm lµ rÊt lín nªn trong ch¬ng nµy chØ tËp
trung giíi thiÖu mét sè gi¶i thuËt ®iÓn h×nh. Mét sè ký hiÖu ®îc sö dông chung
cho c¸c gi¶i thuËt ph©n côm trong ch¬ng lµ: D -tËp d÷ liÖu cÇn ph©n côm, nã
gåm n phÇn tö d÷ liÖu; Mét phÇn tö d÷ liÖu p (viÕt t¾t tõ point) ®îc biÓu diÔn
b»ng d thuéc tÝnh (chiÒu).
5.2. Mét sè ®é ®o c¬ b¶n dïng trong ph©n côm
5.2.1. §é ®o t¬ng ®ång
Gi¶ sö trong mét miÒn d÷ liÖu D, mét phÇn tö d÷ liÖu p ®îc biÓu diÔn
b»ng mét vector cã sè chiÒu lµ n (p1, p2, …, pn), trong ®ã mçi chiÒu biÓu diÔn
179 180
mét thuéc tÝnh m« t¶ phÇn tö d÷ liÖu p. Tïy vµo kiÓu gi¸ trÞ biÓu diÔn mµ ®é
t¬ng tù gi÷a hai phÇn tö d÷ liÖu p1 vµ p2 cã thÓ ®îc tÝnh to¸n b»ng c¸c c¸ch
kh¸c nhau.
Trêng hîp c¸c gi¸ trÞ thuéc tÝnh ®îc biÓu diÔn b»ng c¸c gi¸ trÞ nhÞ
ph©n pi{0,1}, ta lËp b¶ng m« t¶ sè lîng c¸c thuéc tÝnh cã cïng gi¸ trÞ
vµ c¸c thuéc tÝnh kh«ng cïng gi¸ trÞ nh b¶ng 5.1. Khi ®ã ®é ®o Jaccard
x¸c ®Þnh ®é t¬ng tù gi÷a 2 phÇn tö d÷ liÖu p1 vµ p2 ®îc ®Þnh nghÜa nh
sau:
cba
a ppJaccard
)2
,1
( (5.1)
B¶ng 5.1 Ma trËn kÒ
PhÇn tö d÷ liÖu p2
PhÇn tö d÷ liÖu p1 Tæng
1 0
1 a b a+b
0 c d c+d
Tæng a+c b+d a+b+c+d
Trêng hîp thuéc tÝnh Ai cã gi¸ trÞ pi ®îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi
r¹c pi{0,1, …,m} th× ta biÕn thuéc tÝnh Ai thµnh m thuéc tÝnh nhÞ ph©n
sau ®ã ¸p dông c«ng thøc Jaccard ë trªn ®Ó ®o ®é t¬ng tù. VÝ dô thuéc
tÝnh mµu (color) cã c¸c gi¸ trÞ rêi r¹c lµ {xanh, ®á, vµng}, khi ®ã ta biÕn
thuéc thÝnh mµu nµy thµnh 3 thuéc tÝnh xanh, ®á, vµng víi gi¸ trÞ cña
c¸c thuéc tÝnh nµy lµ c¸c gi¸ trÞ nhÞ ph©n {0, 1};
Trêng hîp gi¸ trÞ biÓu diÔn pi c¸c thuéc tÝnh lµ liªn tôc (hay lµ c¸c sè
thùc), th× mét trong c¸c c«ng thøc hay dïng ®Ó ®o ®é t¬ng tù lµ ®é ®o
cosin():
n
ii
n
ii
n
iii
pp
pp
pp
ppppin
1
22
1
21
121
21
2121 ),(cos (5.2)
5.2.2. §é ®o kh¸c biÖt
Trong nhiÒu trêng hîp ta cã thÓ sö dông ®é ®o kh¸c biÖt (dissimilarity)
thay cho ®é t¬ng tù: mét trong nh÷ng ®é ®o kh¸c biÖt lµ ®é ®o kho¶ng c¸ch
(distance). T¬ng tù nh ®é t¬ng tù, tïy thuéc vµo gi¸ trÞ biÓu diÔn c¸c thuéc
tÝnh mµ c¸c ®é ®o kho¶ng c¸ch sÏ ®îc tÝnh to¸n b»ng nh÷ng c«ng thøc kh¸c
nhau.
Trêng hîp c¸c gi¸ trÞ thuéc tÝnh ®îc biÓu diÔn b»ng c¸c gi¸ trÞ nhÞ
ph©n pi{0,1}. Trêng hîp nµy ta cßn ph©n nhá ra lµ thuéc tÝnh ®èi xøng (symmetric) vµ thuéc tÝnh bÊt ®èi xøng (asymmetric). Thuéc tÝnh
®èi xøng lµ thuéc tÝnh mµ gi¸ trÞ cña nã dï lµ 0 hay 1 th× ý nghÜa cña nã
còng kh«ng t¹o sù kh¸c biÖt nhau. VÝ dô trong mét c¬ së giao dÞch mua
hµng th× thuéc tÝnh giíi tÝnh (nam ®îc biÓu diÔn b»ng gi¸ trÞ 1, n÷ lµ
gi¸ trÞ 0), th× chóng ta kh«ng thÊy sù kh¸c biÖt vÒ ngêi mua cho dï ®ã
lµ nam hay n÷. Tuy nhiªn nÕu ta xÐt thuéc tÝnh biÓu diÔn mét giao dÞch
cã mua mÆt hµng m¸y tÝnh hay kh«ng, th× thuéc tÝnh nµy b»ng 1 (cã
mua) vµ b»ng 0 (kh«ng mua) cã ý nghÜa kh¸c h¼n nhau. Hay mét vÝ dô
vÒ thuéc tÝnh chøa kÕt qu¶ xÐt nghiÖm m¸u xem mét bÖnh nh©n cã bÞ
viªm gan B hay kh«ng, nÕu cã bÞ nhiÔm th× gi¸ trÞ lµ 1 vµ kh«ng bÞ
nhiÔm gi¸ trÞ b»ng 0 sÏ cã ý nghÜa kh¸c h¼n nhau. Do ®ã, c¸c c«ng thøc
tÝnh ®é ®o kho¶ng c¸ch còng sÏ kh¸c nhau dùa vµo b¶ng ma trËn kÒ nh
b¶ng 5.1.
o NÕu lµ thuéc tÝnh ®èi xøng th× kho¶ng c¸ch d ®îc tÝnh b»ng
c«ng thøc:
181 182
dcba
cbppd
),( 21 (5.3)
o NÕu lµ thuéc tÝnh bÊt ®èi xøng th× kho¶ng c¸ch d ®îc tÝnh
b»ng c«ng thøc:
cba
cbppd
),( 21 (5.4)
Trêng hîp thuéc tÝnh Ai cã gi¸ trÞ pi ®îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi
r¹c pi{0,1, …,m} th× ta biÕn thuéc tÝnh Ai thµnh m thuéc tÝnh nhÞ ph©n
sau ®ã ¸p dông c«ng thøc kho¶ng c¸ch ë trªn ®Ó ®o ®é kh¸c biÖt. Mét
ph¬ng ph¸p kh¸c ®¬n gi¶n h¬n lµ t×m sè lîng c¸c thuéc tÝnh mµ p1 vµ
p2 cã cïng gi¸ trÞ. Gi¶ sö chóng cã p thuéc tÝnh cã gi¸ trÞ gièng nhau, th×
®é ®o kho¶ng c¸ch ®îc tÝnh b»ng:
n
qnppd
),( 21 (5.5)
trong ®ã n lµ sè lîng c¸c thuéc tÝnh.
Trêng hîp gi¸ trÞ biÓu diÔn pi c¸c thuéc tÝnh lµ liªn tôc (hay lµ c¸c sè
thùc), th× ta cã mét sè c¸c c«ng thøc ®o kho¶ng c¸ch nh sau:
o §é ®o kho¶ng c¸ch Manhattan:
n
iii ppppd
12121 ||),( (5.6)
o §é ®o kho¶ng c¸ch Euclide:
n
iii ppppd
1
22121 ||),( (5.7)
o §é ®o kho¶ng c¸ch Minkowski:
q
n
i
qii ppppd
1
2121 ||),( (5.8)
NÕu ®Ó ý th× ta sÏ thÊy ®é ®o kho¶ng c¸ch Manhattan lµ trêng
hîp ®Æc biÖt cña ®é ®o Minkowski víi q=1, cßn trêng hîp q=2 th× nã
chÝnh lµ ®é ®o Euclide.
C¸c ®é ®o kho¶ng c¸ch trªn ®Òu cã ®Æc ®iÓm sau:
TÝnh x¸c ®Þnh d¬ng (positive definiteness): d(pi, pj)>0 nÕu ij vµ d(pi,
pi)=0
TÝnh ®èi xøng (symmetric): d(pi, pj)=d(pj, pi)
TÝnh bÊt ®¼ng thøc tam gi¸c (triangle inequality): d(pi, pj)#d(pi,
pk)+d(pk, pj)
VÝ dô vÒ c¸ch tÝnh mét sè ®é ®o ®îc minh häa nh sau: Gi¶ sö ta cã mét
c¬ së d÷ liÖu trong bÖnh viÖn chøa kÕt qu¶ c¸c xÐt nghiÖm cña c¸c bÖnh nh©n
nh b¶ng 5.2.
B¶ng 5.2 B¶ng kÕt qu¶ xÐt nghiÖm
No Tªn Giíi tÝnh
Chãng mÆt
Ho XN1 XN2 XN3 XN4
1 Nam M Y N P N N N
2 V©n F Y N P N P N
3 Th¾ng M Y P N N N N
trong ®ã giíi tÝnh M lµ nam (male), F lµ n÷ (female); Thuéc tÝnh chãng mÆt
®îc biÓu diÔn b»ng gi¸ trÞ Y (cã)/ N (kh«ng); c¸c xÐt nghiÖm XN cã gi¸ trÞ P
(d¬ng tÝnh- positive) vµ N (©m tÝnh – negative). LËp b¶ng ma trËn kÒ ta cã thÓ
tÝnh ®îc ®é kh¸c biÖt cña c¸c phÇn tö d÷ liÖu nh sau:
d(Nam, V©n)=(0+1)/(2+0+1)=0.33
d(Nam, Th¾ng)=(1+1)/(1+1+1)=0.67
d(Th¾ng, V©n)=(1+2)/(1+1+2)=0.75
Trêng hîp gi¸ trÞ cña c¸c thuéc tÝnh ®îc biÓu diÔn b»ng c¸c sè thùc,
trong nhiÒu trêng hîp cã thÓ ta sÏ cÇn ph¶i chuÈn hãa tríc khi tÝnh to¸n nh»m
183 184
lµm t¨ng ®é chÝnh x¸c. §éc gi¶ cã thÓ tham kh¶o t¹i ch¬ng 3 cña tµi liÖu
[Han06].
5.3. ThuËt to¸n ph©n côm ph¼ng
5.3.1. ThuËt to¸n k-means
Gi¶i thuËt k-means thuéc líp ph©n côm ph¼ng, ®Çu vµo cho thuËt to¸n k-
means lµ tËp d÷ liÖu D gåm n phÇn tö d÷ liÖu, sè lîng c¸c côm ®Çu ra k. §Çu ra
cña gi¶i thuËt lµ k côm d÷ liÖu. Gi¶i thuËt k-means ®îc tr×nh bµy nh sau:
§Çu vµo: tËp d÷ liÖu D, sè lîng c¸c côm k
§Çu ra: tËp d÷ liÖu ®· ®îc ph©n thµnh k côm
ThuËt to¸n k-means
1. Chän ngÉu nhiªn k phÇn tö trong D lµm träng t©m ban ®Çu cho c¸c côm.
2. Ph©n c¸c phÇn tö d÷ liÖu trong D vµo c¸c côm dùa vµo ®é t¬ng ®ång cña nã víi träng t©m cña c¸c côm. PhÇn tö d÷ liÖu sÏ ®îc ph©n vµo côm cã ®é t¬ng ®ång lín nhÊt.
3. TÝnh l¹i träng t©m cña c¸c côm.
4. Nh¶y ®Õn bíc 2 cho ®Õn khi qu¸ tr×nh héi tô (kh«ng cã sù g¸n l¹i c¸c phÇn tö d÷ liÖu gi÷a c¸c côm, hay träng t©m cña c¸c côm lµ kh«ng ®æi).
§iÓm mÊu chèt cña gi¶i thuËt lµ ë bíc 2, c¸c phÇn tö d÷ liÖu ®îc di
chuyÓn gi÷a c¸c côm ®Ó lµm cùc ®¹i hãa ®é t¬ng tù gi÷a c¸c phÇn tö d÷ liÖu
bªn trong 1 côm (hay cùc ®¹i hãa ®é t¬ng tù trong néi t¹i mét côm, hay cùc
tiÓu hãa kho¶ng c¸ch gi÷a c¸c phÇn tö d÷ liÖu trong néi t¹i mét côm). §é ®o
t¬ng tù trong néi t¹i mét côm ®îc tÝnh b»ng c«ng thøc:
k
i Cpi
i
mpsimJ1
),( (5.9)
Trong ®ã, Ci vµ mi lÇn lît lµ ký hiÖu côm thø i vµ träng t©m cña nã. Vµ
sim(p,mi) lµ ®é t¬ng tù gi÷a p vµ mi. Träng t©m mi cña Ci ®îc tÝnh theo c«ng
thøc sau:
Cp
CC
pm
|| (5.10)
Nãi mét c¸ch kh¸c, gi¶i thuËt k-means ho¹t ®éng sao cho hµm ®iÒu kiÖn
(criterion function) cña nã lµ héi tô. Th«ng thêng hµm héi tô ®îc chän lµ hµm
tæng b×nh ph¬ng lçi (squared-error) ®îc ®Þnh nghÜa nh sau:
C Cp
CmpE 2|| (5.11)
Gi¶i thuËt k-means tr¶ vÒ sè lîng biÕn thÓ c¸c côm lµ tèi thiÓu, nhng nã
kh«ng ®¶m b¶o t×m ®îc gi¸ trÞ cùc ®¹i toµn côc cña hµm J nhng ta cã thÓ ch¹y
thuËt to¸n mét sè lÇn ®Ó thu ®îc gi¸ trÞ cùc ®¹i côc bé. Gi¶i thuËt k-means ph©n
c¸c phÇn tö d÷ liÖu vµo c¸c côm dùa vµo träng t©m cña c¸c côm, do ®ã nã cã tªn
lµ k-means (mean lµ gi¸ trÞ trung b×nh).
H×nh 5.1 Minh häa ho¹t ®éng cña gi¶i thuËt k-means
Mét vÝ dô m« pháng ho¹t ®éng cña gi¶i thuËt k-means ®îc minh häa trªn
h×nh 5.1. Ban ®Çu ta cã tËp d÷ liÖu nh h×nh a), vµ gi¶ sö sè lîng c¸c côm k =3.
ThuËt to¸n lùa chän 3 phÇn tö d÷ liÖu ngÉu nhiªn lµm träng t©m cña c¸c côm
(®îc ®¸nh dÊu b»ng dÊu + bªn c¹nh). C¸c phÇn tö d÷ liÖu sÏ ®îc g¸n vµo 3
185 186
côm dùa vµo ®é t¬ng tù cña nã víi 3 träng t©m nµy. Chóng ta thu ®îc 3 côm
®îc khoanh b»ng ®êng ®øt nÐt. ë h×nh b) m« t¶ qu¸ tr×nh c¸c träng t©m ®îc
tÝnh l¹i dùa vµo c¸c phÇn tö trong 1 côm, sau ®ã c¸c phÇn tö d÷ liÖu l¹i ®îc g¸n
l¹i dùa vµo 3 träng t©m míi (®îc ®¸nh dÊu b»ng dÊu +). H×nh c) diÔn t¶ qu¸
tr×nh t¬ng tù vµ cuèi cïng ta thu ®îc 3 côm ®Çu ra (®îc khoanh b»ng ®êng
liÒn nÐt).
KÕt qu¶ cuèi cïng cña k-means phô thuéc rÊt nhiÒu vµo c¸ch lùa chän k
phÇn tö d÷ liÖu ban ®Çu lµm träng t©m cña k côm. Bëi v× sù lùa chän k côm ban
®Çu lµ hoµn toµn ngÉu nhiªn, nªn kÕt qu¶ thu ®îc sau sau ch¹y k-means c¸c
lÇn kh¸c nhau lµ cã thÓ kh¸c nhau. Nh vËy ta cã thÓ ch¹y thuËt to¸n k-means
mét sè lÇn vµ lÊy kÕt qu¶ cña lÇn ch¹y cã gi¸ trÞ cña hµm J lµ lín nhÊt. Ngoµi ra
còng cã mét sè c¸c ®Ò xuÊt ®Ó c¶i tiÕn thuËt to¸n k-means b»ng c¸ch c¶i tiÕn
viÖc x©y dùng c¸c träng t©m ban ®Çu [Cui].
Trong thùc tÕ khi ta gÆp trêng hîp d÷ liÖu qu¸ lín, hoÆc gi¶i thuËt kh«ng
héi tô (träng t©m cña c¸c côm cø liªn tôc thay ®æi) dÉn ®Õn thêi gian ch¹y
ch¬ng tr×nh cã thÓ rÊt lín. Trong trêng hîp nµy ngêi ta cã thÓ sö dông mét sè
®iÒu kiÖn dõng sau ®©y:
Khi sè lîng vßng lÆp vît qua mét ngìng nµo ®ã. §iÒu kiÖn nµy cã
thÓ lµm cho chÊt lîng cña gi¶i thuËt ph©n côm kh«ng ®îc tèt v× nã
cha ch¹y ®ñ sè vßng lÆp cÇn thiÕt.
Khi gi¸ trÞ cña J nhá h¬n 1 ngìng nµo ®ã (®¶m b¶o chÊt lîng cña c¸c
côm ®ñ tèt, hay nã ®· ch¹y ®îc ®ñ sè vßng lÆp cÇn thiÕt). Trong thùc
tÕ ®iÒu kiÖn nµy thêng ®îc dïng kÕt hîp víi ®iÒu kiÖn sè vßng lÆp ë
trªn.
Khi hiÖu cña gi¸ trÞ cña J trong hai vßng lÆp liªn tiÕp (Ji - Ji+1) nhá h¬n
1 ngìng nµo ®ã. Ngêi ta còng hay kÕt hîp ®iÒu kiÖn nµy víi ®iÒu kiÖn
vßng lÆp ®Ó tr¸nh ch¬ng tr×nh bÞ ch¹y lÆp.
Gi¶ sö sè lÇn lÆp cña gi¶i thuËt lµ t th× ®é phøc t¹p cña thuËt to¸n lµ O(nkt),
trong ®ã n lµ sè lîng c¸c phÇn tö d÷ liÖu, k lµ sè lîng c¸c côm vµ. Th«ng
thêng trong thùc tÕ th× t << n vµ k << n. Víi ®é phøc t¹p nµy th× thuËt to¸n thùc
hiÖn kh¸ nhanh trªn tËp d÷ liÖu lín. Nh ®· ®Ò cËp ë trªn, gi¶i thuËt k-means dùa
trªn ®é ®o t¬ng tù, nªn nã phï hîp víi miÒn d÷ liÖu mµ c¸c côm ph©n bè theo
h×nh cÇu vµ nã ho¹t ®éng kh«ng tèt trong miÒn d÷ liÖu mµ c¸c côm ®îc ph©n
bè theo h×nh d¹ng bÊt kú.
5.3.2 ThuËt to¸n k-mediods
Mét nhîc ®iÓm n÷a cña gi¶i thuËt k-means lµ nã nh¹y c¶m víi c¸c d÷ liÖu
ngo¹i lÖ (outlier). Gi¶ sö trong tËp d÷ liÖu cã mét sè phÇn tö cã gi¸ trÞ lín
(nhng b¶n th©n chóng chØ lµ c¸c trêng hîp ngo¹i lÖ chø kh«ng ph¶i lµ phæ
biÕn), khi ®ã c¸c phÇn tö nµy sÏ cã ¶nh hëng lín ®Õn träng t©m cña c¸c côm
mµ nã thuéc vµo. HÖ qu¶ lµ c¸c côm sÏ kh«ng ®îc tèi u vµ tæng b×nh ph¬ng
lçi sÏ cao. Gi¶i thuËt k-mediods ®îc ®Ò xuÊt ®Ó tr¸nh nhîc ®iÓm trªn. Trong
gi¶i thuËt nµy, thay v× tÝnh to¸n träng t©m cña côm , nã lùa chän 1 phÇn tö cô thÓ
trong côm lµm träng t©m cña côm. TiÕp ®Õn thay v× sö dông hµm ®iÒu kiÖn lµ
tæng b×nh ph¬ng lçi E nh c«ng thøc 5.11, hµm tæng sè lçi tuyÖt ®èi (absolute-
error) ®îc dïng lµm hµm ®iÒu kiÖn, nã ®îc tÝnh lµ tæng sè lçi tuyÖt ®èi trªn
toµn bé tËp d÷ liÖu nh c«ng thøc 5.12:
k
i Cpi
i
opE1
2|| (5.12)
Trong ®ã p lµ phÇn tö d÷ liÖu trong côm Ci vµ oi lµ phÇn tö ®îc chän lµm
träng t©m cña Ci. Gi¶i thuËt sÏ lÆp ®i lÆp l¹i cho ®Õn khi oi sÏ trïng víi träng t©m
cña côm hoÆc rÊt gÇn träng t©m cña côm (trong trêng hîp tæng qu¸t). Chi tiÕt
h¬n vÒ gi¶i thuËt k-mediods nh sau: ban ®Çu c¸c phÇn tö ®¹i diÖn cho c¸c côm
oi ®îc chän ngÉu nhiªn. Sau ®ã g¸n c¸c phÇn tö cßn l¹i vµo c¸c côm dùa vµo ®é
t¬ng ®ång gi÷a chóng víi oi. Chän mét phÇn tö trong côm orandom lµm phÇn tö
®¹i diÖn cña côm, sau ®ã kiÓm tra tõng phÇn tö p cßn l¹i trong tËp d÷ liÖu vµ
thùc hiÖn c¸c hµnh ®éng t¬ng øng víi 4 trêng hîp sau:
187 188
1. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm j ®îc ®¹i diÖn bëi oj. NÕu
oj bÞ thay thÕ bëi orandom vµ p l¹i cã ®é t¬ng ®ång lín nhÊt víi mét phÇn
tö ®¹i diÖn oi (ij), th× p ®îc g¸n vµo côm oi.
2. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm j ®îc ®¹i diÖn bëi oj. NÕu
oj bÞ thay thÕ bëi orandom vµ p l¹i cã ®é t¬ng ®ång lín nhÊt víi mét phÇn
tö ®¹i diÖn orandom, th× p ®îc g¸n vµo côm orandom.
3. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm i ®îc ®¹i diÖn bëi oi. NÕu
mét phÇn tö ®¹i diÖn oj cña côm j (ij) bÞ thay thÕ bëi orandom vµ p vÉn cã
®é t¬ng ®ång lín nhÊt víi oi, th× p vÉn ®îc g¸n vµo côm oi.
4. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm i ®îc ®¹i diÖn bëi oi. NÕu
mét phÇn tö ®¹i diÖn oj cña côm j (ij) bÞ thay thÕ bëi orandom vµ p l¹i cã
®é t¬ng ®ång lín nhÊt víi mét phÇn tö ®¹i diÖn orandom, th× p ®îc g¸n
vµo côm orandom.
C¸c trêng hîp trªn ®îc minh häa trªn h×nh 5.2. Gi¶ sö Et lµ tæng sè lçi
tuyÖt ®èi tríc khi chän orandom vµ Et+1 lµ tæng sè lçi tuyÖt ®èi sau khi chän
orandom, gi¸ trÞ =Et+1 - Et ®îc gäi lµ hµm chi phÝ (cost function). NÕu <0 tøc lµ
tØ lÖ lçi gi¶m do ®ã ta chän orandom ®Ó thay thÕ cho phÇn tö ®¹i diÖn tríc ®ã cña
côm, ngîc l¹i (>0) th× phÇn tö ®¹i diÖn tríc ®ã cña côm vÉn ®îc gi÷
nguyªn. Qu¸ tr×nh nµy lÆp l¹i víi c¸c phÇn tö kh¸c ®îc chän lµm orandom.
Gi¶i thuËt ®Çu tiªn thuéc líp gi¶i thuËt k-mediods lµ gi¶i thuËt ph©n vïng
quanh träng t©m Partition Around Mediods (PAM). Gi¶i thuËt PAM ®îc tr×nh
bµy nh sau:
§Çu vµo: tËp d÷ liÖu D, sè lîng c¸c côm k
§Çu ra: tËp d÷ liÖu ®· ®îc ph©n thµnh k côm
ThuËt to¸n PAM
1. Chän ngÉu nhiªn k phÇn tö trong D lµm phÇn tö ®¹i diÖn oi cho c¸c côm.
2. Ph©n c¸c phÇn tö d÷ liÖu trong D vµo c¸c côm dùa vµo ®é t¬ng ®ång cña nã víi c¸c oi. PhÇn tö d÷ liÖu sÏ ®îc ph©n vµo côm cã ®é t¬ng ®ång lín nhÊt.
3. Chän ngÉu nhiªn mét phÇn tö d÷ liÖu kh«ng ph¶i lµ phÇn tö ®¹i diÖn orandom
4. TÝnh to¸n hµm chi phÝ nÕu thay thÕ phÇn tö ®¹i diÖn oj b»ng orandom
5. NÕu <0 th× thay thÕ oj b»ng orandom
6. Nh¶y ®Õn bíc 2 cho ®Õn khi qu¸ tr×nh héi tô (kh«ng cã sù thay ®æi phÇn tö ®¹i diÖn).
§é phøc t¹p cña mçi vßng lÆp trong gi¶i thuËt PAM lµ O(k(n-k)2), do ®ã
cã thÓ dÔ dµng nhËn ra r»ng khi n lín th× ®é phøc t¹p cña gi¶i thuËt lµ rÊt lín.
Mét sè biÕn thÓ cña gi¶i thuËt k-means kh¸c lµ gi¶i thuËt k-modes, hay k-
meadian chóng ta cã thÓ tham kh¶o thªm ë c¸c tµi liÖu [ZZ].
H×nh 5.2 C¸c trêng hîp x¶y ra khi thay thÕ mét phÇn tö ®¹i diÖn trong gi¶i thuËt PAM
5.3.3. T×m sè lîng côm thÝch hîp
C¸c gi¶i thuËt ph©n côm ph¼ng tr×nh bµy ë trªn cÇn x¸c ®Þnh sè lîng c¸c
côm cè ®Þnh tõ tríc, tuy nhiªn trong nhiÒu trêng hîp ta kh«ng thÓ biÕt tríc
®îc sè lîng côm nh thÕ nµo lµ cho chÊt lîng tèt nhÊt. Do vËy rÊt h÷u Ých
nÕu gi¶i thuËt cung cÊp cho chóng ta sè lîng c¸c côm nh thÕ nµo lµ tèi u
nhÊt. Mét ph¬ng ph¸p ®Ó x¸c ®Þnh sè lîng côm tèi u lµ dùa vµo hµm môc
tiªu (objective function) nµo ®ã. Mét vÝ dô vÒ hµm môc tiªu lµ hµm gi¸ trÞ J
(c«ng thøc 5.9). §Ó t×m ra sè côm tèi u chÊp nhËn ®îc, ta t×m gi¸ trÞ cùc ®¹i
(cã thÓ lµ côc bé) cña gi¸ trÞ J. Cho gi¶i thuËt k-means thùc hiÖn víi c¸c tham sè
k (sè lîng c¸c côm) kh¸c nhau, gi¸ trÞ k nµo cho gi¸ trÞ cña J cao nhÊt th× ®ã lµ
sè côm tèi u. Tuy nhiªn chóng ta còng ph¶i c©n ®èi víi thêi gian thùc hiÖn cña
gi¶i thuËt.
189 190
NÕu ta chän hµm môc tiªu chÝnh lµ hµm tæng sè b×nh ph¬ng lçi E (c«ng
thøc 5.11), gäi E(k) lµ gi¸ trÞ tæng sè b×nh ph¬ng lçi khi ph©n d÷ liÖu thµnh k
côm, gi¸ trÞ côm tèi u sÏ lµ )(minarg kEk
. Nhng ta cã thÓ nhËn ra r»ng E(k)
sÏ cã gi¸ trÞ lµ 0 khi k=n (n lµ tæng sè phÇn tö d÷ liÖu), tøc lµ mçi côm sÏ gåm 1
phÈn tö d÷ liÖu. Tuy nhiªn khi sè côm b»ng n th× l¹i kh«ng ph¶i lµ c¸i ta cÇn t×m.
Ph¬ng ph¸p kh¸c ®Ó t×m sè côm tèi u lµ thªm gi¸ trÞ ph¹t (penalty) cho
sè lîng côm, khi ®ã hµm môc tiªu sÏ ®îc tÝnh nh sau:
])([minarg kkEkk
(5.13)
trong ®ã lµ mét träng sè, ta cã thÓ thÊy gi¸ trÞ ®ñ lín cña ( >0) ë ®©y
cã t¸c dông tr¸nh ®îc trêng hîp sè côm tèi u sÏ lµ n nh trêng hîp ë trªn. ë
®©y ta m« h×nh hãa bµi to¸n ph©n côm, trong ®ã ®é phøc t¹p (complexity) cña
ph©n côm cã phô thuéc vµo sè lîng côm (hay mét hµm cña sè lîng côm). Tuy
nhiªn ë ®©y ta l¹i gÆp ph¶i vÊn ®Ò lµ lµm sao x¸c ®Þnh ®îc gi¸ trÞ phï hîp cho
. Mét trong nh÷ng ph¬ng ph¸p x¸c ®Þnh lµ dùa vµo thùc nghiÖm vµ gi¸ trÞ ®ã
sÏ ®îc dïng cho cïng 1 miªn d÷ liÖu khi tËp d÷ liÖu thay ®æi. VÝ dô ta ph©n
côm d÷ liÖu thu ®îc tõ mét tËp hîp c¸c phÇn tö d÷ liÖu, khi ta x¸c ®Þnh ®îc
gi¸ trÞ th× gi¸ trÞ nµy sÏ ®îc sö dông trong nh÷ng lÇn ph©n côm d÷ liÖu míi
(khi néi dung c¸c phÇn tö d÷ liÖu tõ c¸c website nguån thay ®æi). Chó ý trong
trêng hîp nµy chóng ta chØ thõa kÕ gi¸ trÞ chø kh«ng thõa kÕ sè lîng côm k.
5.4. ThuËt to¸n ph©n côm ph©n cÊp
Kh¸c víi c¸c gi¶i thuËt ph©n côm ph»ng, c¸c thuËt to¸n ph©n côm ph©n cÊp
sÏ t¹o ra mét c©y ph©n cÊp c¸c côm d÷ liÖu. C¸c gi¶i thuËt ph©n côm ph©n cÊp
thêng ®îc chia lµm 2 lo¹i: ph©n côm tõ díi lªn (l¸ ®Õn gèc) vµ tõ trªn xuèng
(gèc xuèng l¸).
5.4.1 Ph©n côm ph©n cÊp gép
Gi¶i thuËt ®Çu tiªn chóng ta t×m hiÓu lµ gi¶i thuËt ph©n côm tõ díi lªn cã
tªn lµ ph©n côm gép (Hierarchical Agglomerative clustering – HAC). MÆc dï
cã nhiÒu d¹ng thøc liªn quan tíi ph¬ng ph¸p ph©n côm tõ díi lªn, song mét t
duy rÊt tù nhiªn ®Ó t×m ra c¸c côm lµ:
1. B¾t ®Çu tõ mçi phÇn tö d÷ liÖu ®îc coi nh mét côm (t¹i thêi ®iÓm nµy
th× sè lîng côm b»ng chÝnh sè lîng c¸c phÇn tö d÷ liÖu);
2. Sau ®ã tõng bíc gép c¸c côm ®· cã thµnh c¸c côm lín h¬n víi yªu cÇu
ph¶i ®¶m b¶o ®é t¬ng tù gi÷a c¸c phÇn tö d÷ liÖu néi bé trong mçi côm
cao (sè lîng côm gi¶m dÇn);
3. ThuËt to¸n ngõng l¹i khi hoÆc ®· ®¹t ®îc sè lîng côm mong muèn
hoÆc chØ cßn mét côm duy nhÊt chøa toµn bé d÷ liÖu hay tháa m·n mét
®iÒu kiÖn dõng nµo ®ã.
ThuËt to¸n ph©n côm ph©n cÊp gép (Hierarchical agglomerative clustering-
HAC) lµ thuËt to¸n ph©n côm ph©n cÊp tõ díi lªn ®îc sö dông rÊt réng r·i vµ
®îc tÝch hîp vµo c¸c øng dông truy t×m th«ng tin (Information Retrieval)
[Markov07]. HAC chØ yªu cÇu ®Þnh nghÜa hµm kho¶ng c¸ch gi÷a c¸c côm. Ta
còng cã thÓ dïng ®é t¬ng tù ®Ó thay thÕ ®é ®o kho¶ng c¸ch. Chó ý lµ gi¸ trÞ
cña 2 ®é ®o nµy lµ tØ lÖ nghÞch víi nhau. NÕu dïng ®é ®o kho¶ng c¸ch, gi¶ sö Ci
vµ Cj lµ 2 côm, cã mét sè ph¬ng ph¸p tÝnh kho¶ng c¸ch gi÷a hai côm Ci vµ Cj lµ
d(Ci, Cj) nh sau:
Kho¶ng c¸ch gi÷a 2 côm ®îc tÝnh lµ kho¶ng c¸ch gi÷a 2 träng t©m cña
Ci vµ Cj: dmean(Ci, Cj)=|mi - mj|, trong ®ã mi vµ mj lÇn lît lµ träng t©m
cña hai côm Ci vµ Cj.
Kho¶ng c¸ch gi÷a 2 côm ®îc tÝnh lµ kho¶ng c¸ch cùc ®¹i gi÷a 2 phÇn
tö d÷ liÖu thuéc vµo 2 côm:
|'|max),( ',max ppCCdji CpCpji . Gi¶i thuËt sö dông
®é ®o nµy cßn ®îc gäi lµ ph©n côm ngêi l¸ng giÒng gÇn nhÊt, vµ ®é
®o nµy cßn ®îc gäi lµ single-link.
191 192
Kho¶ng c¸ch gi÷a 2 côm ®îc tÝnh lµ kho¶ng c¸ch cùc tiÓu gi÷a 2 phÇn
tö d÷ liÖu thuéc vµo 2 côm:
|'|min),( ',min ppCCdji CpCpji . Gi¶i thuËt sö dông
®é ®o nµy cßn ®îc gäi lµ ph©n côm ngêi l¸ng giÒng xa nhÊt, vµ ®é ®o
nµy cßn ®îc gäi lµ complete-link.
Kho¶ng c¸ch gi÷a 2 côm ®îc tÝnh lµ kho¶ng c¸ch trung b×nh gi÷a c¸c
tµi liÖu trong 2 côm:
ji CpCpji
jiavg ppCC
CCd',
|'|1
),( . §é ®o nµy cßn
®îc gäi lµ group-average.
T¬ng tù nh gi¶i thuËt ph©n côm kh¸c, môc ®Ých cña HAC lµ lµm cùc ®¹i
®é t¬ng tù gi÷a c¸c phÇn tö d÷ liÖu trong néi t¹i mét côm. Trong qu¸ tr×nh
HAC ho¹t ®éng, c¸c côm ®îc ghÐp l¹i víi nhau t¹o thµnh mét côm ë cÊp
cao h¬n, ®é t¬ng tù néi t¹i cña c¸c côm míi nµy sÏ gi¶m so víi c¸c côm ë
cÊp thÊp h¬n trong c©y ph©n cÊp (xem minh häa trong h×nh 5.3).
Nh vËy, ®Ó ®¹t ®îc chÊt lîng ph©n côm tæng thÓ tèt, chóng ta cã thÓ
dõng qu¸ tr×nh ghÐp côm ë mét møc nµo ®ã chø kh«ng b¾t buéc ph¶i t¹o ra
mét côm duy nhÊt ë gèc cña c©y ph©n cÊp. §Ó cµi ®Æt ý tëng nµy ta cã thÓ
sö dông c¸c tham sè ®iÒu khiÓn. Tham sè thø nhÊt k ®Ó dõng thuËt to¸n lµ
khi sè lîng côm mong muèn ®· ®îc t¹o ra, tham sè thø hai q lµ dõng
thuËt to¸n khi kho¶ng c¸ch gi÷a hai côm ®îc chän ®Ó ghÐp lín h¬n mét
ngìng nµo ®ã. Gäi G lµ tËp c¸c côm, D lµ tËp hîp c¸c phÇn tö d÷ liÖu cÇn
ph©n côm, thuËt to¸n HAC ®îc thÓ hiÖn nh sau:
H×nh 5.3 Mét c©y ph©n cÊp cña thuËt to¸n ph©n côm HAC
§Çu vµo: + tËp d÷ liÖu kh«ng cã nh·n D
+ ngìng q lµ gi¸ trÞ ®é t¬ng ®ång nhá nhÊt (®iÒu kiÖn thø
nhÊt ®Ó dõng thuËt to¸n)
+ gi¸ trÞ k lµ sè lîng côm mong muèn (®iÒu kiÖn thø 2 ®Ó
dõng thuËt to¸n)
§Çu ra: c©y ph©n côm ph©n cÊp G
1. G { {p} | p D} (khëi t¹o G lµ tËp c¸c côm chØ gåm mét phÇn tö
d÷ liÖu trong tËp D).
2. NÕu |G| < k th× dõng thuËt to¸n (®· ®¹t ®îc sè lîng côm mong
muèn).
3. T×m hai côm Ci, Cj G sao cho (i,j) = arg min(i,j) d (Ci, Cj) (t×m hai
côm cã kho¶ng c¸ch nhá nhÊt hay ®é t¬ng tù lín nhÊt).
4. NÕu d(Ci, Cj) > q th× dõng thuËt to¸n (kho¶ng c¸ch gi÷a 2 côm lín
h¬n ngìng cho phÐp).
5. Lo¹i bá Ci, Cj khái G.
193 194
6. G = G { Ci, Cj } (ghÐp hai côm Ci, Cj vµ ®a vµo trong tËp G).
7. Nh¶y ®Õn bíc 2.
ThuËt to¸n ph©n côm ph©n cÊp HAC
Gi¶i thuËt cã thÓ dõng t¹i bíc 2 khi sè lîng côm k mong muèn ®· tháa
m·n, hay ë bíc 4 khi kho¶ng c¸ch nhá nhÊt gi÷a 2 côm lµ lín h¬n ngìng q
cho phÐp. Khi k=1 vµ q = 0 th× G lµ c©y ph©n côm hoµn chØnh cã gèc lµ côm duy
nhÊt. Khi k>1 th× cã k côm ë møc cao nhÊt. Mét vÝ dô vÒ gi¶i thuËt ph©n côm
HAC lµ c©y ph©n cÊp ë h×nh 5.3. Mét ®iÒu ®¸ng chó ý ®èi víi thuËt to¸n HAC lµ
nã lu«n t¹o ra mét c©y nhÞ ph©n chø kh«ng ph¶i lµ mét c©y ph©n cÊp tæng qu¸t,
v× khi ghÐp côm nã chØ ghÐp 2 côm cã ®é t¬ng tù nhau lµ lín nhÊt.
NhËn xÐt vÒ mét sè ®é ®o
Víi ph©n côm dùa trªn ®é ®o single-link, kho¶ng c¸ch gi÷a 2 côm ®îc
tÝnh chÝnh lµ kho¶ng c¸ch lín nhÊt gi÷a hai phÇn tö d÷ liÖu n»m trong 2 côm
(h×nh 5.4 a). Do ®ã khi dïng ®é ®o nµy ®Ó quyÕt ®Þnh ghÐp 2 côm l¹i víi nhau
mang tÝnh côc bé. V× khi ghÐp côm chóng ta chØ quan t©m ®Õn nh÷ng vïng d÷
liÖu mµ ë ®ã cã phÇn tö cña 2 côm gÇn nhau nhÊt, mµ kh«ng cÇn quan t©m ®Õn
c¸c phÇn tö kh¸c trong côm còng nh cÊu tróc tæng thÓ cña c¸c côm. §iÒu nµy
sÏ lµm cho chÊt lîng ph©n côm cña gi¶i thuËt cã thÓ sÏ kÐm nÕu cã trêng hîp
chØ cã duy nhÊt 2 phÇn tö d÷ liÖu ë trong 2 côm lµ gÇn nhau, cßn c¸c phÇn tö d÷
liÖu cßn l¹i trong 2 côm lµ ë rÊt xa nhau.
Víi ph©n côm dùa trªn ®é ®o complete-link, kho¶ng c¸ch cña 2 côm l¹i
®îc lÊy lµ kho¶ng c¸ch cña 2 phÇn tö d÷ liÖu n»m trong 2 côm cã gi¸ trÞ nhá
nhÊt (h×nh 5.4 b). ViÖc nµy t¬ng ®¬ng víi viÖc lùa chän 2 côm ®Ó ghÐp l¹i sÏ
t¹o ra côm míi cã ®êng kÝnh nhá nhÊt. §iÒu kiÖn lùa chän dïng ®Ó ghÐp 2 côm
nµy kh«ng mang tÝnh côc bé, v× cÊu tróc toµn côc cña c¸c côm ®îc xem xÐt
trong qu¸ tr×nh quyÕt ®Þnh ghÐp côm. §iÒu kiÖn nµy cã u ®iÓm lµ lu«n t¹o ra
c¸c côm “c« ®äng” v× c¸c côm míi ®îc t¹o ra cã b¸n kÝnh nhá nhÊt. Còng nh
ph©n côm víi single-link, gi¶i thuËt ph©n côm víi complete-link còng cã thÓ cho
chÊt lîng kÐm khi cã 2 phÇn tö d÷ liÖu trong 2 côm ë rÊt xa nhau trong khi
träng t©m cña 2 côm nµy l¹i rÊt gÇn nhau, khi ®ã 2 côm nµy cã thÓ kh«ng ®îc
lùa chän ®Ó ghÐp l¹i víi nhau.
H×nh 5.4 minh häa ph©n côm ph©n cÊp HAC víi ®é ®o single-link (a) vµ ®é
®o complete-link (b) trªn 8 phÇn tö d÷ liÖu {p1, p2, …, p8}. Tõ h×nh minh häa
cho thÊy bèn bíc ®Çu tiªn cña c¶ 2 gi¶i thuËt ®Òu t¹o ra c¸c côm gièng nhau.
Bíc thø 5, gi¶i thuËt HAC víi single-link sÏ ghÐp 2 côm ë phÝa trªn l¹i víi
nhau, vµ bíc thø 7 lµ ghÐp 2 côm ë díi l¹i. Trong khi ®ã gi¶i thuËt HAC víi
complete-link l¹i ghÐp 2 côm ë phÝa bªn tr¸i ë bíc thø 6 vµ ghÐp hai côm phÝa
bªn ph¶i l¹i ë bíc thø 5.
C¶ hai ®é ®o single-link vµ complete-link ®Òu ®¸nh gi¸ kho¶ng c¸ch cña 2
côm dùa trªn mét cÆp phÇn tö d÷ liÖu duy nhÊt, do ®ã gi¶i thuËt ph©n côm sö
dông c¸c ®é ®o nµy ®Òu cã kh¶ n¨ng t¹o ra c¸c côm kh«ng mong muèn (cã chÊt
lîng kh«ng tèt). H×nh 5.5 a ®a ra vÝ dô mét trêng hîp mµ thuËt to¸n HAC
víi ®é ®o single-link cho kÕt qu¶ kh«ng mong muèn. V× ®iÒu kiÖn ghÐp côm cña
®é ®o nµy lµ mang tÝnh côc bé mµ kh«ng quan t©m ®Õn h×nh d¸ng cña côm ®îc
t¹o ra.
H×nh 5.4 Ph©n côm víi ®é ®o single-link vµ complete-link
195 196
(a) single-link (b) complete-link
H×nh 5.5 Trêng hîp ghÐp côm kh«ng tèt cña ®é ®o single-link vµo complete-link
Do ®ã nã ®· t¹o ra mét côm cã h×nh nh mét chuçi (chain). NÕu ta ®Ó ý th×
cã thÓ nhËn ra t×nh huèng t¹o chuçi víi ®é ®o single-link còng xuÊt hiÖn ngay
trong h×nh 5.4 a. Nhng gi¶i thuËt ph©n côm HAC víi ®é ®o complete-link víi
cïng tËp d÷ liÖu nµy l¹i kh«ng t¹o chuçi (h×nh 5.4 b), do ®ã kÕt qu¶ c¸c côm t¹o
ra trong trêng hîp nµy lµ tèt h¬n.
Cßn gi¶i thuËt HAC víi ®é ®o complete-link l¹i cã nhîc ®iÓm kh¸c, ®ã lµ
khi ghÐp côm l¹i víi nhau nã l¹i quan t©m nhiÒu ®Õn trêng hîp ngo¹i lÖ cña 2
phÇn tö d÷ liÖu trong 2 côm cã kho¶ng c¸ch nhau lµ thÊp nhÊt mµ kh«ng quan
t©m ®Õn c¸c phÇn tö d÷ liÖu cßn l¹i trong côm, hay cÊu tróc toµn côc cña c¸c
côm. Do ®ã nã cã thÓ t¹o ra c¸c côm kh«ng mong muèn nh minh häa trong
h×nh 5.5 b. Mét c¸ch trùc quan, nÕu ta quan t©m ®Õn cÊu tróc cña d÷ liÖu th× kÕt
qu¶ ph©n côm ë møc gÇn gèc nªn lµ 2 côm {p1} vµ {p2, p3, p4, p5}, th× tèt h¬n
nhiÒu so víi 2 côm {p1, p2} vµ {p3, p4, p5}.
§é ®o group-average tÝnh to¸n kho¶ng c¸ch cña 2 côm dùa trªn kho¶ng
c¸ch cña toµn bé c¸c cÆp phÇn tö d÷ liÖu trong 2 côm chø kh«ng chØ dùa trªn
mét cÆp phÇn tö d÷ liÖu duy nhÊt. Do ®ã nã tr¸nh ®îc c¸c trêng hîp kh«ng
mong muèn nh 2 ®é ®o võa th¶o luËn ë trªn.
§é ®o dùa vµo träng t©m còng cã ®Æc ®iÓm lµ kh«ng dùa trªn mét cÆp phÇn
tö d÷ liÖu ®Ó quyÕt ®Þnh kho¶ng c¸ch cña 2 côm. ë ®©y nã gi¸ trÞ cña kho¶ng
c¸ch gi÷a 2 côm chÝnh lµ kho¶ng c¸ch cña träng t©m cña 2 côm. §é ®o nµy
tr¸nh ®îc mét sè nhîc ®iÓm cña ®é ®o single-link vµ complete-link, tuy nhiªn
nã còng cã nhîc ®iÓm lµ kho¶ng c¸ch tõ díi lªn trªn c©y ph©n cÊp cã thÓ lµ
kh«ng gi¶m dÇn (do träng t©m cña c¸c côm ë møc cao cã thÓ ë gÇn nhau h¬n so
víi c¸c côm ë møc díi. §iÒu nµy tr¸i ngîc víi gi¶ thiÕt c¬ b¶n lµ c¸c côm nhá
thêng cã ®é kÕt dÝnh (coherent) cao h¬n c¸c côm cã kÝch thíc lín h¬n.
5.4.2 C¸c thuËt ph©n côm ph©n cÊp BIRCH
Gi¶i thuËt ph©n côm ph©n cÊp tiÕp theo lµ BIRCH ®îc viÕt t¾t tõ côm tõ
Balanced Iterative Reducing Clustering Using Hierarchies. BIRCH ®îc thiÕt kÕ
®Ó gi¶i quyÕt c¸c bµi to¸n cã sè lîng d÷ liÖu lín b»ng c¸ch kÕt hîp ph©n côm
ph©n cÊp trong bíc ph©n côm vi m« (micorclustering stage), víi c¸c ph¬ng
ph¸p ph©n côm kh¸c (ch¼ng h¹n ph©n côm ph¼ng trong bíc ph©n côm vÜ m«
(macroclustering stage). Nã gi¶i quyÕt ®îc nhîc ®iÓm cña c¸c ph¬ng ph¸p
ph©n côm ph©n cÊp lµ: (1) tÝnh kh¶ cì (scalability) – kh¶ n¨ng lµm viÖc víi mét
tËp d÷ liÖu rÊt lín; vµ (2) kh¶ n¨ng kh«ng thay ®æi ®îc khi ®· g¸n mét phÇn tö
d÷ liÖu vµo mét côm.
Cã 2 kh¸i niÖm (hay 2 cÊu tróc d÷ liÖu) ®îc ®Ò cËp trong gi¶i thuËt
BIRCH lµ ®Æc trng ph©n côm (clustering feature) ký hiÖu lµ CF; vµ c©y ®Æc
trng ph©n côm (clustering feature tree) ký hiÖu lµ CF tree. ViÖc ®Ò xuÊt ra hai
cÊu tróc d÷ liÖu nµy ®· lµm cho gi¶i thuËt BIRCH cã tèc ®é kh¸ nhanh vµ cã thÓ
xö lý ®îc mét lîng d÷ liÖu lín vµ ®Æc biÖt lµ nã t¹o kh¶ n¨ng ph©n côm c¸c d÷
liÖu ph¸t sinh (thªm míi) mét c¸ch ®¬n gi¶n mµ kh«ng cÇn ph¶i ph©n côm l¹i
toµn bé tËp d÷ liÖu. Nãi mét c¸ch kh¸c nã cã kh¶ n¨ng xö lý d÷ liÖu mét c¸ch
gia t¨ng (incremental). Cho mét tËp n phÇn tö d÷ liÖu trong mét côm, khi ®ã
träng t©m cña côm x0, b¸n kÝnh R vµ ®êng kÝnh D ®îc ®Þnh nghÜa nh sau:
n
x
x
n
ii
10 ,
n
xx
R
n
ii
1
20 )(
vµ )1(
)(1 1
2
nn
xx
D
n
i
n
jji
(5.14)
trong ®ã xi lµ mét phÇn tö d÷ liÖu trong côm; R lµ kho¶ng c¸ch trung b×nh
tõ c¸c phÇn tö d÷ liÖu ®Õn träng t©m cña côm; D lµ kho¶ng c¸ch trung b×nh cña
197 198
tÊt c¶ c¸c cÆp phÇn tö d÷ liÖu trong cïng mét côm. Hai gi¸ trÞ R vµ D thÓ hiÖn ®é
co côm (tightness) cña c¸c phÇn tö d÷ liÖu quanh träng t©m cña nã. §Æc trng
ph©n côm CF lµ mét bé ba chøa th«ng tin tãm t¾t vÒ mét côm. Cho mét tËp n
phÇn tö d÷ liÖu {xi} trong mét côm, khi ®ã gi¸ trÞ CF cña côm ®îc ®Þnh nghÜa
nh sau:
SSLSnCF ,, ,
n
i ixLS1
vµ
n
i ixSS1
2 (5.15)
trong ®ã n lµ sè lîng c¸c phÇn tö trong côm; LS lµ tæng tuyÕn tÝnh cña n
phÇn tö d÷ liÖu vµ SS lµ tæng b×nh ph¬ng c¸c phÇn tö trong côm.
VÝ dô, côm d÷ liÖu C1 cã 3 phÇn tö d÷ liÖu {(2,5), (3,2), (4,3)} th× ®Æc trng
ph©n côm cña nã lµ CF1 = <3, (2+3+4, 5+2+3), (22+32+42, 52+22+32)> = <3,
(9,10), (29,38)>
B¶n chÊt cña CF lµ chøa th«ng tin thèng kª cña mét côm. Mét ®Æc ®iÓm
quan träng cña CF lµ nã cã tÝnh céng dån (additive). Gi¶ sö chóng ta cã 2 côm
kh«ng giao nhau C1 vµ C2 cã gi¸ trÞ ®Æc trng ph©n côm t¬ng øng lµ CF1 vµ
CF2, nÕu ta gép 2 côm nµy thµnh mét côm lín h¬n th× ®Æc trng ph©n côm cña
côm ®îc t¹o ra sÏ chÝnh b»ng CF1+CF2 (chø ta kh«ng ph¶i tÝnh l¹i gi¸ trÞ CF
cho côm míi t¹o thµnh dùa trªn c¸c phÇn tö d÷ liÖu cña nã). §©y lµ ®Æc ®iÓm
cùc kú quan träng nã cho phÐp BIRCH kh«ng cÇn lu c¸c phÇn tö d÷ liÖu cña
tõng côm mµ vÉn tÝnh to¸n ra ®îc c¸c ®é ®o cÇn thiÕt.
VÝ dô, gi¶ sö ®Æc trng ph©n côm cña côm C2 lµ CF2=<3, (35, 36), (417,
440)>, nÕu ta ghÐp côm C1 vµ C2 thµnh côm C3, khi ®ã ®Æc trng ph©n côm cña
C3 sÏ lµ:
CF3 = <3+3, (9+35, 10+36), (29+417, 38+440)> = <6, (44, 46), (446,
478)>
Gi¶i thuËt ph©n côm BIRCH chØ cÇn dïng ®Æc trng ph©n côm ®Ó tÝnh to¸n
c¸c ®é ®o cÇn thiÕt cho viÖc quyÕt ®Þnh ph©n côm d÷ liÖu. Nãi mét c¸ch kh¸c,
BIRCH kh«ng cÇn lu chi tiÕt tõng phÇn tö d÷ liÖu ®Çu vµo, do ®ã nã sö dông rÊt
Ýt bé nhí so víi c¸c gi¶i thuËt ph©n côm ë trªn.
CÊu tróc d÷ liÖu tiÕp theo lµ c©y ®Æc trng ph©n côm, nã lµ mét c©y c©n
b»ng (height-balanced tree) chøa c¸c ®Æc trng ph©n côm. Mçi nót (kh«ng ph¶i
lµ nót lµ) cña c©y sÏ cã c¸c nót con, vµ gi¸ trÞ CF cña nã sÏ ®îc tÝnh b»ng tæng
c¸c gi¸ trÞ ®Æc trng ph©n côm cña c¸c nót con cña nã. Chóng ta cã thÓ thÊy c©y
nµy còng chøa lu«n c¸c côm hay nã chÝnh lµ c©y ph©n côm ph©n cÊp. Ngoµi ra
mçi mét c©y ®Æc trng ph©n côm cßn cã thªm 2 tham sè: (1) hÖ sè ph©n nh¸nh
(branching factor) B vµ (2) mét ngìng T. HÖ sè rÏ nh¸nh x¸c ®Þnh sè lîng con
tèi ®a mµ mét nót (kh«ng ph¶i lµ nót l¸) cã thÓ cã. Ngìng T x¸c ®Þnh ®êng
kÝnh tèi ®a cña c¸c côm t¹i c¸c nót l¸. Hai tham sè nµy sÏ ¶nh hëng lín ®Õn
kÝch thíc cña c©y ph©n côm ph©n cÊp ®Çu ra. NÕu ngìng T lín th× sè lîng
côm sÏ gi¶m vµ kÝch thíc c©y sÏ nhá vµ ngîc l¹i.
H×nh 5.6 Minh häa mét c©y ®Æc trng ph©n côm
BIRCH sÏ cè g¾ng t¹o ra mét tËp c¸c côm tèt nhÊt dùa vµo tµi nguyªn h÷u
h¹n bé nhí vµ lµm gi¶m thiÓu c¸c thao t¸c vµo ra. BIRCH sö dông kü thuËt ph©n
côm nhiÒu pha (multiphase), cô thÓ nã cã 2 pha chÝnh sau:
Pha 1: BIRCH duyÖt toµn bé d÷ liÖu ®Ó x©y dùng c©y ®Æc trng ph©n
côm CF tree ban ®Çu. Qu¸ tr×nh nµy cã thÓ ®îc coi lµ bíc nÐn d÷ liÖu
ë nhiÒu møc nhng vÉn gi÷ tÝnh chÊt ph©n bè thµnh côm cña d÷ liÖu.
Pha nµy ®îc gäi lµ pha ph©n côm vi m« (microclustering), nã t¹o ra
c¸c vi côm (microcluster) lµ c¸c nót l¸.
Pha 2: BIRCH ¸p dông gi¶i thuËt ph©n côm t¹i c¸c nót l¸ cña c©y CF
tree, c¸c côm cã cÊu tróc tha sÏ bÞ coi lµ ngo¹i lÖ vµ bÞ bá ®i, c¸c côm
199 200
cã mËt ®é dµy sÏ ®îc ghÐp víi nhau t¹o thµnh côm lín h¬n. Pha nµy
cßn ®îc gäi lµ pha ph©n côm vÜ m« (macroclustering), nã xö lý trªn
toµn c©y CF tree.
T¹i pha 1, c©y CF tree ®îc x©y dùng ®éng, c¸c phÇn tö d÷ liÖu sÏ ®îc lÇn
lît chÌn vµo nót l¸ gÇn nã nhÊt. Qu¸ tr×nh nµy ta thÊy gi¶i thuËt ho¹t ®éng theo
c¬ chÕ gia t¨ng (incremental). NÕu nót l¸ sau khi chÌn thªm d÷ liÖu cã ®êng
kÝnh lín h¬n ngìng T, th× nót l¸ ®ã sÏ bÞ chia thµnh c¸c côm nhá h¬n, hay mét
nót l¸ míi sÏ ®îc t¹o ra. Sau khi thùc hiÖn xong thao t¸c chÌn mét phÇn tö d÷
liÖu, th«ng tin vÒ nã sÏ ®îc cËp nhËt ngîc lªn cho ®Õn tËn nót gèc. Qu¸ tr×nh
nµy l¹i cho ta thÊy khi cã d÷ liÖu míi th× c©y CF tree sÏ ®îc cËp nhËt chø
kh«ng ph¶i x©y dùng l¹i tõ ®Çu. Chó ý r»ng tham sè ngìng T cã ¶nh hëng ®Õn
kÝch thíc cña c©y CF tree, do ®ã trong trêng hîp kÝch thíc cña c©y CF tree
lín h¬n kÝch thíc bé nhí trong th× ta cã thÓ ®iÒu chØnh l¹i gi¸ trÞ ngìng T nµy
(chän gi¸ trÞ lín h¬n gi¸ trÞ hiÖn t¹i cña T), sau ®ã x©y dùng l¹i c©y. Qu¸ tr×nh
x©y dùng l¹i c©y ®îc thùc hiÖn tõ c¸c nót l¸ cña c©y cò, do ®ã ta kh«ng cÇn
ph¶i ®äc l¹i d÷ liÖu. Lý do cña viÖc ta cã thÓ x©y dùng l¹i c©y míi tõ c©y cò lµ: ë
c©y míi cã ngìng T lín h¬n, nªn kÝch thíc cña mét côm sÏ to h¬n, dÉn ®Õn
viÖc t¹o c©y míi chØ cÇn thao t¸c gép c¸c côm l¹i víi nhau. Qu¸ tr×nh nµy còng
cã thÓ so s¸nh víi qu¸ tr×nh thªm mét nót vµ ph©n chia mét nót trong gi¶i thuËt
x©y dùng c©y B+. Nh vËy chóng ta chØ cÇn mét lÇn ®äc toµn bé d÷ liÖu ®Ó x©y
dùng c©y CF tree. §©y lµ gi¶i ph¸p cho phÐp gi¶i thuËt ho¹t ®éng ®îc trong
®iÒu kiÖn bé nhí trong lµ h÷u h¹n ®ång thêi vÉn h¹n chÕ ®îc sè lîng c¸c thao
t¸c vµo ra. Mét sè ph¬ng ph¸p ®îc giíi thiÖu ®Ó lo¹i bá c¸c d÷ liÖu ngo¹i lÖ,
khi ®ã ta cã thÓ cÇn ph¶i duyÖt d÷ liÖu mét lÇn n÷a. Chóng ta chó ý r»ng cã 2
trêng hîp d÷ liÖu cã thÓ ®îc g¸n l¹i: chia nhá mét nót l¸ thµnh c¸c nót con
hoÆc x©y dùng l¹i c©y. §©y lµ mét trong nh÷ng u ®iÓm cña BIRCH, nã kh¾c
phôc ®îc ®Æc ®iÓm lµ sau khi ph©n d÷ liÖu vµo mét côm th× ta kh«ng thÓ ph©n
l¹i nã ®îc cña gi¶i thuËt HAC ®îc tr×nh bµy ë trªn.
Sau khi ta ®· x©y dùng ®îc c©y, th× ta cã thÓ sö dông bÊt kú gi¶i thuËt
ph©n côm ph©n cÊp nµo ®Ó xö lý d÷ liÖu trªn c©y CF tree. Mét trong nh÷ng gi¶i
thuËt ta cã thÓ sö dông ®îc lµ gi¶i thuËt HAC.
§é phøc t¹p cña thuËt to¸n khi x©y dùng c©y lµ O(n), thùc nghiÖm ®· cho
thÊy BIRCH cho kÕt qu¶ ph©n côm cã chÊt lîng kh¸ tèt vµ thêi gian xö lý
nhanh. Tuy nhiªn BIRCH còng gÆp ph¶i nhîc ®iÓm gièng c¸c gi¶i thuËt ph©n
côm dùa vµo ®é ®o kho¶ng c¸ch. §ã lµ nÕu c¸c côm kh«ng ®îc ph©n bè theo
h×nh cÇu th× kÕt qu¶ ph©n côm cña BIRCH lµ kh«ng tèt. H¬n n÷a v× sè lîng c¸c
côm trong c©y CF tree lµ h÷u h¹n (do h¹n chÕ vÒ bé nhí) nªn cã thÓ kÕt qu¶
ph©n côm cña nã sÏ kh«ng ph¶n ¸nh ®óng ph©n bè tù nhiªn cña c¸c côm.
5.4.3 ThuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng DIANA
Theo c¸c nghiªn cøu ®îc c«ng bè, kü thuËt ph©n côm tõ díi lªn (bottom-
up) ®îc sö dông trùc tiÕp tèn thêi gian víi ®é phøc t¹p lµ O(n2) vµ kh«ng thÝch
hîp cho c¸c tËp d÷ liÖu lín. NÕu coi nh ®Æt tríc sè côm lµ k, kü thuËt ph©n
ho¹ch tõ trªn xuèng (top-down) thêng ®îc sö dông v× hiÖu qu¶ h¬n. Mét kü
thuËt ®i theo híng nµy lµ sö dông thuËt to¸n k-means. ThuËt to¸n b¾t ®Çu tõ
®Ønh cña c©y víi chØ cã mét côm lµ toµn bé c¸c phÇn tö d÷ liÖu. Côm nµy sÏ
®îc ph©n chia ra thµnh c¸c côm nhá h¬n sö dông thuËt to¸n ph©n côm ph¼ng
(ch¼ng h¹n nh k-means). Víi c¸c côm nhá ta l¹i ¸p dông ®Ö quy thuËt to¸n
ph©n côm ph¼ng. VÒ lý thuyÕt th× thuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng
phøc t¹p h¬n so víi ph¬ng ph¸p ph©n côm tõ díi lªn v× chóng ta gäi gi¶i thuËt
ph©n côm ph¼ng (nh lµ mét thñ tôc) nhiÒu lÇn. Tuy nhiªn nã cã u ®iÓm trong
trêng hîp chóng ta kh«ng cÇn thiÕt ph¶i sinh ra mét c©y ph©n cÊp hoµn chØnh
(c©y cã c¸c côm ë nót l¸ chØ chøa ®óng mét phÇn tö d÷ liÖu). Khi giíi h¹n sè
lîng møc (level) cña c©y ph©n cÊp, vµ kÕt hîp sö dông gi¶i thuËt ph©n côm
ph¼ng k-means, thuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng cã ®é phøc t¹p gÇn
nh lµ tuyÕn tÝnh víi sè lîng c¸c phÇn tö d÷ liÖu vµ sè lîng c¸c côm. Do ®ã
thuËt to¸n ph©n côm tõ trªn xuèng sÏ ch¹y nhanh h¬n so víi thuËt to¸n ph©n
côm tõ díi lªn HAC.
Gi¶i thuËt ph©n côm tõ trªn xuèng cßn ®îc chøng minh lµ cã ®é chÝnh x¸c
cao h¬n so víi c¸c gi¶i thuËt ph©n côm tõ díi lªn nh HAC trong mét sè trêng
hîp. Lý do lµ gi¶i thuËt ph©n côm tõ díi lªn ®a ra quyÕt ®Þnh ghÐp c¸c côm l¹i
víi nhau chØ sö dông c¸c th«ng tin côc bé (ë c¸c côm) mµ kh«ng thÓ dùa trªn
201 202
th«ng tin toµn côc (toµn bé tËp d÷ liÖu). Vµ c¸c côm sau khi ghÐp råi th× kh«ng
thÓ t¸ch ra ®Ó ghÐp víi c¸c côm kh¸c. Ngîc l¹i c¸c gi¶i thuËt ph©n côm tõ trªn
xuèng ngay tõ ®Çu ®· khai th¸c ®îc th«ng tin toµn côc (ph©n bè toµn côc cña
tËp d÷ liÖu) khi quyÕt ®Þnh ph©n d÷ liÖu ®ang xÐt thµnh c¸c côm nhá h¬n.
§Ó minh häa râ h¬n c¸ch lµm viÖc cña gi¶i thuËt ph©n côm tõ trªn xuèng,
môc nµy sÏ tr×nh bµy chi tiÕt gi¶i thuËt DIANA (viÕt t¾t tõ côm tõ DIvisive
ANAlysis). Gi¶i thuËt nµy cã c¸ch ho¹t ®éng rÊt gièng víi gi¶i thuËt HAC, tuy
nhiªn ®iÓm kh¸c biÖt lµ nã ho¹t ®éng tõ trªn xuèng. Chi tiÕt vÒ thuËt to¸n ®îc
m« t¶ nh sau:
§Çu vµo: tËp D gåm n phÇn tö d÷ liÖu {x1, x2, …, xn}
§Çu ra: c©y ph©n côm ph©n cÊp
ThuËt to¸n DIANA
Bíc khëi t¹o: t¹o côm ban ®Çu gåm toµn bé tËp d÷ liÖu D {x1, x2, …, xn}
ë c¸c vßng lÆp sau, côm lín nhÊt sÏ ®îc chän ®Ó chia thµnh 2 côm nhá
h¬n. Qu¸ tr×nh nµy lÆp l¹i cho ®Õn khi mçi côm chØ chøa 1 phÇn tö d÷ liÖu (qu¸
tr×nh nµy sÏ ®îc thùc hiÖn trong n-1 bíc), hoÆc tháa m·n 1 ®iÒu kiÖn dõng nµo
®ã. Chó ý r»ng, gi¶ sö mét côm cã n phÇn tö th× chóng ta cã tæ hîp 2n-1 -1 c¸ch
®Ó chia côm nµy thµnh 2 côm con. §©y lµ mét tæ hîp rÊt lín, do ®ã ®Ó gi¶m ®é
phøc t¹p (tr¸nh ph¶i xÐt toµn bé tæ hîp), gi¶i thuËt DIANA sö dông ph¬ng ph¸p
chia côm nh sau:
Bíc chia côm:
1. Víi côm ®ang ®îc chän ®Ó chia, t×m phÇn tö d÷ liÖu kh¸c biÖt h¼n víi
c¸c phÇn tö cßn l¹i trong côm. T¹o mét côm míi chøa phÇn tö kh¸c biÖt
nµy, gäi lµ côm kh¸c biÖt (splinter group) S.
2. Víi tõng phÇn tö d÷ liÖu xi kh«ng thuéc vµo tËp S (xi S), tÝnh gi¸ trÞ di
lµ hiÖu cña trung b×nh kho¶ng c¸ch gi÷a xi víi c¸c phÇn tö kh«ng thuéc
S víi trung b×nh kho¶ng c¸ch gi÷a xi víi c¸c phÇn tö thuéc S:
2.1. )||()||(
Sx
jiSx
jii
jj
xxaveragexxaveraged (5.16)
2.2. T×m phÇn tö d÷ liÖu xh sao cho dh cã gi¸ trÞ lín nhÊt. NÕu dh >0
th× thªm xh vµo tËp S. §iÒu nµy cã nghÜa lµ t×m phÇn tö gÇn víi
côm S h¬n so víi phÇn cßn l¹i ®Ó thªm vµo trong S.
3. LÆp l¹i bíc 2 cho ®Õn khi kh«ng cßn phÇn tö nµo cã di >0. T¹i thêi
®iÓm nµy th× côm ®· ®îc chia thµnh 2 côm con.
4. Chän côm cã ®êng kÝnh d lín nhÊt )1(
)(1 1
2
mm
xx
d
m
i
m
jji
, trong
®ã m lµ sè lîng c¸c phÇn tö trong côm. LÆp l¹i c¸c bíc 1 ®Õn 3 ®Ó
chia côm nµy thµnh 2 côm nhá h¬n
5. LÆp l¹i bíc 4 cho ®Õn khi mçi côm chØ chøa mét phÇn tö d÷ liÖu hay
mét ®iÒu kiÖn dõng nµo ®ã x¶y ra. Mét vÝ dô vÒ ®iÓu kiÖn dõng lµ tæng
sè lîng côm ®· t¹o ra vît mét ngìng k nµo ®ã.
So s¸nh víi gi¶i thuËt HAC th× gi¶i thuËt DIANA cã ®iÓm gièng lµ t¹i mçi
bíc nã chØ t¸ch mét côm ra lµm 2 côm nhá h¬n (gi¶i thuËt HAC th× mçi bíc
chØ gép 2 côm thµnh 1 côm lín h¬n. Do ®ã c©y kÕt qu¶ ®Çu ra cña 2 gi¶i thuËt
®Òu cã d¹ng c©y nhÞ ph©n.
5.4.4 ThuËt to¸n ph©n côm ph©n cÊp ROCK
ViÖc ph©n côm dùa vµo kho¶ng c¸ch (hay ®é t¬ng tù) lµ cã mét sè nhîc
®iÓm nh ®· tr×nh bµy trong môc 5.3.1 khi nhËn xÐt vÒ mét sè ®é ®o. §Æc biÖt lµ
khi chóng ta ph©n côm d÷ liÖu ®îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi r¹c (hay b»ng
m« h×nh boolean) th× thùc nghiÖm ®· chøng minh ®îc r»ng c¸c ®é ®o kho¶ng
c¸ch cho c¸c côm cã chÊt lîng kh«ng cao. §Ó minh häa cho trêng hîp nµy ta
xem mét vÝ dô sau: gi¶ sö trong mét siªu thÞ cã 5 mÆt hµng a, b, c, d, e, f vµ c¬
së d÷ liÖu biÓu diÔn c¸c giao dÞch (giá mua hµng) ®îc biÓu diÔn díi d¹ng rêi
r¹c 1(hay true) hoÆc 0 (hay false) thÓ hiÖn c¸c mÆt hµng cã ®îc mua hay
kh«ng. XÐt 3 giao dÞch A=(1, 0, 0, 0, 0), B=(0, 0, 0, 0, 1) vµ C = (1, 1, 1, 1, 0).
203 204
NÕu dïng ®é ®o kho¶ng c¸ch
n
i ii ppppd1
2)'(|'| (trong ®ã n lµ
sè chiÒu cña vector biÓu diÔn d÷ liÖu) ®Ó ph©n côm th× 2|=-| BA ,
3|=-| CA vµ 5|=-| CB . Dùa vµo c¸c gi¸ trÞ nµy th× hai giao dÞch A vµ
B (cã kho¶ng c¸ch nhá nhÊt) lµ ®îc gép vµo thµnh 1 côm, ®©y lµ trêng hîp
gép sai v× A vµ B kh«ng hÒ cã chung mét mÆt hµng nµo, chØ cã A vµ C míi cã
chung mÆt hµng a.
Gi¶i thuËt cã tªn lµ ROCK (viÕt t¾t tõ côm tõ RObust Clustering using
linKs) ®· ®îc ®Ò xuÊt ®Ó xö lý d÷ liÖu rêi r¹c. ROCK lµ mét gi¶i thuËt ph©n
côm ph©n cÊp, nã khai th¸c kh¸i niÖm liªn kÕt (link) ®Ó thùc hiÖn qu¸ tr×nh ph©n
côm. ë ®©y, mét liªn kÕt lµ mét phÇn tö l¸ng giÒng chung (common neighbor)
gi÷a mét cÆp 2 phÇn tö d÷ liÖu. NÕu mét cÆp phÇn tö d÷ liÖu t¬ng tù nhau vµ
chóng l¹i cã chung mét sè lîng lín c¸c phÇn tö l¸ng giÒng th× nã cã kh¶ n¨ng
cïng thuéc vÒ mét côm, do ®ã ta cã thÓ gép chóng l¹i víi nhau vµo cïng 1 côm.
§©y lµ ®iÓm kh¸c biÖt lín gi÷a gi¶i thuËt ph©n côm dùa trªn kho¶ng c¸ch (hay
®é t¬ng ®ång) víi ROCK. Khi dùa trªn kho¶ng c¸ch (hay ®é t¬ng ®ång) ®Ó
phôc vô cho quyÕt ®Þnh ph©n côm, ta chØ sö dông th«ng tin tõ chÝnh phÇn tö d÷
liÖu ®ã (th«ng tin côc bé). Cßn ROCK cã sö dông th«ng tin mang tÝnh toµn côc
h¬n v× nã cã quan t©m ®Õn c¸c phÇn tö l¸ng giÒng. Tuy nhiªn kh«ng ph¶i phÇn tö
nµo còng cã thÓ lµ phÇn tö l¸ng giÒng cña mét phÇn tö d÷ liÖu cô thÓ nµo ®ã.
PhÇn tö d÷ liÖu pi ®îc gäi lµ l¸ng giÒng cña pj nÕu sim( pi , pj ) > , trong ®ã
sim( pi , pj ) lµ hµm ®o ®é t¬ng tù gi÷a 2 phÇn tö vµ lµ mét ngìng cho tríc.
Hµm sim( pi , pj ) cã thÓ chän lµ hµm dùa trªn kho¶ng c¸ch hay cã thÓ lµ mét
hµm cung cÊp bëi chuyªn gia trong lÜnh vùc cô thÓ miÔn lµ ®¶m b¶o thuéc tÝnh:
hµm sim( pi , pj ) nµy cã gi¸ trÞ lín th× cÆp ( pi , pj ) cµng t¬ng tù nhau, vµ gi¸ trÞ
cña hµm sim( pi , pj ) ph¶i ®îc chuÈn hãa n»m trong kho¶ng [0, 1]. Khi sim( pi ,
pj )=1 th× pi trïng víi pj vµ khi sim( pi , pj )=0 th× pi hoµn toµn kh¸c pj.
H×nh 5.7 Minh häa kh¸i niÖm liªn kÕt trong ROCK
NÕu biÓu diÔn mçi phÇn tö d÷ lµ mét ®Ønh, c¸c phÇn tö lµ l¸ng giÒng cña
nhau ®îc nèi víi nhau b»ng 1 c¹nh, khi ®ã ta cã thÓ biÓu diÔn tËp d÷ liÖu ®Çu
vµo díi d¹ng mét ®å thÞ nh minh häa trªn h×nh 5.7. Khi ®ã mét liªn kÕt gi÷a 2
phÇn tö d÷ liÖu lµ mét ®êng ®i cã chiÒu dµi lµ 2 (trong ®å thÞ) tõ ®Ønh m« t¶
phÇn tö nµy sang ®Ønh m« t¶ phÇn tö kia. VÝ dô trong h×nh 5.7 sè lîng liªn kÕt
gi÷a 2 ®Ønh A vµ B lµ 2.
Mét vÝ dô vÒ c¸c giá mua hµng (market basket) trong siªu thÞ ®Ó minh häa
hiÖu n¨ng cña gi¶i thuËt ROCK so víi gi¶i thuËt ph©n côm dùa trªn ®é t¬ng tù
trªn d÷ liÖu rêi r¹c ta t×m hiÓu mét bµi to¸n cô thÓ sau. Gi¶ sö mét siªu thÞ cã c¸c
mÆt hµng a, b, c, …, g. C¸c giao dÞch ®· ®îc ph©n thµnh 2 côm cã chÊt lîng
cao lµ C1 vµ C2, trong ®ã côm C1 chøa c¸c giao dÞch {a, b, c}, {a, b, d}, {a, b, e},
{a, c, d}, {a, c, e}, {a, d, e}, {b, c, d}, {b, c, e}, {b, d, e}, vµ {c, d, e}. Nh vËy
côm C1 cã chøa c¸c mÆt hµng a, b, c, d, e. Côm C2 chøa c¸c giao dÞch {a, b, f},
{a, b, g}, {a, f, g}, vµ {b, f, g}. Nh vËy côm C2 chøa c¸c mÆt hµng a, b, f, g.
§Ó ®o ®é t¬ng tù gi÷a c¸c phÇn tö d÷ liÖu ®îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi
r¹c ta cã thÓ sö dông hÖ sè Jaccard (Jaccard efficient) ®îc tÝnh b»ng c«ng thøc
sau:
ji
ji
jiTT
TTTTsim
||),( (5.17)
Ban ®Çu ta gi¶ sö chØ sö dông ®é ®o t¬ng tù ®Ó ph©n côm, khi ®ã hÖ sè
Jaccard gi÷a hai giao dÞch {a, b, c} vµ {b, d, e} n»m trong côm C1 lµ:
5
1
|},,,,{|
|}{|
|},,{},,{|
|},,{},,{|
edcba
b
edbcba
edbcba
205 206
NÕu ta tÝnh cho tõng cÆp giao dÞch trong C1 th× sÏ thÊy hÖ sè Jaccard cña
chóng sÏ n»m trong kho¶ng tõ 1/5 ®Õn 1/2 (vÝ dô trêng hîp hÖ sè Jaccard=1/2
lµ cÆp giao dÞch {a, b, c} vµ {a, b, d}). §Æc biÖt lµ nÕu so s¸nh c¸c cÆp giao dÞch
gi÷a côm C1 vµ C2 th× còng cã trêng hîp ta thu ®îc hÖ sè Jaccard lµ 1/2, ch¼ng
h¹n nh giao dÞch {a, b, c} cña côm C1 víi giao dÞch {a, b, f} hay {a, b, g} cña
côm C2. §iÒu nµy chøng tá r»ng nÕu sö dông ®é ®o t¬ng tù th× kh«ng thÓ t¹o ra
®îc 2 côm C1 vµ C2 nh trªn.
B©y giê nÕu ta sö dông kh¸i niÖm liªn kÕt vµ kh¸i niÖm phÇn tö l¸ng giÒng
trong gi¶i thuËt ROCK. Hai phÇn tö d÷ liÖu pi vµ pj lµ l¸ng giÒng cña nhau nÕu
tháa m·n ®iÒu kiÖn sim( pi , pj ) > . Trong trêng hîp nµy gi¶ sö ngìng lµ
0.5, xÐt hai giao dÞch {a, b, f} vµ {a, b, g}trong côm C2, ta dÔ dµng nhËn ra ®îc
giao dÞch {a, b, f} cã tËp c¸c l¸ng giÒng lµ:
{ {a, b, c}, {a, b, d}, {a, b, e}, {a, b, g}, {a, f, g}, {b, f, g}}
Giao dÞch {a, b, g} cã c¸c l¸ng giÒng lµ:
{ {a, b, c}, {a, b, d}, {a, b, e}, {a, b, f}, {a, f, g}, {b, f, g}}
Do ®ã, cÆp hai giao dÞch {a, b, f} vµ {a, b, g} cã chung c¸c l¸ng giÒng:
{ {a, b, c}, {a, b, d}, {a, b, e}, {a, f, g}, {b, f, g}}
Hay sè lîng liªn kÕt gi÷a 2 giao dÞch nµy lµ 5, nh vËy ta cã thÓ kÕt luËn
lµ 2 giao dÞch nµy thuéc vÒ cïng mét côm. T¬ng tù cho c¸c giao dÞch cßn l¹i
trong C2 ta còng dÔ dµng nhËn ra chóng ®Òu cã chung c¸c l¸ng giÒng. NÕu so
s¸nh c¸c cÆp giao dÞch gi÷a 2 côm C1 vµ C2 th× ta sÏ thÊy sè lîng c¸c liªn kÕt
gi÷a chóng lµ nhá. VÝ dô xÐt cÆp giao dÞch {a, b, f} trong côm C2 vµ {a, b, c}
trong côm C1. Giao dÞch {a, b, c} cã c¸c l¸ng giÒng { {a, b, d}, {a, b, e}, {a, b,
f}, {a, b, g} }. CÆp giao dÞch nµy cã c¸c l¸ng giÒng chung lµ: { {a, b, d}, {a, b,
e}, {a, b, g}}, hay sè lîng liªn kÕt gi÷a cÆp giao dÞch nµy lµ 3 nhá h¬n sè lîng
liªn kÕt gi÷a cÆp giao dÞch {a, b, f} vµ {a, b, g} do ®ã nã kh«ng ®îc ph©n vµo
trong cïm mét côm víi {a, b, f}.
T¬ng tù giao dÞch {a, f, g} trong côm C2 ®Òu cã 2 liªn kÕt víi c¸c phÇn tö
trong C2 nhng nã l¹i kh«ng cã liªn kÕt nµo víi c¸c giao dÞch trong C1. Hay viÖc
ph©n giao dÞch nµy vµo côm C2 lµ hoµn toµn hîp lý.
Dùa trªn kh¸i niÖm liªn kÕt, víi mét ngìng (dïng ®Ó x¸c ®Þnh c¸c phÇn
tö l¸ng giÒng), ta ®Þnh nghÜa hµm link(p, p’) lµ sè lîng liªn kÕt gi÷a 2 phÇn tö
d÷ liÖu p vµ p’. T¬ng tù gièng c¸c gi¶i thuËt ph©n côm ®· ®îc giíi thiÖu ë
trªn, ta cÇn cã mét hµm ®Ó ®¸nh gi¸ chÊt lîng cña c¸c côm kÕt qu¶. Môc tiªu
cña gi¶i thuËt ROCK lµ ph©n d÷ liÖu vµo c¸c côm sao cho sè lîng liªn kÕt gi÷a
c¸c phÇn tö trong cïng mét côm lµ cao, vµ sè lîng liªn kÕt gi÷a c¸c phÇn tö
n»m trong c¸c côm kh¸c nhau lµ nhá, do ®ã mét trong nh÷ng hµm ®iÒu kiÖn cã
thÓ dïng lµ:
k
i Cppl
i
pplinkE1 ',
)',( (5.18)
trong ®ã k lµ sè lîng côm; Ci lµ côm thø i; Tuy nhiªn hµm ®iÒu kiÖn trªn
chØ cã ®¶m b¶o c¸c phÇn tö d÷ liÖu cã sè lîng liªn kÕt lín sÏ ®îc ghÐp vµo
mét côm, chø kh«ng cã kh¶ n¨ng ng¨n chÆn viÖc ph©n toµn bé c¸c phÇn tö d÷
liÖu vµo cïng mét côm. Do ®ã hµm ®iÒu kiÖn kh¸c ®· ®îc ®Ò xuÊt nh sau:
k
i Cppf
i
il
in
pplinknE
1 ',)(21
)',(*
(5.19)
trong ®ã ni lµ kÝch thíc cña côm Ci (sè lîng phÈn tö d÷ liÖu trong Ci); vµ f()
lµ hµm phô thuéc vµo miÒn d÷ liÖu vµ kiÓu côm ta muèn quan t©m. Víi c«ng
thøc 5.19 ta cã thÓ dÔ dµng nhËn ra khi kÝch thíc cña côm Ci t¨ng lªn th× mÉu
sè trong c«ng thøc trªn sÏ t¨ng nhanh, do ®ã nã dÉn ®Õn
iCppf
i
ln
pplinkE
',)(21
)',(
sÏ cã gi¸ trÞ nhá. Hay nãi c¸ch kh¸c c«ng thøc 5.19 sÏ
ng¨n ®îc viÖc gi¶i thuËt cã thÓ g¸n qu¸ nhiÒu phÇn tö d÷ liÖu vµo mét côm.
Trong thùc tÕ viÖc x¸c ®Þnh hµm f() lµ c«ng viÖc khã kh¨n, trong miÒn d÷ liÖu
giao dÞch c¸c giá mua hµng th× ngêi ta t×m ®îc
1
1)(f .
Ho¹t ®éng cña gi¶i thuËt ROCK ®îc m« t¶ s¬ lîc nh sau:
207 208
1. X©y dùng ®å thÞ biÓu diÔn c¸c phÇn tö d÷ liÖu dùa trªn kh¸i niÖm l¸ng
giÒng (víi mét ®é ®o t¬ng tù vµ ngìng cho tríc).
2. ¸p dông gi¶i thuËt ph©n côm ph©n cÊp gép HAC (agglomerative
hierarchical clustering) trªn ®å thÞ ®îc x©y dùng trong bíc 1.
Trong gi¶i thuËt HAC th× nã cÇn x¸c ®Þnh ®îc 2 côm cã ®é t¬ng tù nhau
lín nhÊt ®Ó gép l¹i víi nhau vµ tÊt nhiªn chóng ta kh«ng thÓ sö dông ®é t¬ng tù
gi÷a 2 côm dùa trªn kho¶ng c¸ch ®îc. Trong gi¶i thuËt ROCK hµm ®o ®é
t¬ng tù gi÷a 2 côm cÇn ph¶i lµm cùc ®¹i hãa hµm ®iÒu kiÖn (c«ng thøc 5.19),
do ®ã c«ng thøc tÝnh ®é t¬ng tù còng ®îc x©y dùng gièng nh hµm ®iÒu kiÖn
nh sau:
)(21)(21)(21)(
),(),(
f
j
f
if
ji
ji
jinnnn
CClinkCCg
(5.20)
trong ®ã ni vµ nj lµ kÝch thíc cña côm Ci vµ Cj; vµ hµm ),( ji CClink ®o
sè lîng liªn kÕt gi÷a 2 côm Ci vµ Cj vµ nã ®îc ®Þnh nghÜa nh sau:
ji CpCpji pplinkCClink',
)',(),( (5.21)
Mét c¸ch trùc quan ta cã thÓ thÊy r»ng nÕu sè lîng liªn kÕt gi÷a 2 côm lµ
lín th× chóng ta nªn gép chóng l¹i víi nhau.
Thùc nghiÖm trªn mét sè tËp d÷ liÖu giao dÞch giá hµng trong thùc tÕ ®·
chøng minh gi¶i thuËt ROCK cho kÕt qu¶ lµ c¸c côm cã ý nghÜa h¬n nhiÒu so
víi c¸c gi¶i thuËt ph©n côm truyÒn thèng (dùa trªn ®é ®o kho¶ng c¸ch).
5.5. ThuËt to¸n ph©n côm dùa trªn mËt ®é
Nh¾c l¹i r»ng c¸c gi¶i thuËt ph©n côm dùa trªn ®é ®o kho¶ng c¸ch hay ®é
t¬ng tù chØ phï hîp ®èi víi c¸c miÒn d÷ liÖu trong ®ã c¸c côm ®îc ph©n bè
theo h×nh cÇu. §Ó xö lý trêng hîp d÷ liÖu kh«ng ph©n bè theo h×nh cÇu (mµ cã
thÓ ë h×nh d¹ng bÊt kú), líp gi¶i thuËt ph©n côm dùa trªn mËt ®é ®· ®îc ®Ò
xuÊt. Mét sè gi¶i thuËt thuéc líp gi¶i thuËt ph©n côm dùa trªn mËt ®é lµ
DBSCAN, OPTICS vµ DENCLUE. Môc nµy sÏ tr×nh bµy gi¶i thuËt DBSCAN –
mét gi¶i thuËt ®Æc trng thuéc líp gi¶i thuËt ph©n côm dùa trªn mËt ®é.
Tªn DBSCAN ®îc viÕt t¾t tõ Density-Based Spatial Clustering of
Application with Noise. Nã cã thÓ ph¸t hiÖn c¸c côm ë h×nh d¹ng bÊt kú vµ thËm
chÝ c¶ trong trêng hîp d÷ liÖu cã chøa nhiÒu nhiÔu. Gi¶i thuËt sÏ më réng c¸c
miÒn (côm) nÕu thÊy mËt ®é cña nã lµ cao. Nã ®Þnh nghÜa mét côm lµ mét tËp
c¸c miÒn (phÇn tö d÷ liÖu) liªn th«ng cã mËt ®é cao nhÊt (density-connected).
Cã mét sè ®Þnh nghÜa liªn quan ®Õn gi¶i thuËt nµy nh sau.
Cho tËp c¸c ®èi tîng D gåm n ®èi tîng (phÇn tö d÷ liÖu):
Vïng l©n cËn trong vßng b¸n kÝnh # víi t©m lµ ®èi tîng (phÇn tö d÷
liÖu) ®ang xÐt ®îc ký hiÖu lµ #-neighborhood.
NÕu #-neighborhood cña mét ®èi tîng (phÇn tö d÷ liÖu) cã sè phÇn tö
lín h¬n hoÆc b»ng mét gi¸ trÞ ngìng MinPts th× nã ®îc gäi lµ mét ®èi
tîng lâi (core object).
Ta nãi ®èi tîng p víi ®îc trùc tiÕp theo mËt ®é (directly density-
reachable) tõ ®èi tîng q nÕu p ë trong miÒn #-neighborhood cña q vµ q
lµ mét ®èi tîng lâi.
§èi tîng p ®îc gäi lµ víi ®îc theo mËt ®é (density-reachable) tõ ®èi
tîng q (t¬ng øng víi # vµ MinPts) nÕu tån t¹i mét d·y c¸c ®èi tîng
p1, …, pn trong ®ã p1=q, pn=p sao cho pi+1 lµ víi ®îc trùc tiÕp dùa trªn
mËt ®é tõ pi (víi gi¸ trÞ cña i: 1# i # n).
§èi tîng p ®îc gäi lµ liªn th«ng mËt ®é (density-connected) víi ®èi
tîng q (t¬ng øng víi # vµ MinPts) nÕu tån t¹i mét ®èi tîng o sao cho
c¶ p vµ q ®Òu víi ®îc dùa trªn mËt ®é tõ o (t¬ng øng víi # vµ
MinPts).
Mét côm dùa trªn mËt ®é (density-based cluster) lµ mét tËp hîp lín
nhÊt c¸c ®èi tîng liªn th«ng theo mËt ®é.
Chó ý lµ quan hÖ víi ®îc theo mËt ®é lµ bÊt ®èi xøng (ngo¹i trõ c¸c
®èi tîng lâi), tuy nhiªn quan hÖ liªn th«ng mËt ®é l¹i lµ quan hÖ ®èi xøng.
209 210
Minh häa cho c¸c quan hÖ ®îc ®Þnh nghÜa ë trªn ®îc thÓ hiÖn qua h×nh
5.7. Víi gi¸ trÞ # ®îc thÓ hiÖn lµ b¸n kÝnh cña c¸c h×nh trßn, vµ MinPts=3 th×:
C¸c ®èi tîng cã nh·n lµ m, o, p vµ r ®îc gäi lµ c¸c ®èi tîng lâi bëi v×
chóng ®Óu chøa Ýt nhÊt 3 ®èi tîng trong h×nh trßn b¸n kÝnh # cña nã.
§èi tîng q cã thÓ víi ®îc trùc tiÕp theo mËt ®é tõ m, m cã thÓ víi
®îc trùc tiÕp theo mËt ®é tõ p (vµ p cã thÓ víi ®îc trùc tiÕp theo mËt
®é tõ m, v× m vµ p ®Òu lµ ®èi tîng lâi).
§èi tîng q cã thÓ víi ®îc (gi¸n tiÕp) theo mËt ®é tõ p, v× tån t¹i d·y p, m,
q tháa m·n ®iÒu kiÖn víi ®îc theo mËt ®é. Tuy nhiªn cã thÓ dÔ dµng nhËn
ra lµ p kh«ng víi ®îc theo mËt ®é tõ q (tÝnh bÊt ®èi xøng cña quan hÖ).
o, r vµ s lµ liªn th«ng mËt ®é v× tån t¹i ®èi tîng o ®· tháa m·n ®iÒu kiÖn
liªn th«ng mËt ®é.
H×nh 5.7 Minh häa c¸c quan hÖ trong DBSCAN
Gi¶i thuËt DBSCAN sÏ t×m c¸c côm b»ng c¸ch kiÓm tra #-neighborhood
cña tõng ®èi tîng trong tËp d÷ liÖu ®Çu vµo D. NÕu #-neighborhood cña ®èi
tîng p chøa sè ®èi tîng tháa m·n ngìng MinPts th× mét côm míi chøa ®èi
tîng lâi p ®îc t¹o ra. DBSCAN tiÕp tôc më réng côm b»ng c¸ch t×m c¸c ®èi
tîng víi ®îc trùc tiÕp theo mËt ®é tõ c¸c ®èi tîng lâi trong côm. Qu¸ tr×nh
më réng nµy cã thÓ dÉn ®Õn trêng hîp ta ghÐp 2 hay nhiÒu côm l¹i víi nhau.
ThuËt to¸n dõng khi kh«ng cã ®èi tîng nµo ®îc thªm vµo c¸c côm.
NÕu cã sö dông c¬ chÕ ®¸nh chØ môc th× ®é phøc t¹p cña DBSCAN lµ O(n
log n), ngîc l¹i th× ®é phøc t¹p cña nã lµ O(n2).
5.6. Gi¶i thuËt ph©n côm dùa trªn m« h×nh
Ph¬ng ph¸p lµm viÖ cña c¸c gi¶i thuËt thuéc líp nµy lµ cè g¾ng lµm tèi u
sù phï hîp gi÷a tËp d÷ liÖu ®Çu vµo víi mét m« h×nh to¸n häc. Mét sè gi¶i thuËt
®iÓn h×nh thuéc líp nµy lµ cùc ®¹i kú väng (Expectation Maximization - EM),
ph©n côm kh¸i niÖm (Conceptual clustering) vµ ph¬ng ph¸p ph©n côm dùa trªn
m« h×nh häc m¸y m¹ng neural. Trong môc nµy chØ xin tr×nh bµy gi¶i thuËt cùc
®¹i kú väng.
Trong thùc tÕ, mçi côm cã thÓ ®îc biÓu diÔn b»ng mét ph©n bè x¸c suÊt,
nÕu ta cã k côm th× sÏ cã k ph©n bè x¸c suÊt ®îc gäi lµ ph©n bè thµnh phÇn
(component distribution), vµ toµn bé tËp d÷ liÖu sÏ lµ sù trén h÷u h¹n (finite
mixture) cña c¸c ph©n bè nµy (tõ h÷u h¹n ë ®©y thÓ hiÖn sè lîng c¸c ph©n bè
thµnh phÇn lµ h÷u h¹n). Do ®ã ta cã thÓ ph©n côm toµn bé tËp d÷ liÖu ®Çu vµo
b»ng c¸ch sö dông m« h×nh mËt ®é trén (mixture density model) cña k ph©n bè
x¸c suÊt, trong ®ã mét ph©n bè biÓu diÔn mét côm. Nh vËy, nhiÖm vô cña gi¶i
thuËt ph©n côm lµ ®i t×m (íc lîng) c¸c tham sè cña c¸c ph©n bè x¸c suÊt sao
cho phï hîp víi tËp d÷ liÖu ®Çu vµo nhÊt.
Cho mét tËp D gåm n phÇn tö d÷ liÖu {x1, x2,…, xn}, vµ ®îc chia thµnh k
côm. §Ó ®¬n gi¶n, ta xÐt trêng hîp mçi phÇn tö d÷ liÖu ®îc biÓu diÔn b»ng 1
sè thùc. Gäi mC, ãC vµ P(C) t¬ng øng lµ gi¸ trÞ trung b×nh, ®é lÖch chuÈn vµ x¸c
suÊt lÊy mÉu cña côm C, c¸c gi¸ trÞ trªn ®îc tÝnh nh sau:
Cp
C pC
m||
1,
Cx
CC mxC
2)(||
1 vµ
||
||)(
D
CCP (5.22)
Khi ®ã bé ba mC, ãC, P(C) ®îc gäi lµ m« h×nh sinh cña côm C (theo ph©n
bè chuÈn Gauss). H×nh 5.8 minh häa trêng hîp ta cã 2 côm, khi ®ã gi¸ trÞ mC
211 212
vµ ãC t¬ng øng sÏ lµ t©m vµ b¸n kÝnh cña ®êng trßn biÓu diÔn ®é lÖch chuÈn
cña côm.
Gi¶ sö chóng ta cã tËp d÷ liÖu ®îc chia thµnh 2 côm A vµ B. Côm A gåm
c¸c phÇn tö d÷ liÖu {0, 0, 0, 0, 0, 0, 0.49, 0, 0, 0.387, 0.57}. Côm B gåm c¸c
phÇn tö d÷ liÖu {0.961, 0.780, 0, 0.980, 0.135, 0.928, 0, 0.658, 0}. Khi ®ã bé ba
mC, ãC, P(C) ®îc tÝnh nh sau:
mA=(0 + 0 + 0 + 0 + 0 + 0 + 0.49 + 0 + 0 + 0.387 + 0.57)/11=0.132
ãA =0.229 vµ P(A)=11/20=0.55
mB=(0.961 + 0.780 + 0 + 0.980 + 0.135 + 0.928 + 0 + 0.658 + 0)/9=0.494
ãB =0.449 vµ P(B)=9/20=0.45
H×nh 5.8 BiÓu diÔn mét côm theo träng t©m vµ ®é lÖch chuÈn
Sau khi ®· cã bé ba mC, ãC, P(C) cho tõng côm, ta cã thÓ x¸c ®Þnh x¸c
suÊt mµ mét phÇn tö d÷ liÖu thuéc vµo côm C lµ bao nhiªu. Trêng hîp nÕu phÇn
tö d÷ liÖu ®îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi r¹c (chØ gåm c¸c gi¸ trÞ 0 vµ 1) th×
x¸c suÊt cña mét phÇn tö d÷ liÖu x thuéc vµo côm C ®îc tÝnh b»ng c«ng thøc
Bayes:
)(
)|()()|(
xP
CxPCPxCP (5.23)
vµ P(x|C) ®îc tÝnh b»ng sè lÇn xuÊt hiÖn cña x trong côm C chia cho tæng
sè phÇn tö d÷ liÖu trong côm C. Trong trêng hîp ta ®ang xÐt, d÷ liÖu ®îc biÓu
diÔn b»ng sè thùc, khi ®ã x¸c suÊt P(x|C) ®îc tÝnh b»ng c«ng thøc
)(
)()()|(
xP
CPxfxCP C (5.24)
trong ®ã )2/()( 2
2
1)( CCmx
C
C exf
(5.25)
Do P(x) xuÊt hiÖn trong tÊt c¶ c¸c c«ng thøc tÝnh x¸c suÊt cña x thuéc vµo
c¸c côm kh¸c nhau nªn ta cã thÓ bá qua kh«ng cÇn tÝnh. Nhng khi ®ã c¸c gi¸
trÞ tÝnh to¸n ®îc P(C| x) cã thÓ kh«ng tháa m·n ®iÒu kiÖn 1)|( C
xCP , do
®ã ta cã thÓ cÇn ph¶i chuÈn hãa l¹i.
VÝ dô trong trêng hîp tËp d÷ liÖu ë trªn, nÕu ta muèn xem x¸c suÊt cña
mét phÇn tö d÷ liÖu cã gi¸ trÞ 0.78 thuéc vµo tõng côm lµ bao nhiªu, ta cã:
P(A|0.78) # fA(0.78)P(A) # (0.032) (0.55)# 0.018
P(B|0.78) # fB(0.78)P(B) # (0.725) (0.45) # 0.326
Thùc hiÖn chuÈn hãa ta cã:
P(A|0.78)=0.018/(0.018+0.326)=0.05;
P(B|0.78)=0.326/(0.018+0.326)=0.95
Khi sö dông c«ng thøc trªn th× ta cÇn ph¶i chó ý lµ nÕu cã trêng hîp cã
mét thuéc tÝnh nµo ®ã cã gi¸ trÞ ®é lÖch chuÈn ã lµ 0 th× ta kh«ng thÓ tÝnh ®îc
gi¸ trÞ fC(x). §Ó xö lý trêng hîp nµy ta cã thÓ lÊy mét x¸c suÊt ngÇm ®Þnh nµo
®ã, ch¼ng h¹n lµ 0.05 ®Ó thay vµo c¸c x¸c suÊt P(x|C).
Trong trêng hîp tæng qu¸t th× mét phÇn tö d÷ liÖu cã thÓ ®îc biÓu diÔn
b»ng nhiÒu thuéc tÝnh (nhiÒu chiÒu). Gi¶ sö mçi mét phÇn tö d÷ liÖu x ®îc biÓu
diÔn b»ng mét vector d chiÒu (x1, x2, …, xd), khi ®ã víi gi¶ thiÕt lµ c¸c thuéc
tÝnh lµ ®éc lËp nhau th× ta cã thÓ sö dông c«ng thøc sau:
213 214
)()|()|),...,,(()|(11
21 ii
C
d
ii
d
id xfCxPCxxxPCxP
(5.26)
Gi¶i thuËt cùc ®¹i kú väng lµ mét trong nh÷ng gi¶i thuËt lÆp ®Ó íc lîng
c¸c tham sè cho m« h×nh. Nã còng cã thÓ coi lµ gi¶i thuËt më réng cña k-means.
Gi¶i thuËt k-means g¸n c¸c phÇn tö d÷ liÖu vµo c¸c côm cã ®é t¬ng ®ång víi nã
lµ lín nhÊt, th× gi¶i thuËt cùc ®¹i kú väng g¸n x¸c suÊt thuéc vµo c¸c côm cho
c¸c phÇn tö d÷ liÖu. Nãi mét c¸ch kh¸c, gi¶i thuËt cùc ®¹i kú väng thuéc lo¹i
thuËt to¸n ph©n côm x¸c suÊt. Víi lo¹i gi¶i thuËt ph©n côm nµy th× kh«ng cã
ranh ríi râ rµng gi÷a c¸c côm. Cho mét D chøa n phÇn tö d÷ liÖu {x1, x2, …, xn},
tham sè ®Çu vµo k lµ sè côm cÇn t¹o, thuËt to¸n cùc ®¹i kú väng ho¹t ®éng nh
sau:
Bíc khëi t¹o: ph©n ngÉu nhiªn c¸c phÇn tö d÷ liÖu vµo k côm, môc ®Ých
cña thao t¸c nµy lµ dïng ®Ó x©y dùng bé ba tham sè mC, ãC, P(C) ban ®Çu cho
k côm. C¸c tham sè nµy sÏ ®îc lµm mÞn th«ng qua viÖc lÆp 2 bíc sau:
Bíc kú väng: víi tõng phÇn tö xi (1# i # n) tÝnh gi¸ trÞ )P (C | xw iCi = lµ
x¸c suÊt xi thuéc vµo côm C. ChuÈn hãa gi¸ trÞ Ciw trªn toµn bé k côm ®Ó ®¶m
b¶o 11
k
C
Ciw . Gi¸ trÞ
Ciw thu ®îc t¹i thêi ®iÓm nµy chÝnh lµ gi¸ trÞ kú
väng phÇn tö xi thuéc vµo côm C.
Bíc cùc ®¹i: TÝnh to¸n (íc lîng) l¹i gi¸ trÞ cña c¸c tham sè, cô thÓ lµ
gi¸ trÞ trung b×nh mC, ®é lÖch chuÈn ãC vµ x¸c suÊt lÊy mÉu P(C) b»ng c«ng thøc
míi nh sau (chø kh«ng tÝnh nh c«ng thøc 5.22):
n
i
Ci
n
i iCi
Cw
xwm
1
1 ,
n
i
Ci
n
i CiCi
Cw
mxw
1
1
2
2)(
vµ
n
i
CiwCP
1
)( (5.27)
Lý do ta kh«ng thÓ tÝnh ®îc P(C) dùa vµo sè phÇn tö thuéc vµo líp C (nh
c«ng thøc 5.8) lµ v× gi¶i thuËt sÏ g¸n mét x¸c suÊt phô thuéc vµo 1 côm cho tõng
phÇn tö d÷ liÖu, nªn kh«ng cã ranh ríi râ rµng gi÷a c¸c côm. Sau khi tÝnh to¸n
xong c¸c x¸c suÊt lÊy mÉu P(C), ta cÇn chuÈn hãa l¹i ®Ó ®¶m b¶o C
CP 1)(
§©y chÝnh lµ bíc cùc ®¹i gi¸ trÞ likelihood cña ph©n bè x¸c suÊt trªn tËp d÷ liÖu
®· cho. Gi¸ trÞ likelihood L cña ph©n bè x¸c suÊt ®îc tÝnh nh sau:
n
i Ci CPCxPL
1
)()|(log (5.28)
Chó ý lµ trong c¸c c«ng thøc ë trªn ®îc thùc hiÖn trªn toµn bé n phÇn tö
trong tËp d÷ liÖu ®Çu vµo (chø kh«ng ph¶i lµ trªn tËp c¸c phÇn tö thuéc vµo côm
®ang xem xÐt C).
Hai bíc trªn ®îc lÆp ®i lÆp l¹i cho ®Õn khi gi¶i thuËt héi tô hay nã ®¹t
®Õn vÞ trÝ tèi u toµn côc. Trong thùc tÕ th× gi¶i thuËt héi tô nhanh nhng cã thÓ
kh«ng ®¹t ®Õn vÞ trÝ tèi u toµn côc. Gi¸ trÞ likelihood L lu«n t¨ng sau mçi vßng
lÆp nªn cã mét c¸ch kh¸c ®Ó dõng thuËt to¸n lµ so s¸nh gi¸ trÞ likelihood trong 2
vßng lÆp gÇn nhau Lt vµ Lt+1, nÕu Lt+1 - Lt < # (# lµ mét ngìng nµo ®ã cã gi¸ trÞ
rÊt nhá) th× ta cã thÓ dõng thuËt to¸n.
Còng gièng gi¶i thuËt k-means, mét phÇn tö d÷ liÖu cã thÕ g¸n ®i g¸n l¹i
vµo c¸c côm kh¸c nhau trong qu¸ tr×nh gi¶i thuËt ho¹t ®éng. Mét ®Æc ®iÓm n÷a
còng gièng gi¶i thuËt k-means lµ c¸c côm ®îc t¹o ngÉu nhiªn gièng víi viÖc
chän ngÉu nhiªn k phÇn tö lµm träng t©m cña côm (trong gi¶i thuËt k-means).
Do vËy mét trong nh÷ng c¸ch ®Ó t×m gi¸ trÞ tèi u toµn côc lµ ch¹y gi¶i thuËt cùc
®¹i kú väng nhiÒu lÇn ®Ó t×m ra lÇn ch¹y cã gi¸ trÞ likelihood lín nhÊt.
NÕu chóng ta ®Ó ý, th× trong gi¶i thuËt cùc ®¹i kú väng ë trªn ®îc x©y
dùng trªn c¬ së kÕt hîp víi bé ph©n líp Naive Bayes (sÏ ®îc tr×nh bµy chi tiÕt
trong ch¬ng 6).
5.7. NhËn xÐt s¬ bé c¸c thuËt to¸n ph©n côm
Nh ®· ®îc giíi thiÖu, thuËt to¸n HAC thêng chËm khi ¸p dông cho c¸c
tËp phÇn tö d÷ liÖu lín. C¸c thuËt to¸n kh¸c theo híng nµy nh Single-link vµ
Group-average cã thêi gian thùc hiÖn lµ O(n2), ®ång thêi thêi gian kÕt nèi hoµn
toµn (complete-link) lµ O(n3) [Christopher08]. C¸c thuËt to¸n theo híng nµy lµ
215 216
qu¸ chËm so víi yªu cÇu cña bµi to¸n ph©n côm Web. Mét ®iÓm ®¸ng chó ý n÷a
®èi víi c¸c thuËt to¸n HAC lµ ®iÒu kiÖn dõng. §· cã rÊt nhiÒu ®Ò xuÊt vÒ ®iÒu
kiÖn dõng ®îc ®a ra nhng chñ yÕu lµ dùa trªn viÖc ®iÒu kiÖn dõng ®· ®îc
x¸c ®Þnh tríc (ch¼ng h¹n, dõng khi chØ cßn 5 côm). §iÒu kiÖn dõng ®èi víi c¸c
thuËt to¸n nµy (HAC) lµ cùc kú quan träng. NÕu nh thuËt to¸n ghÐp c¸c côm
“tèt” víi nhau cã thÓ t¹o ra kÕt qu¶ kh«ng theo mong muèn cña ngêi dïng.
Trªn Web, víi kÕt qu¶ tr¶ vÒ theo truy vÊn lµ v« cïng ®a d¹ng (vÒ sè lîng, ®é
lín, kiÓu vµ sù phï hîp cña c¸c phÇn tö d÷ liÖu) th× ®iÒu kiÖn dõng kh«ng tèt sÏ
lµm cho kÕt qu¶ trë nªn nghÌo nµn.
ThuËt to¸n k-means thuéc vµo líp c¸c thuËt to¸n ph©n côm thêi gian tuyÕn
tÝnh vµ lµ nh÷ng lùa chän tèt nhÊt ®Ó ®¸p øng yªu cÇu vÒ tèc ®é cña bµi to¸n
ph©n côm on-line. Thêi gian thùc hiÖn cña c¸c thuËt to¸n nµy lµ O(nk) trong ®ã
k lµ sè c¸c côm mong muèn. Thªm mét u ®iÓm cña thuËt to¸n k-means so víi
HAC lµ viÖc ®¸p øng c¸c yªu cÇu cña bµi to¸n ph©n côm Web lµ nã cã thÓ t¹o ra
c¸c côm cã sù giao thoa. §iÓm yÕu chÝnh cña thuËt to¸n nµy lµ nã ch¹y hiÖu qu¶
nhÊt chØ khi c¸c côm mong muèn lµ c¸c miÒn h×nh cÇu ®èi víi ®é ®o t¬ng tù
®îc dïng. Kh«ng cã lý do g× ®Ó tin r»ng c¸c phÇn tö d÷ liÖu sÏ thuéc vµo c¸c
miÒn cÇu. V× vËy thuËt to¸n cã thÓ lµm mÊt ®i c¸c th«ng tin cã gi¸ trÞ.
Buckshot lµ thuËt to¸n kÕt hîp gi÷a HAC vµ k-means trong ®ã viÖc khëi
t¹o c¸c träng t©m côm cho k-means ®îc thùc hiÖn bëi thuËt to¸n HAC trªn mét
mÉu cña tËp phÇn tö d÷ liÖu [Cutting93].
C¸c thuËt to¸n nh HAC, k-means hay Buckshot ®Òu kh«ng ph¶i lµ c¸c
thuËt to¸n cã tÝnh gia t¨ng. Mét sè thuËt to¸n gia t¨ng ®· ®îc ph¸t triÓn nh
thuËt to¸n ph©n côm c©y hËu tè (Suffix Tree Clustering - STC) [Branson02], víi
thêi gian thùc hiÖn O(n) trong ®ã n lµ kÝch thíc cña tËp phÇn tö d÷ liÖu.
5.8. §¸nh gi¸ c¸c gi¶i thuËt ph©n côm
5.8.1 §¸nh gi¸ dùa trªn ®é t¬ng tù
NhiÖm vô cña c¸c gi¶i thuËt ph©n côm lµ nhãm c¸c phÇn tö d÷ liÖu t¬ng
tù nhau thµnh mét côm, do ®ã chÊt lîng cña gi¶i thuËt ph©n côm sÏ ®îc ®¸nh
gi¸ møc ®é gièng nhau gi÷a c¸c phÇn tö trong cïng mét côm. Mét gi¶i thuËt
ph©n côm tèt sÏ cho kÕt qu¶ lµ ®é t¬ng tù néi t¹i trong mét côm lµ cao vµ ®é
t¬ng tù gi÷a c¸c côm lµ thÊp. VËy ta cã thÓ dïng bÊt kú hµm ®o ®é t¬ng tù cña
c¸c phÇn tö d÷ liÖu trong cïng mét côm ®Ó ®¸nh gi¸ chÊt lîng cña gi¶i thuËt
ph©n côm. Ta cã thÓ sö dông hµm J (trong c«ng thøc 5.9) hµm ®· ®îc tÝch hîp
vµo trong mét sè gi¶i thuËt ph©n côm ®Ó ®¸nh gi¸ chÊt lîng kÕt qu¶ ph©n côm
cña gi¶i thuËt. Mét c«ng thøc kh¸c ta cã thÓ dïng ®Ó tÝnh ®é t¬ng tù néi t¹i cña
mét côm lµ dùa vµo ®é t¬ng tù cña tõng cÆp d÷ liÖu trong côm:
),(1
2
1
,
C Cpp
ji
ji
ppsimC
J (5.29)
BiÕn ®æi t¬ng ®¬ng c«ng thøc trªn cã thÓ ®îc viÕt l¹i thµnh:
CC Cpp
ji CsimCppsimC
Jji
)(2
1),(
1
2
1
, (5.30)
Trong ®ã sim(C) lµ ®é t¬ng tù trung b×nh gi÷a c¸c cÆp phÇn tö d÷ liÖu
trong côm C. Víi c«ng thøc nµy, gi¸ trÞ cña J cµng lín th× cµng chøng tá gi¶i
thuËt ph©n côm cho chÊt lîng cµng tèt.
Mét c«ng thøc kh¸c cã thÓ dïng ®Ó ®¸nh gi¸ chÊt lîng ph©n côm lµ hµm
tæng b×nh ph¬ng lçi: ý tëng cña hµm ®¸nh gi¸ nµy lµ dùa trªn quan ®iÓm träng
t©m cña mçi côm sÏ biÓu diÔn tèt nhÊt côm ®ã, víi mçi phÇn tö d÷ liÖu p trong
côm ®ã cµng c¸ch xa träng t©m cña côm th× “lçi” cña phÇn tö d÷ liÖu ®ã cµng
cao. Gi¸ trÞ lçi cña phÇn tö d÷ liÖu p trong côm ®îc ®o b»ng chiÒu dµi cña
vector p – mC. Víi mçi côm C, chóng ta x¸c ®Þnh träng t©m mC cña côm ®ã.
Hµm ®¸nh gi¸ chÊt lîng ph©n côm nµy ®îc tÝnh b»ng:
217 218
C Cp
CmpE 2|| (5.31)
Trong ®ã mC lµ träng t©m cña côm ®îc tÝnh theo c«ng thøc 5.10. Víi ®é
®o ®¸nh gi¸ nµy thi gi¸ trÞ E cña mét gi¶i thuËt nµo ®ã cµng nhá th× chÊt lîng
ph©n côm cña nã cµng tèt. B»ng c¸ch biÕn ®æi sè häc, c«ng thøc 5.31 trªn cã thÓ
®îc viÕt l¹i thµnh tæng kho¶ng c¸ch tõng cÆp phÇn tö d÷ liÖu trong côm:
2
,
1
2
1
C Cpp
ji
ji
ppC
E (5.32)
5.8.2 §¸nh gi¸ dùa trªn d÷ liÖu g¸n nh·n
Ph¬ng ph¸p ®¸nh gi¸ dùa vµo ®é chÝnh x¸c vµ tØ lÖ lçi
Ph¬ng ph¸p ®¸nh gi¸ ë môc 5.8.1 hoµn toµn dùa vµo ®é t¬ng tù cña c¸c
phÇn tö d÷ liÖu trong cïng mét côm. Tuy nhiªn khi chóng ta ph©n thñ c«ng c¸c
phÇn tö d÷ liÖu vµo c¸c côm chóng ta cÇn thªm mét sè tri thøc kh¸c n÷a mµ
th«ng thêng c¸c tri thøc nµy kh«ng cã s½n hay hiÓn thÞ râ rµng trong néi dung
cña c¸c phÇn tö d÷ liÖu. Khi ta ®· biÕt tríc nh·n cña c¸c phÇn tö d÷ liÖu thuéc
vµo c¸c côm th× viÖc ®¸nh gi¸ thuËt to¸n ph©n côm chØ dùa vµo hµm ®iÒu kiÖn Js
nh trªn lµ kh«ng chÝnh x¸c. PhÇn nµy chóng ta sÏ t×m hiÓu thªm mét sè ph¬ng
ph¸p ®¸nh gi¸ c¸c gi¶i thuËt ph©n côm mét c¸ch chÝnh x¸c h¬n. Th«ng thêng
d÷ liÖu g¸n nh·n thêng ®îc dïng ®Ó ¸p dông cho c¸c gi¶i thuËt häc cã gi¸m
s¸t, tuy nhiªn ngay c¶ gi¶i thuËt häc kh«ng gi¸m s¸t nh c¸c gi¶i thuËt ph©n côm
th× d÷ liÖu g¸n nh·n còng h÷u Ých, cô thÓ ta cã thÓ dïng ®Ó ®¸nh gi¸ chÊt lîng
cña gi¶i thuËt ph©n côm b»ng c¸ch so s¸nh d÷ liÖu g¸n nh·n (d÷ liÖu ph©n côm
b»ng tay) víi kÕt qu¶ cña gi¶i thuËt ph©n côm. Chó ý r»ng trong trêng hîp nµy
tuy r»ng chóng ta ®· cã d÷ liÖu ®· ®îc g¸n nh·n (líp/côm) nhng c¸c nh·n cña
c¸c phÇn tö d÷ liÖu kh«ng ®îc dïng trong qu¸ tr×nh ph©n côm mµ chØ dïng ®Ó
®¸nh gi¸ chÊt lîng cña gi¶i thuËt ph©n líp. Cã mét sè ®é ®o ®é ®¸nh gi¸ ®îc
dïng trong ph¬ng ph¸p nµy: ®é chÝnh x¸c (precision), tØ lÖ lçi (error), ®é håi tëng (recall) vµ F-measure. Gi¶ sö d÷ liÖu ph©n líp b»ng tay gåm cã 2 líp (®Ó
ph©n biÖt víi côm) A vµ B, vµ gi¶i thuËt ph©n côm còng ph©n thµnh 2 côm. §èi
víi mçi líp vÝ dô líp A, nh÷ng phÇn tö d÷ liÖu thuéc vµo líp A ®îc gäi lµ c¸c
vÝ dô d¬ng (positive), nh÷ng phÇn tö d÷ liÖu kh«ng thuéc vµo líp A ®îc gäi lµ
c¸c vÝ dô ©m (negative). KÕt qu¶ ph©n côm cña mét gi¶i thuËt sÏ cã mét sè kh¶
n¨ng sau:
§óng d¬ng (true positive): phÇn tö d÷ liÖu lµ vÝ dô d¬ng vµ ®îc gi¶i
thuËt ph©n côm dù ®o¸n lµ vÝ dô d¬ng (ph©n côm ®óng), ký hiÖu lµ TP.
Sai d¬ng (false positive): phÇn tö d÷ liÖu lµ vÝ dô d¬ng nhng gi¶i
thuËt ph©n côm l¹i ®o¸n lµ vÝ dô ©m (ph©n côm sai), ký hiÖu lµ FP.
§óng ©m (true negative): phÇn tö d÷ liÖu lµ vÝ dô ©m vµ ®îc gi¶i thuËt
ph©n côm ®o¸n lµ vÝ dô ©m (ph©n côm ®óng), ký hiÖu lµ TN.
Sai ©m (false negative): phÇn tö d÷ liÖu lµ vÝ dô ©m vµ ®îc gi¶i thuËt
ph©n côm ®o¸n lµ vÝ dô d¬ng (ph©n côm sai), ký hiÖu lµ FN.
§Ó tÝnh to¸n ra ®îc c¸c ®é ®o ë trªn ta dùa vµo c¸c kh¶ n¨ng liÖt kª ë trªn.
§Ó dÔ tÝnh to¸n ta cã thÓ lËp ma trËn biÓu diÔn c¸c trêng hîp trªn, ma trËn nµy
®îc gäi lµ ma trËn lÉn lén (confusion matrix) nh b¶ng 5.3:
B¶ng 5.3 Ma trËn lÉn lén
Líp thùc tÕ
Líp ®îc dù ®o¸n bëi gi¶i thuËt ph©n côm
D¬ng ¢m
D¬ng TP FN
¢m FP TN
Víi trêng hîp chØ cã 2 líp nh nµy, tõ ma trËn lÉn lén nµy c¸c c«ng thøc
®é ®o sÏ ®îc tÝnh to¸n cô thÓ nh sau:
TØ lÖ lçi tæng thÓ: %100
Error
FNTNFPTP
FNFP (5.33)
219 220
§é chÝnh x¸c tæng thÓ:
%100
Accuracy
FN TN FPTP
TNTP (5.34)
§èi víi tõng líp th× ta cã thÓ sö dông thªm 2 ®é ®o ®¸nh gi¸ sau:
§é chÝnh x¸c: %100
P
FPTP
TP (5.35)
§é håi tëng: %100
R
FNTP
TP (5.36)
VÝ dô b¶ng 5.2 ®a ra kÕt qu¶ ph©n côm víi thuËt to¸n k-means víi k lµ 2,
so s¸nh víi tËp d÷ liÖu ®· ®îc g¸n nh·n. Víi kÕt qu¶ ph©n côm víi thuéc tÝnh
A3, ta cã c¸c gi¸ trÞ cña c¸c ®é ®o nh sau:
%15%1003908
30%100
Error
FNTNFPTP
FNFP
%75%1003908
98%100
Accuracy
FNTNFPTP
TNTP
Víi chØ riªng líp A ta cã c¸c gi¸ trÞ cña ®é chÝnh x¸c vµ ®é håi tëng nh
sau:
%100%10008
8%100
P
FPTP
TP
%73%10038
8%100
R
FNTP
TP
T¬ng tù ta còng cã thÓ tÝnh to¸n ®îc ®é chÝnh x¸c (precision) cña ph©n
côm víi thuéc tÝnh A6 cho líp A lµ 60% vµ ®é håi tëng lµ 82%.
So s¸nh kÕt qu¶ ®é chÝnh x¸c vµ ®é håi tëng cña ph©n côm víi 2 thuéc
tÝnh kh¸c nhau A3 vµ A6 nh trªn rÊt khã ®Ó cã thÓ kÕt luËn lµ kÕt qu¶ nµo tèt
h¬n v× c¸i cã ®é chÝnh x¸c cao h¬n th× l¹i cã ®é håi tëng thÊp h¬n vµ ngîc l¹i.
Do vËy mét ®é ®o kh¸c ®îc ®Ò xuÊt lµ F-measure (hay cßn cã tªn kh¸c lµ F-
score) ®· kÕt hîp 2 lo¹i ®é ®o nµy l¹i ®Ó gióp ®¸nh gi¸ chÝnh x¸c ®îc kÕt qu¶
nµo tèt h¬n. C«ng thøc cña ®é ®o nµy lµ:
B¶ng 5.4 KÕt qu¶ ph©n côm víi k-means chØ sö dông 1 thuéc tÝnh
Líp thùc tÕ
Thuéc tÝnh A3 Thuéc tÝnh A6
Líp ®îc dù ®o¸n bëi gi¶i thuËt ph©n côm
Líp ®îc dù ®o¸n bëi gi¶i thuËt ph©n côm
A B A B
A 8 3 9 2
B 0 9 6 3
RP
RP2measureF
(5.37)
Nh vËy kÕt qu¶ cña gi¶i thuËt ph©n côm víi thuéc tÝnh A3 cã F-
measure=86%, vµ ph©n côm víi thuéc tÝnh A6 cã F-measure=69%. Nh vËy cã
thÓ kÕt luËn lµ kÕt qu¶ cña ph©n côm víi thuéc tÝnh A3 tèt h¬n ph©n côm víi
thuéc tÝnh A6.
Ta còng cã thÓ më réng trêng hîp cã 2 líp sang trêng hîp cã nhiÒu h¬n
2 líp/côm. Gäi sè líp lµ m, sè côm lµ k, chó ý lµ m cã thÓ kh¸c k. Ma trËn lÉn
lén tæng qu¸t (cho m líp) sÏ cã d¹ng nh b¶ng 5.5. Vµ c«ng thøc dïng ®Ó tÝnh
to¸n c¸c ®é ®o cho cho c¸c « ( i, j )lµ:
§é chÝnh x¸c %n
njiP
m
i ij
ij100),(
1
(5.38)
221 222
§é håi tëng %n
njiP
k
j ij
ij100),(
1
(5.39)
§é ®o F-measure),(),(
),(),(2)(
jiRjiP
jiRjiPi,jF
(5.40)
§Ó thu ®îc kÕt qu¶ F-measure trªn toµn bé c¸c côm ta cã thÓ dïng c«ng
thøc:
),(max,...,1
1
jiFn
nF
kj
m
i
i
(5.41)
trong ®ã ni lµ tæng sè phÇn tö d÷ liÖu thuéc vµo líp i (hay tæng sè hµng
thø i trong ma trËn lÉn lén)
k
j iji nn1
, vµ n lµ tæng sè phÇn tö d÷
liÖu cã trong tËp d÷ liÖu
m
i
k
j ijnn1 1
. TØ lÖ n
ni trong c«ng thøc
trªn cho biÕt ®îc ®é “quan träng” cña líp thø i trong toµn bé tËp d÷
liÖu.
Gi¶ sö víi kÕt qu¶ ph©n côm víi thuéc tÝnh A6 ë b¶ng 5.4 ta cã thÓ tÝnh
to¸n c¸c ®é ®o ®¸nh gi¸ nh sau:
P(1,1)=9*100%/(9+6)=60%; R(1,1)= 9*100%/(9+2)=82%;
F(1,1)=2*0.6*0.82/(0.6+0.82)=69%;
P(1,2)=2*100%/(2+3)=40%; R(1,2)= 2*100%/(9+2)=18%;
F(1,2)=2*0.4*0.18/(0.4+0.18)=25%;
P(2,1)=6*100%/(6+3)=67%; R(2,1)= 6*100%/(6+9)=40%;
F(2,1)=2*0.67*0.4/(0.67+0.4)=50%;
P(2,2)=3*100%/(3+2)=60%; R(2,2)= 3*100%/(3+6)=33%;
F(2,2)=2*0.60*0.33/(0.60+0.33)=43%;
Vµ gi¸ trÞ F-measure toµn côc %6450.020
569.0
20
15F
B¶ng 5.5 Ma trËn lÉn lén ®Ó ®¸nh gi¸ thuËt to¸n ph©n côm b»ng d÷ liÖu g¸n nh·n trong trêng hîp tæng qu¸t
Líp
Côm
1 … j ... k
1 n11 … n1j … n1k
… … … … … …
i ni1 … nij … nik
… … … … … …
m nm1 … nmj … nmk
Ph¬ng ph¸p ®¸nh gi¸ dùa vµo entropy
Mét ph¬ng ph¸p ®¸nh gi¸ nµy dùa vµo lý thuyÕt x¸c suÊt b»ng c¸ch gi¶
thiÕt nh·n líp cña c¸c phÇn tö d÷ liÖu trong tËp d÷ liÖu lµ c¸c sù kiÖn ngÉu
nhiªn. Gi¶ thiÕt nµy cho phÐp chóng ta cã thÓ ®¸nh gi¸ ®îc ph©n bè x¸c suÊt
trong mçi côm. X¸c suÊt pij cña líp i ë trong côm j cã thÓ ®îc íc lîng b»ng tØ
lÖ xuÊt hiÖn cña c¸c phÇn tö d÷ liÖu cã nh·n i ë trong côm j. Sö dông ma trËn lÉn
lén ta cã thÓ tÝnh ®îc x¸c suÊt nµy lµ:
m
i ij
ij
ijn
np
1
(5.42)
NÕu ta chó ý th× ®©y chÝnh lµ ®é chÝnh x¸c P(i,j) theo c¸ch tÝnh ë trªn.
Entropy lµ ®é ®o sù hçn ®én cña th«ng tin, vµ entropy cña côm j ®îc ®Þnh
nghÜa b»ng:
m
i ijijj ppH1
log (5.43)
223 224
Vµ entrpy cña toµn bé c¸c côm lµ:
k
j j
jH
n
nH
1 (5.44)
trong ®ã nj lµ sè lîng c¸c phÇn tö d÷ liÖu n»m trong côm j vµ n lµ tæng sè
c¸c phÇn tö d÷ liÖu trong tËp d÷ liÖu. Gi¶i thuËt ph©n côm cµng tèt th× entropy
cña nã cã kÕt qu¶ cµng nhá. VÝ dô víi kÕt qu¶ ph©n côm ë b¶ng 5.4 sö dông
thuéc tÝnh A6, ta cã thÓ tÝnh gi¸ trÞ entropy nh sau:
30.29228525
)5
3log
5
3
5
2log
5
2(
20
5)
15
6log
15
6
15
9log
15
9(
20
15
H
5.9. Mét sè øng dông cña ph©n côm
Tuy b¶n chÊt cña c¸c gi¶i thuËt ph©n côm chØ lµ nhãm c¸c phÇn tö d÷ liÖu
l¹i víi nhau thµnh côm cã c¸c ®Æc ®iÓm nµo ®ã t¬ng tù nhau, nhng c¸c øng
dông cña ph©n côm l¹i rÊt ®a d¹ng. Cho mét tËp d÷ liÖu gåm n phÇn tö, gi¶i
thuËt ph©n côm cã thÓ gióp ta hiÓu cÊu tróc ph©n bè tù nhiªn cña d÷ liÖu, hoÆc
®¬n thuÇn gi¶i thuËt ph©n côm cã thÓ hiÓn thÞ cho ta thÊy d÷ liÖu ®îc ph©n bè
nh thÕ nµo. §iÓm mÊu chèt cña viÖc øng dông c¸c gi¶i thuËt ph©n côm lµ phô
thuéc vµo tÝnh s¸ng t¹o cña c¸c nhµ nghiªn cøu. Mét sè øng dông cña gi¶i thuËt
ph©n côm ®· ®îc ®Ò xuÊt cã thÓ liÖt kª nh sau:
Trong sinh häc: ph©n côm cã thÓ gióp chóng ta t×m ra ®îc c¸c lo¹i gen
nµo cã c¸c mÉu quan hÖ víi nhau.
Trong kinh doanh: ph©n côm cã thÓ gióp doanh nghiÖp ph©n lo¹i ®îc
kh¸ch hµng víi c¸c nhu cÇu riªng, tõ ®ã cã c¸c híng tiÕp thÞ kh¸c
nhau cho tõng nhãm kh¸ch hµng.
Trong khai ph¸ d÷ liÖu v¨n b¶n, web, ph©n côm cã thÓ gióp chóng ta
ph©n v¨n b¶n thµnh c¸c nhãm thuéc c¸c thÓ lo¹i kh¸c nhau. Mét vÝ dô
kh¸c: ta cã thÓ ph©n côm d÷ liÖu tr¶ vÒ tõ mét m¸y t×m kiÕm (ch¼ng
h¹n nh google) ®Ó gióp ngêi dïng cã thÓ t×m t¹i liÖu mét c¸ch nhanh
chãng b»ng c¸ch chØ cÇn t×m c¸c tµi liÖu n»m trong côm mµ m×nh quan
t©m.
Trong xö lý ¶nh: ph©n côm cã thÓ gióp chóng ta ph©n lo¹i ®îc c¸c ®èi
tîng kh¸c nhau trong mét ¶nh ®Çu vµo. Hay ta cã thÓ khoanh vïng
®îc nh÷ng n¬i cã c¸ch thøc sö dông ®Êt gièng nhau dùa vµo ¶nh vÖ
tinh. Hay ta cã thÓ ph©n lo¹i c¸c ¶nh thµnh c¸c thÓ lo¹i gièng nhau
phôc vô cho qu¸ tr×nh t×m kiÕm. VÝ dô nÕu ta ph©n côm ®îc c¸c ¶nh
vÒ con hæ th× côm ¶nh nµy sÏ ®îc dïng ®Ó lµm kÕt qu¶ cho c©u truy
vÊn ¶nh vÒ hæ.
Trong chøng kho¸n: ph©n côm cã thÓ gióp ta ph©n lo¹i ®îc c¸c m·
chøng kho¸n tiÒm n¨ng hay Ýt tiÒm n¨ng.
Trong bµi to¸n läc céng t¸c, ta cã thÓ ph©n côm ngêi dïng cã thãi
quen mua hµng gièng nhau, khi cã mét ngêi dïng míi, ta sÏ t×m côm
t¬ng øng víi ngêi dïng nµy, tõ ®ã cã thÓ t vÊn c¸c mÆt hµng mµ
ngêi dïng míi nµy cã thÓ muèn mua. §©y lµ mét ph¬ng ph¸p xö lý
bµi to¸n t vÊn (recommender system).
Ngoµi kh¶ n¨ng øng dông trùc tiÕp, c¸c thuËt to¸n ph©n côm cßn ®îc
sö dông nh bíc tiÒn xö lý trong mét sè bµi to¸n khai ph¸ d÷ liÖu
kh¸c. Ch¼ng h¹n trong bµi to¸n t×m ¶nh ®¹i diÖn (thumbnail) cho mét
clip nµo ®ã, ta ph©n c¸c frame cña clip ®ã thµnh c¸c côm t¬ng øng víi
mét c¶nh scene, sau ®ã gi¶i thuËt tiÕp theo sÏ lùa chän ¶nh “tèt nhÊt”
trong mçi côm lµm ¶nh ®¹i diÖn.
C©u hái vµ bµi tËp
1. M« t¶ ph¬ng ph¸p tÝnh ®é t¬ng tù còng nh ®é kh¸c biÖt cña 2 phÇn tö d÷
liÖu cã c¸c kiÓu d÷ liÖu biÓu diÔn c¸c thuéc tÝnh
Gi¸ trÞ rêi r¹c nhÞ ph©n
Gi¸ trÞ rêi r¹c tæng qu¸t
225 226
Gi¸ trÞ liªn tôc
2. Cho 2 phÇn tö d÷ liÖu trong kh«ng gian 4 chiÒu ®îc biÓu diÔn b»ng c¸c
vector t¬ng øng lµ (22, 1, 42, 10) vµ (20, 0, 36, 8).
TÝnh kho¶ng c¸ch Manhattan gi÷a 2 phÇn tö trªn
TÝnh kho¶ng c¸ch Euclide gi÷a 2 phÇn tö trªn
TÝnh kho¶ng c¸ch Minkowski gi÷a 2 phÇn tö trªn víi q=3
3. Gi¶ sö ta cã tËp d÷ liÖu A1(2, 10), A2(2, 5), A3(8, 4), B1(5, 8), B2(7, 5),
B3(6, 4), C1(1, 2), C2(4, 9). Sö dông thuËt to¸n k-means víi ®é ®o kho¶ng
c¸ch Euclide vµ 3 träng t©m ban ®Çu lµ A1, B1 vµ C1 ®Ó ph©n d÷ liÖu ra lµm
3 côm. T×m:
Träng t©m cña 3 côm sau vßng lÆp ®Çu tiªn (cña thuËt to¸n k-
means)
C¸c côm kÕt qu¶ cña thuËt to¸n
4. LÊy bé c«ng cô xö lý khai ph¸ d÷ liÖu weka t¹i ®Þa chØ
http://www.cs.waikato.ac.nz/ml/weka/, t×m c¸ch sö dông thuËt to¸n k-means
®îc cµi ®Æt s·n ®Ó ph©n côm mét tËp d÷ liÖu ®i kÌm theo gãi phÇn mÒm
nµy, c¸c file d÷ liÖu ®îc ®Æt trong th môc ./data t¹i th môc cµi ®Æt cña
weka. Chó ý lµ trong bé phÇm mÒm nµy gi¶i thuËt k-means cã tªn lµ
SimpleKMeans.
5. Thùc nghiÖm ph©n côm víi gi¶i thuËt EM trong weka víi mét tËp d÷ liÖu ®i
kÌm víi phÇn mÒm weka.
6. Thùc nghiÖm ph©n côm víi gi¶i thuËt HAC cã tªn lµ FarthestFirst trong
weka víi mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka.
7. Thùc nghiÖm ph©n côm víi gi¶i thuËt HierarchicalCluster trong weka víi
mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka.
8. Thùc nghiÖm ph©n côm víi gi¶i thuËt DBScan trong weka víi mét tËp d÷
liÖu ®i kÌm víi phÇn mÒm weka.
9. Thùc nghiÖm ph©n côm víi gi¶i thuËt MakeDensityBasedClusterer trong
weka víi mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka.
10. Cµi ®Æt thuËt to¸n ph©n côm k-means víi g¸n cøng, sau ®ã ¸p dông trªn mét
tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka. Chó ý cÇn ph¶i t×m hiÓu ®Þnh d¹ng
file arff cña weka ®Ó biÕt c¸ch xö lý d÷ liÖu.
11. Cµi ®Æt thuËt to¸n ph©n côm ph©n cÊp gép tõ díi lªn víi ®é ®o ngêi l¸ng
giÒng gÇn nhÊt, sau ®ã ¸p dông trªn mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm
weka.
12. Cµi ®Æt thuËt to¸n ph©n côm ph©n cÊp gép tõ díi lªn HAC víi ®é ®o ngêi
l¸ng giÒng xa nhÊt, sau ®ã ¸p dông trªn mét tËp d÷ liÖu ®i kÌm víi phÇn
mÒm weka.
13. Cµi ®Æt thuËt to¸n ph©n côm ph©n cÊp gép tõ díi lªn HAC víi ®é ®o t¬ng
tù trung b×nh, sau ®ã ¸p dông trªn mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm
weka..
14. Dïng ph¬ng ph¸p ®¸nh gi¸ dùa vµo ®é t¬ng tù ®Ó ®¸nh gi¸ c¸c thuËt to¸n
ph©n côm tõ bµi 9 ®Õn bµi 12.
15. Dïng ®é ®o F-score ®Ó ®¸nh gi¸ c¸c thuËt to¸n ph©n côm tõ bµi 10 ®Õn bµi
12.
16. Dïng ®é ®o Entropy ®Ó ®¸nh gi¸ c¸c thuËt to¸n ph©n côm tõ bµi 10 ®Õn
bµi 12.
227 228
Ch¬ng 6. Ph©n líp d÷ liÖu
6.1. Giíi thiÖu
Ph©n líp lµ mét trong nh÷ng mèi quan t©m nhiÒu nhÊt cña con ngêi
trong qu¸ tr×nh lµm viÖc víi mét tËp hîp ®èi tîng. §iÒu nµy gióp con ngêi cã
thÓ tiÕn hµnh viÖc s¾p xÕp, t×m kiÕm c¸c ®èi tîng mét c¸ch thuËn lîi. Khi biÓu
diÔn ®èi tîng vµo c¸c c¬ së d÷ liÖu, tÝnh chÊt líp vèn cã cña ®èi tîng trong
thùc tÕ thêng ®îc biÓu diÔn t¬ng øng b»ng mét thuéc tÝnh "líp" riªng biÖt.
Ch¼ng h¹n, trong hÖ thèng th«ng tin qu¶n lý t liÖu cña th viÖn, thuéc tÝnh vÒ
lo¹i t liÖu cã miÒn gi¸ trÞ lµ tËp tªn chuyªn ngµnh cña t liÖu, gåm c¸c gi¸ trÞ
nh "Tin häc", "VËt lý", .... Tríc ®©y c¸c c«ng viÖc g¸n c¸c gi¸ trÞ cña thuéc
tÝnh líp thêng ®îc lµm mét c¸ch thñ c«ng. Nhng hiÖn nay, víi sù bung næ
cña th«ng tin vµ c¸c lo¹i d÷ liÖu, viÖc ®¸nh thuéc tÝnh líp mét c¸ch thñ c«ng lµ
rÊt khã kh¨n, cã thÓ nãi lµ kh«ng thÓ. Do vËy c¸c ph¬ng ph¸p ph©n líp tù ®éng
lµ rÊt cÇn thiÕt vµ lµ mét trong nh÷ng chñ ®Ò chÝnh trong khai ph¸ d÷ liÖu.
C¸c c¬ së d÷ liÖu thêng chøa rÊt nhiÒu c¸c th«ng tin Èn – c¸c th«ng tin
cã thÓ sö dông phôc vô qu¸ tr×nh ph©n líp. C¸c gi¶i thuËt ph©n líp thêng ph©n
tÝch d÷ liÖu nh»m t×m ra c¸c m« h×nh m« t¶ c¸c líp d÷ liÖu, tõ ®ã cã thÓ quyÕt
®Þnh ®îc mét phÇn tö d÷ liÖu míi lµ thuéc vµo líp nµo.
ViÖc t×m ra líp cña mét phÇn tö d÷ liÖu míi trong nhiÒu trêng hîp cã ý
nghÜa rÊt quan träng, nã hç trî qu¸ tr×nh ra quyÕt ®Þnh th«ng minh thËm chÝ lµ
nh÷ng quyÕt ®inh mang tÝnh sèng cßn. VÝ dô, trong ng©n hµng, mét nh©n viªn
cho vay vèn rÊt muèn cã mét hÖ thèng cã kh¶ n¨ng tù häc tõ c¸c d÷ liÖu lÞch sö
®Ó cã thÓ quyÕt ®Þnh ®îc mét ®¬n vay vèn míi cña kh¸ch hµng thuéc líp “an
toµn” hay “m¹o hiÓm”, trªn c¬ së ®ã sÏ cã c¸c quyÕt ®Þnh phï hîp. Mét nh©n
viªn tiÕp thÞ trong mét c«ng ty bu«n b¸n hµng ®iÖn tö th× rÊt muèn biÕt mét
kh¸ch hµng cã kh¶ n¨ng mua m¸y tÝnh hay kh«ng. Hay mét b¸c sü sÏ rÊt muèn
cã mét hÖ thèng ph©n tÝch d÷ liÖu ®iÒu trÞ lÞch sö ®Ó dù ®o¸n xem mét bÖnh nh©n
míi víi nh÷ng triÖu chøng thu ®îc sÏ thuéc bÖnh nµo, trªn c¬ së ®ã sÏ cã c¸c
ph¸c ®å ®iÒu trÞ t¬ng øng.
B¶n chÊt cña bµi to¸n ph©n líp lµ dù ®o¸n c¸c nh·n (hay líp) cña c¸c phÇn
tö d÷ liÖu ®Çu vµo vµ c¸c nh·n (hay líp) nµy lµ c¸c gi¸ trÞ rêi r¹c. Th«ng thêng,
c¸c gi¶i thuËt ph©n líp thêng ho¹t ®éng th«ng qua 2 bíc. Bíc ®Çu tiªn nã sÏ
ph©n tÝch tËp d÷ liÖu ®· g¸n nh·n ®Ó t×m ra m« h×nh phï hîp m« t¶ tËp d÷ liÖu
®ã. Bíc nµy ®îc gäi lµ bíc häc (learning step) hay pha häc (learning phase)
vµ tËp d÷ liÖu g¸n nh·n phôc vô qu¸ tr×nh häc nµy ®îc gäi lµ d÷ liÖu huÊn luyÖn
(training data). D÷ liÖu huÊn luyÖn lµ mét tËp c¸c phÇn tö d÷ liÖu (data point) cã
g¸n nh·n, hay cßn ®îc gäi lµ b¶n ghi (tuple) m« t¶ d÷ liÖu vµ nh·n (hay líp)
t¬ng øng cña b¶n ghi ®ã. Trong cuèn gi¸o tr×nh nµy kh¸i niÖm b¶n ghi vµ phÇn
tö d÷ liÖu cã cïng ý nghÜa víi nhau, t¬ng tù kh¸i niÖm nh·n vµ líp còng cã
cïng ý nghÜa. Ngoµi ra cßn cã rÊt nhiÒu thuËt ng÷ kh¸c còng ®îc sö dông réng
r·i cã cïng ý nghÜa víi kh¸i niÖm phÇn tö d÷ liÖu nh: mÉu (sample), vÝ dô
(example), thÓ hiÖn (instance) hay ®èi tîng (object). Mét phÇn tö d÷ liÖu X
thêng ®îc biÓu diÔn b»ng mét vector n chiÒu X =(x1, x2, …, xn), trong ®ã mçi
phÇn tö trong vector xi chøa mét gi¸ trÞ biÓu diÔn thuéc tÝnh (attribute) Ai cña
phÇn tö d÷ liÖu ®ã. Mét thuËt ng÷ kh¸c cïng ý nghÜa víi kh¸i niÖm thuéc tÝnh lµ
kh¸i niÖm ®Æc trng (feature). V× nh·n cña c¸c phÇn tö d÷ liÖu ®îc ®i kÌm víi
d÷ liÖu trong tËp d÷ liÖu huÊn luyÖn nªn bíc nµy cßn ®îc gäi lµ häc cã gi¸m
s¸t (supervised learning). Hay nãi mét c¸ch kh¸c, c¸c gi¶i thuËt ph©n líp lµ
thuéc líp gi¶i thuËt häc cã gi¸m s¸t. VÒ b¶n chÊt trong bíc 1 nµy, c¸c gi¶i
thuËt ph©n líp häc ra hµm y=f(X) ®Ó tõ ®ã khi cã mét phÇn tö X míi nã sÏ dù
®o¸n ra nh·n y t¬ng øng víi nã. Theo khÝa c¹nh nµy th× ta cã thÓ thÊy bíc 1 lµ
qu¸ tr×nh häc ra mét hµm hay mét ¸nh x¹ (mapping) nã cã kh¶ n¨ng ph©n lo¹i
®îc c¸c líp d÷ liÖu. Tïy vµo c¸c gi¶i thuËt kh¸c nhau mµ hµm f(X) nµy cã thÓ
cã c¸c d¹ng kh¸c nhau nh ë d¹ng luËt (rule), c©y quyÕt ®Þnh (dicision tree) hay
c¸c c«ng thøc to¸n häc, …
229 230
Sau khi häc ®îc hµm ph©n líp, c¸c gi¶i thuËt cã thÓ dïng ®Ó dù ®o¸n c¸c
d÷ liÖu míi. Tuy nhiªn tríc khi ®em gi¶i thuËt vµo øng dông trong thùc tÕ, c¸c
gi¶i thuËt ph¶i tr¶i qua bíc thø 2 lµ bíc kiÓm tra hiÖu n¨ng cña chóng. §Ó
tr¸nh hiÖn tîng qu¸ phï hîp (overfit), mét tËp d÷ liÖu kh¸c gäi lµ tËp d÷ liÖu
kiÓm thö (testing set) sÏ ®îc sö dông ®Ó ®o ®é chÝnh x¸c cña gi¶i thuËt. Th«ng
thêng tËp d÷ liÖu kiÓm thö sÏ kh«ng chøa bÊt kú phÇn tö d÷ liÖu nµo n»m trong
tËp d÷ liÖu huÊn luyÖn. Còng gièng tËp d÷ liÖu huÊn luyÖn, trong tËp d÷ liÖu
kiÓm thö, tõng phÇn tö d÷ liÖu còng cã nh·n ®i kÌm. C¸c nh·n nµy ®îc dïng ®Ó
so s¸nh víi nh·n ®îc c¸c gi¶i thuËt ph©n líp dù ®o¸n. Tû lÖ ®o¸n ®óng nh·n
cña c¸c gi¶i thuËt ph©n líp ®îc gäi lµ ®é chÝnh x¸c (accuracy) cña gi¶i thuËt.
Khi chÊt lîng ph©n líp cña c¸c gi¶i thuËt lµ chÊp nhËn ®îc trong mét miÒn d÷
liÖu cô thÓ nµo ®ã, ta cã thÓ dïng chóng ®Ó dù ®o¸n líp cña c¸c phÇn tö d÷ liÖu
míi hoµn toµn cha biÕt tríc (thuËt ng÷ tiÕng Anh lµ “unkown data” hay
“previously unseen data”).
Minh häa cña qu¸ tr×nh ph©n líp ®îc thÓ hiÖn trªn h×nh 6.1 m« t¶ qu¸
tr×nh ph©n líp cña bµi to¸n cho vay vèn trong ng©n hµng. Trong ®ã h×nh 6.1 a)
m« t¶ qu¸ tr×nh häc cña gi¶i thuËt. KÕt qu¶ cña qu¸ tr×nh häc lµ hµm ph©n líp
®îc thÓ hiÖn díi d¹ng c¸c luËt. H×nh 6.1 b) m« t¶ qu¸ tr×nh kiÓm thö còng nh
qu¸ tr×nh dù ®o¸n d÷ liÖu míi. H×nh 6.9 còng minh häa m« h×nh chung cña c¸c
gi¶i thuËt phÇn líp: tõ tËp d÷ liÖu huÊn, c¸c gi¶i thuËt sÏ häc vµ t×m ra m« h×nh
m« t¶ d÷ liÖu ®Çu vµo, kÕt qu¶ cña viÖc häc lµ mét m« h×nh. M« h×nh nµy cã thÓ
®em ra dù ®o¸n c¸c phÇn tö d÷ liÖu míi. Tuy nhiªn ta còng sÏ cÇn bíc thªm
bíc kiÓm thö trong qu¸ tr×nh x©y xùng mét bé ph©n líp ®Ó ®¶m b¶o chÊt lîng
cña nã phï hîp víi miÒn øng dông.
V× sè lîng c¸c gi¶i thuËt ph©n líp lµ rÊt lín, nªn phÇn tiÕp theo cña
ch¬ng nµy chóng ta sÏ chØ t×m hiÓu mét sè thuËt to¸n ph©n líp th«ng dông.
6.2. Ph©n líp b»ng c©y quyÕt ®Þnh
J. Ross Quinlan lµ ngêi ph¸t triÓn gi¶i thuËt c©y quyÕt ®Þnh cã tªn lµ ID3
(viÕt t¾t tõ côm tõ “Iterative Dichotomiser”), sau ®ã còng chÝnh t¸c gi¶ nµy ®Ò
xuÊt gi¶i thuËt ph©n líp C4.5 (mét hËu duÖ cña thuËt to¸n ID3). Gi¶i thuËt C4.5
nµy ®· ®îc dïng lµm chuÈn (benchmark) ®Ó c¸c thuËt to¸n míi so s¸nh. Còng
trong kho¶ng thêi gian nµy th× mét nhãm c¸c nhµ thèng kª gåm L. Breiman, J.
Friedman, R. Olshen vµ C. Stone ®· xuÊt b¶n cuèn s¸ch “Classification and
Regression Trees (CART)” m« t¶ ph¬ng ph¸p t¹o c©y quyÕt ®Þnh nhÞ ph©n. Gi¶i
thuËt ID3 vµ CART ®· trë thµnh c¸c hßn ®¸ t¶ng vµ nã më ®Çu cho hµng lo¹t c¸c
gi¶i thuËt dùa trªn häc quy n¹p c©y quyÕt ®Þnh (decision tree induction). Gi¶i
thuËt häc dùa trªn c©y quyÕt ®Þnh ho¹t ®éng trªn tËp d÷ liÖu ®îc biÓu diÔn b»ng
c¸ch gi¸ trÞ rêi r¹c, trong trêng hîp d÷ liÖu ®îc biÓu diÔn b»ng c¸c thuéc tÝnh
cã gi¸ trÞ liªn th× cÇn thùc hiÖn bíc rêi r¹c hãa. C¸c gi¶i thuËt ID3, CART vµ
C4.5 ®Òu ¸p dông c¸ch tiÕp cËn ¨n tham (greedy) (mét thuËt to¸n kh«ng quay lui
(non-backtracking)) ®Ó x©y dùng c©y theo híng tõ trªn xuèng. TËp d÷ liÖu huÊn
luyÖn sÏ ®îc chia thµnh c¸c tËp nhá h¬n trong qu¸ tr×nh x©y dùng c©y theo c¬
chÕ chia ®Ó trÞ (devide-and –conquer). Díi ®©y lµ m« t¶ thuËt to¸n thuËt to¸n
x©y dùng c©y c¬ b¶n chung cña c¸c gi¶i thuËt nµy.
231 232
H×nh 6.1 Ph©n líp cho bµi to¸n cho vay vèn cña ng©n hµng
ThuËt to¸n x©y dùng c©y quyÕt ®Þnh
§Çu vµo : TËp D chøa d÷ liÖu huÊn luyÖn
attribute_list chøa danh s¸ch c¸c thuéc tÝnh øng cö
§Çu ra : c©y quyÕt ®Þnh
Generate_decision_tree (D, attribute_list)
1. T¹o mét nót gèc N cho c©y quyÕt ®Þnh
2. If toµn bé d÷ liÖu trong D ®Òu thuéc líp C, return nót N lµ nót l¸ cã nh·n C
3. If attribute_list lµ rçng, return nót N víi nh·n lµ líp xuÊt hiÖn nhiÒu nhÊt trong D
4. splitting_attribute = attribute_selection_method(D, attribute_list) t×m thuéc tÝnh ph©n chia tèt nhÊt
5. G¸n cho nót N nh·n lµ splitting_attribute
6. attribute_list attribute_list \ {splitting_attribute} (lo¹i bá thuéc tÝnh splitting_attribute khái attribute_list)
7. For each gi¸ trÞ j cña thuéc tÝnh splitting_attribute
7.1. Gäi Dj lµ tËp chøa c¸c phÇn tö d÷ liÖu mµ thuéc tÝnh splitting_attribute cã gi¸ j
7.2. If Dj lµ rçng th× thªm mét nót l¸ Nj cho nót N cã nh·n lµ nh·n phæ biÕn nhÊt xuÊt hiÖn trong D
7.3. Else g¾n c©y tr¶ vÒ bëi Generate_decision_tree (Dj, attribute_list) vµo nót N
8. return N
Trong ®ã, attribute_list lµ tËp c¸c thuéc tÝnh m« t¶ tËp d÷ liÖu huÊn luyÖn
D; attribute_selection_method lµ hµm lùa chän thuéc tÝnh tèt nhÊt ®Ó ph©n
chia d÷ liÖu, b¶n chÊt nã lµ gi¶i thuËt dùa trªn kinh nghiÖm (heuristic) ®Ó t×m ra
thuéc tÝnh nµo cã kh¶ n¨ng ph©n biÖt ®îc c¸c phÇn tö d÷ liÖu trong tËp D vµo
c¸c líp nhÊt. Nã dùa trªn mét ®é ®o nµo ®ã ch»ng h¹n ®é lîi th«ng tin
(information gain), hay ®é ®o chØ sè gini (Gini index) ®Ó t×m ra thuéc tÝnh tèt
nhÊt.
Gi¶i thuËt b¾t ®Çu b»ng thao t¸c t¹o ra mét nót N m« t¶ tËp d÷ liÖu D (bíc
1). NÕu toµn bé d÷ liÖu trong D cïng cã chung mét nh·n líp th× N sÏ lµ mét nót
l¸ cã nh·n lµ nh·n chung cña c¸c phÇn tö d÷ liÖu, vµ thuËt to¸n dõng. NÕu kh«ng
th× nã sÏ gäi hµm attribute_selection_method() ®Ó t×m ra thuéc tÝnh tèt nhÊt dïng
®Ó ph©n chia tËp d÷ liÖu D thµnh c¸c phÇn Dj, vµ nót N sÏ ®îc g¸n nh·n lµ
thuéc tÝnh t×m ®îc. Gi¶i thuËt ®Ö quy víi c¸c tËp con d÷ liÖu Dj. H×nh 6.2 minh
häa c©y quyÕt ®Þnh ®îc t¹o ra bëi gi¶i thuËt trªn tËp d÷ liÖu b¸n hµng (trong
b¶ng 6.1) ®Ó t×m ra nh÷ng lo¹i kh¸ch hµng nµo cã kh¶ n¨ng mua m¸y tÝnh
(buys_computer) (yes lµ cã mua vµ no lµ kh«ng mua). §é phøc t¹p cña thuËt
to¸n lµ O(n |D| log(|D|)), trong ®ã n lµ sè thuéc tÝnh m« t¶ tËp d÷ liÖu D, |D|
lµ sè lîng c¸c phÇn tö trong D.
B¶ng 6.1 B¶ng d÷ liÖu kh¸ch hµng
233 234
ID Tuæi Thu nhËp Sinh viªn §¸nh gi¸ tÝn dông
Mua m¸y tÝnh
1 youth high no fair no
2 youth high no excellent no
3 middle_aged high no fair yes
4 senior medium no fair yes
5 senior low yes fair yes
6 senior low yes excellent no
7 middle_aged low yes excellent yes
8 youth medium no fair no
9 youth low yes fair yes
10 senior medium yes fair yes
11 youth medium yes excellent yes
12 middle_aged medium no excellent yes
13 middle_aged high yes fair yes
14 senior medium no excellent no
Trong trêng hîp gi¸ trÞ cña mét thuéc tÝnh nµo ®ã kh«ng ph¶i lµ gi¸ trÞ rêi
r¹c (ch¼ng h¹n nh thuéc tÝnh tuæi), khi ®ã mét ph¬ng ph¸p rêi r¹c hãa ®· ®îc
¸p dông (xem b¶ng 6.1). Cô thÓ nã ®· ®îc chia thµnh 3 lo¹i tuæi rêi r¹c: trÎ
(youth), trung niªn (middle_age) vµ giµ (senior).
§iÓm mÊu chèt trong gi¶i thuËt x©y dùng c©y quyÕt ®Þnh ë trªn lµ hµm lùa
chän thuéc tÝnh tèt nhÊt ®Ó ph©n chia d÷ liÖu. PhÇn tiÕp theo sÏ tr×nh bµy mét sè
®é ®o dïng ®Ó ®¸nh gi¸ “chÊt lîng” cña c¸c thuéc tÝnh.
H×nh 6.2 Minh häa c©y quyÕt ®Þnh
6.2.1 §é lîi th«ng tin
§é lîi th«ng tin (information gain) lµ ®é ®o ®îc sö dông trong gi¶i thuËt
ID3. §Çu tiªn lµ c«ng thøc ®o lîng th«ng tin kú väng ®Ó ph©n líp mét phÇn tö
trong tËp d÷ liÖu D ®îc ®o b»ng c«ng thøc sau:
)(log)( 21
i
m
ii ppDInfo
(6.1)
trong ®ã pi lµ x¸c suÊt mét phÇn tö d÷ liÖu trong D thuéc vµo líp Ci vµ nã
®îc íc lîng b»ng c«ng thøc ||
||
D
Dp i
i , víi iD lµ tËp c¸c phÇn tö d÷ liÖu
trong D thuéc vµo líp Ci ; m lµ sè lîng c¸c líp trong D. Hµm logarit c¬ sè 2
®îc sö dông lµ do c«ng thøc trªn ®o lîng th«ng tin theo ®¬n vÞ bit (theo lý
thuyÕt th«ng tin cña C. Shannon). Hµm Info(D) cßn ®îc gäi lµ Entropy cña D.
B©y giê gi¶ sö ta ph©n chia d÷ liÖu trong D theo thuéc tÝnh A nµo ®ã, vµ gi¶
sö thuéc tÝnh nµy cã v gi¸ trÞ (rêi r¹c) kh¸c nhau lµ {a1, a2, …, av}. Thuéc tÝnh
235 236
nµy chia tËp d÷ liÖu D thµnh v tËp con {D1, D2, …, Dv} trong ®ã Dj lµ tËp c¸c
phÇn tö d÷ liÖu cã gi¸ trÞ cña thuéc tÝnh A lµ ai . TËp con nµy sÏ t¬ng øng víi
mét nh¸nh c©y ®îc ph¸t triÓn tõ nót N trong gi¶i thuËt t¹o c©y quyÕt ®Þnh.
Trêng hîp lý tëng th× ta muèn tËp con nµy sÏ cã kh¶ n¨ng ph©n líp chÝnh x¸c
c¸c phÇn tö trong nã, hay nãi mét c¸ch kh¸c ta muèn tËp con nµy cµng ®ång
nhÊt (pure) cµng tèt, ®ång nhÊt ë ®©y cã thÓ hiÓu lµ c¸c phÇn tö trong tËp con
nµy ®Òu cïng thuéc vÒ mét líp. Tuy nhiªn trong thùc tÕ th× c¸c tËp nµy thêng
kh«ng ®ång nhÊt (impure) v× nã chøa c¸c phÇn tö d÷ liÖu thuéc vÒ c¸c líp kh¸c
nhau, do ®ã chóng ta cÇn thªm th«ng tin ®Ó ph©n líp chÝnh x¸c tËp con nµy.
Lîng th«ng tin nµy ®îc ®o bëi:
v
jj
j
A DInfoD
DDInfo
1
)(||
||)( (6.2)
trong ®ã ||
||
D
D j®îc dïng lµm träng sè cña tËp con Dj. Gi¸ trÞ cña
InfoA(D) lµ lîng th«ng tin kú väng ®Ó ph©n líp mét phÇn tö d÷ liÖu trong D dùa
trªn viÖc chia d÷ liÖu b»ng thuéc tÝnh A. Gi¸ trÞ nµy cµng nhá th× ®é ®ång nhÊt
cña c¸c tËp con cµng cao. Cuèi cïng hµm ®o ®é lîi th«ng tin ®îc tÝnh b»ng
c«ng thøc:
)()()( DInfoDInfoAGain A (6.3)
Gi¸ trÞ Gain(A) cho chóng ta biÕt ta ®îc lîi bao nhiªu nÕu chia d÷ liÖu
theo thuéc tÝnh A. Gi¸ trÞ nµy cµng lín th× cµng tèt, do ®ã thuéc tÝnh nµo cã gi¸
trÞ Gain() lín nhÊt sÏ ®îc chän ®Ó ph©n nh¸nh trong qu¸ trÞnh x©y dùng c©y
quyÕt ®Þnh.
§Ó minh häa cho ®é ®o nµy ta tÝnh to¸n mét thuéc tÝnh trªn tËp d÷ liÖu ë
b¶ng 6.1. Trong b¶ng nµy trêng cuèi cïng lµ nh·n cña d÷ liÖu (Mua m¸y tÝnh),
nã cã 2 gi¸ trÞ, do ®ã sè líp ë ®©y lµ 2. Cã 9 phÇn tö d÷ liÖu cã nh·n lµ yes vµ 5
phÇn tö d÷ liÖu cã nh·n lµ no, do ®ã theo c«ng thøc 6.1 ta cã:
94.0)14
5(log
14
5)
14
9(log
14
9)( 22 DInfo bits
TiÕp ®Õn theo c«ng thøc 6.2 ta tÝnh gi¸ trÞ cña hµm cho thuéc tÝnh tuæi
(age):
bits 694.0
)5
2log
5
2
5
3log
5
3(
14
5
)4
0log
4
0
4
4log
4
4(
14
4
)5
3log
5
3
5
2log
5
2(
14
5)(
22
22
22
DInfoage
TiÕp ®Õn theo c«ng thøc 6.3 ta cã ®é lîi th«ng tin theo thuéc tÝnh tuæi sÏ lµ:
246.00.694-0.940)()()( DInfoDInfoageGain age bits
T¬ng tù ta cã thÓ tÝnh ®îc gi¸ trÞ ®é lîi th«ng tin cho c¸c thuéc tÝnh thu
nhËp (income), sinh viªn (student) vµ ®¸nh gi¸ tÝn dông (credit_rating)
Gain(income) = 0.029 bits, Gain(student) = 0.151 bits vµ Gain(credit_rating) =
0.048 bits . Tõ kÕt qu¶ nµy chóng ta thÊy thuéc tÝnh tuæi sÏ ®îc chän ®Ó ph©n
chia d÷ liÖu. LÆp l¹i qu¸ tr×nh x©y dùng c©y t¬ng øng víi c¸c tËp con d÷ liÖu
(®· bá ®i thuéc tÝnh tuæi) ta sÏ thu ®îc c©y quyÕt ®Þnh nh h×nh 6.2.
6.2.2 TØ sè ®é lîi
§é ®o ®é lîi th«ng tin ho¹t ®éng kh«ng tèt trong trêng hîp mét thuéc
tÝnh cã nhiÒu gi¸ trÞ. VÝ dô, thuéc tÝnh m· s¶n phÈm (product_ID), hay m· giao
dÞch sÏ cã rÊt nhiÒu gi¸ trÞ. §Æc biÖt n÷a, khi chia d÷ liÖu theo thuéc tÝnh nµy th×
mçi mét tËp con d÷ liÖu sÏ chØ cã t¬ng øng mét b¶n ghi, do ®ã c¸c tËp con nµy
lµ hoµn toµn ®ång nhÊt. Hay nãi mét c¸ch kh¸c, lîng th«ng tin cÇn ®Ó ph©n líp
tËp d÷ liÖu D dùa trªn c¸ch ph©n chia d÷ liÖu trªn thuéc tÝnh nµy
0)( DInfoProduct_ID . Vµ gi¸ trÞ ®é lîi th«ng tin sÏ ®¹t gi¸ trÞ tèi ®a
)()()()( DInfoDInfoDInfoProduct_IDGain Product_ID . Nhng râ
rµng lµ viÖc ph©n líp dùa trªn thuéc tÝnh nµy lµ v« nghÜa.
237 238
Do ®ã, trong gi¶i thuËt C4.5 (hËu duÖ cña gi¶i thuËt ID3) t¸c gi¶ ®· ®Ò xuÊt
sö dông mét ®é ®o míi gäi lµ tØ sè ®é lîi (gain ratio) ®Ó cè tr¸nh nhîc ®iÓm
trªn. Hµm nµy sö dông mét ph¬ng ph¸p chuÈn hãa ®é lîi th«ng tin b»ng c¸ch
sö dông gi¸ trÞ ph©n chia th«ng tin (split information) ®îc ®Þnh nghÜa t¬ng tù
nh hµm Info(D) nh sau:
)||
||(log
||
||)( 2
1 D
D
D
DDSplitInfo
jv
j
j
A
(6.4)
Gi¸ trÞ nµy biÓu diÔn th«ng tin tiÒm n¨ng ®îc sinh ra th«ng qua viÖc chia
tËp d÷ liÖu huÊn luyÖn D thµnh v tËp con t¬ng øng víi c¸c gi¸ trÞ cña thuéc tÝnh
A. Chó ý r»ng víi mçi gi¸ trÞ cña thuéc tÝnh j, nã tÝnh to¸n sè lîng c¸c phÇn tö
cã gi¸ trÞ thuéc tÝnh A lµ j trªn tæng sè lîng phÇn tö cña D. §©y lµ ®iÓm kh¸c so
víi ®é lîi th«ng tin, do ®ã c«ng thøc tÝnh tØ sè ®é lîi sÏ lµ:
)(
)()(
ASplitInfo
AGainAGainRatio (6.5)
trong ®ã hµm SplitInfoA(D) ®îc viÕt ng¾n gän thµnh SplitInfo(A). Dùa
trªn ®é ®o nµy, c¸c thuéc tÝnh cã gi¸ trÞ tØ sè ®é lîi cao sÏ ®îc chän lµm thuéc
tÝnh ph©n chia d÷ liÖu. Cã mét chó ý r»ng, nÕu hµm SplitInfo(A)=0 th× c«ng thøc
trªn kh«ng dïng ®îc, do ®ã cã thªm rµng buéc ®Ó tr¸nh trêng hîp nµy. Cô thÓ
gi¸ trÞ ®é lîi th«ng tin cña thuéc tÝnh ®îc chän ph¶i ®ñ lín, Ýt nhÊt lµ lín h¬n
gi¸ trÞ trung b×nh ®é lîi th«ng tin cña tÊt c¶ c¸c thuéc tÝnh.
Trë l¹i b¶ng d÷ liÖu 6.1, ta tÝnh tØ sè ®é lîi cho thuéc tÝnh thu nhËp
(income). §Çu tiªn ta sö dông c«ng thøc 6.4 ®Ó tÝnh SplitInfoincome(D)
962.0
)14
4(log
14
4)
14
6(log
14
6)
14
4(log
14
4)( 222
DSplitInfoincome
Do ®ã 031.0962.0
029.0
)(
)()(
incomeSplitInfo
incomeGainincomeGainRatio
6.2.3 ChØ sè Gini
§©y lµ ®é ®o ®îc sö dông trong gi¶i thuËt CART, chØ sè gini ®o ®é kh«ng
®ång nhÊt cña mét tËp d÷ liÖu D b»ng c«ng thøc:
m
iipDGini
1
21)( (6.6)
trong ®ã pi cã ý nghÜa gièng nh c«ng thøc 6.1; m lµ sè lîng líp trong D.
ChØ sè Gini quan t©m ®Õn trêng hîp ta sö dông mét thuéc tÝnh vµ chia d÷ liÖu
thµnh 2 nöa. §Ó ®¬n gi¶n, ta xÐt trêng hîp thuéc tÝnh A cã v gi¸ trÞ kh¸c nhau
{a1, a2, …, av} xuÊt hiÖn trong D. §Ó x¸c ®Þnh c¸ch ph©n chia tèt nhÊt ta xÐt toµn
bé c¸c tËp con cña D ph©n chia theo c¸c gi¸ trÞ cña A. Do ®ã nÕu A cã v gi¸ trÞ
kh¸c nhau th× ta sÏ cã 2v tËp con cña D. VÝ dô thuéc tÝnh thu nhËp (income) cã 3
gi¸ trÞ {low, medium, high} th× c¸c tËp con cã thÓ sÏ lµ {low, medium, high},
{low, medium}, {medium, high}, {low, high}, {low}, {medium}, {high} vµ tËp
rçng {}. Chóng ta kh«ng xÐt 2 tËp con {low, medium, high} vµ {} v× nã kh«ng
chia d÷ liÖu ra 2 tËp, do ®ã ta cã tæng sè 2v -2 trêng c¸ch ®Ó chia tËp d÷ liÖu D
thµnh 2 tËp con dùa trªn thuéc tÝnh A. Khi chia tËp d÷ liÖu D thµnh 2 nöa D1 vµ
D2 chóng ta xem xÐt ®é kh«ng ®ång nhÊt (impurity) cña d÷ liÖu trong 2 nöa nµy:
)(||
||)(
||
||)( 2
21
1 DGiniD
DDGini
D
DDGiniA (6.7)
Trong trêng hîp thuéc tÝnh A cã gi¸ trÞ liªn tôc th× chóng ta ph¶i x¸c ®Þnh
c¸c ®iÓm (gi¸ trÞ) split_point ®Ó chia tËp d÷ liÖu D thµnh 2 tËp con. C¸c ®iÓm
split_point cã thÓ lÊy lµ gi¸ trÞ trung b×nh gi÷a 2 gi¸ trÞ gÇn nhau nhÊt cña thuéc
tÝnh A. Khi x¸c ®Þnh ®îc ®iÓm chia d÷ liÖu split_point ta cã thÓ chia d÷ liÖu D
thµnh 2 tËp d÷ liÖu con lµ D1 vµ D2 sao
cho: int}_|{1 posplitxDXD A vµ
int}_|{1 posplitxDXD A trong ®ã vA lµ gi¸ trÞ cña thuéc tÝnh A.
Khi ®ã ta ®Þnh nghÜa ®é gi¶m cña ®é bÊt ®ång nhÊt cña d÷ liÖu khi chia d÷ liÖu
thµnh 2 tËp con theo thuéc tÝnh A:
)()()( DGiniDGiniAGini A (6.8)
239 240
Do ®ã c¸ch ph©n chia nµo mµ t¹o ra 2 tËp con cã gi¸ trÞ Gini(A) lín nhÊt
(hay GiniA(D) nhá nhÊt) sÏ ®îc chän. Tuy nhiªn trong trêng hîp nµy kh¸c víi
c¸c ®é ®o tríc, ta cÇn kÕt hîp c¸ch ph©n chia hay gi¸ trÞ ®iÓm ph©n chia (split
point) víi thuéc tÝnh ®Ó dïng lµm ®iÒu kiÖn ph©n nh¸nh c©y quyÕt ®Þnh.
Quay l¹i c¬ së d÷ liÖu kh¸ch hµng ë b¶ng 6.1, ta cã 9 phÇn tö d÷ liÖu thuéc
vµo líp Cyes vµ 5 phÇn tö d÷ liÖu thuéc vµo líp Cno do ®ã chØ sè Gini(D) ®o ®é
bÊt ®ång nhÊt trong D lµ:
459.0)14
5()
14
9(1)( 22 DGini
TiÕp theo ta xÐt thuéc tÝnh thu nhËp (income), b¾t ®Çu b»ng c¸ch ph©n chia
{low, medium} vµ {high}. Víi c¸ch ph©n chia nµy th× ta cã tËp D1 chøa 10 phÇn
tö d÷ liÖu cã thuéc tÝnh income cã gi¸ trÞ n»m trong tËp {low, medium} vµ tËp
D2 chøa 4 phÇn tö cã gi¸ trÞ income=high. Khi ®ã chØ sè Gini sÏ ®îc tÝnh to¸n
lµ:
)(45.0
4
3
4
11
14
4
10
4
10
61
14
10
)()14
4()()
14
10()(
}{
22
22
21},{
DGini
DGiniDGiniDGini
highincome
mediumlowincome
T¬ng tù, gi¸ trÞ Gini cho c¸ch chia {medium, high} vµ {low} lµ 0.3; gi¸
trÞ Gini cho c¸ch chia {low, high} vµ {medium} lµ 0.315. Do ®ã c¸ch chia
{medium, high} vµ {low} sÏ ®îc chän lµm ®iÒu kiÖn ®Ó ph©n nh¸nh c©y quyÕt
®Þnh v× nã cho ta gi¸ trÞ Gini nhá nhÊt. Víi thuéc tÝnh tuæi (age) th× c¸ch ph©n
chia {youth, senior} vµ {middle_age} cho gi¸ trÞ tèt nhÊt lµ 0.375. Víi thuéc
tÝnh student vµ credit_rating ®Òu lµ gi¸ trÞ nhÞ ph©n nªn chóng ta chØ cã mét c¸ch
chia duy nhÊt, gi¸ trÞ Gini cña 2 thuéc tÝnh nµy lÇn lît lµ 0.367 vµ 0.429. Qua
kÕt qu¶ nµy ta thÊy thuéc tÝnh income cho gi¸ trÞ Gini nhá nhÊt do ®ã nã sÏ ®îc
chän ®Ó lµm ®iÒu kiÖn ph©n nh¸nh c©y quyÕt ®Þnh, kh¸c víi 2 ®é ®o ë trªn chän
thuéc tÝnh tuæi lµm ®iÒu kiÖn ph©n nh¸nh ®Çu tiªn. Mét ®iÒu chó ý lµ víi ®é ®o
nµy th× ta kh«ng chØ quan t©m ®Õn thuéc tÝnh dïng ®Ó ph©n chia tËp d÷ liÖu mµ
cßn quan t©m ®Õn c¸ch chia d÷ liÖu theo thuéc tÝnh ®ã.
Ngoµi c¸c ®é ®o nµy cßn cã nhiÒu ®é ®o kh¸c, tuy nhiªn trong khu«n khæ
cuèn gi¸o tr×nh nµy sÏ kh«ng tr×nh bµy hÕt.
6.2.4 TØa c©y quyÕt ®Þnh
Sau khi c©y ®îc x©y dùng , nã cã thÓ chøa nhiÒu nh¸nh ph¶n ¸nh sù bÊt
thêng trong d÷ liÖu huÊn luyÖn: cã thÓ lµ c¸c trêng hîp ngo¹i lÖ, d÷ liÖu lçi
hay lµ d÷ liÖu nhiÔu. HiÖn tîng trªn còng g©y ra hÖ qu¶ lµ x¶y ra hiÖn tîng
c©y thu ®îc qu¸ phï hîp d÷ liÖu (overfitting). §Ó gi¶i quyÕt vÊn ®Ò nµy
ph¬ng ph¸p tØa c©y (tree pruning) ®îc ®Ò xuÊt. Ph¬ng ph¸p tØa c©y vÒ b¶n
chÊt lµ lo¹i bá c¸ch nh¸nh Ýt tin cËy nhÊt, do ®ã ta kh«ng nh÷ng thu ®îc c©y cã
kh¶ n¨ng ph©n líp tèt h¬n mµ cßn lµm cho c©y c« ®äng h¬n vµ tèc ®é xö lý sÏ
nhanh h¬n. Ph¬ng ph¸p tØa c©y ®îc chia thµnh 2 lo¹i: tØa tríc (prepruning)
c©y vµ tØa sau (postpruning). Trong ph¬ng ph¸p tØa tríc, c©y sÏ ®îc tØa ngay
trong giai ®o¹n x©y dùng c©y, nã sÏ t¬ng øng víi c¸c ®iÒu kiÖn ®Ó dõng ph¸t
triÓn mét nh¸nh nµo ®ã. Cßn ph¬ng ph¸p tØa sau l¹i xö lý c©y sau khi nã ®·
®îc x©y dùng hoµn chØnh. Trong néi dung cuèn gi¸o tr×nh nµy sÏ kh«ng ®i s©u
vµo c¸c ph¬ng ph¸p tØa c©y, ®éc gi¶ cã thÓ tham kh¶o ë tµi liÖu [Han06].
6.3. ThuËt to¸n ph©n líp Naive Bayes
Bé ph©n líp Bayes lµ mét thuéc líp gi¶i thuËt ph©n líp thèng kª, nã cã thÓ
dù ®o¸n x¸c suÊt cña mét phÇn tö d÷ liÖu thuéc vµo mét líp lµ bao nhiªu. Ph©n
líp Bayes ®îc dùa trªn ®Þnh lý Bayes (®Þnh lý ®îc ®Æt theo tªn t¸c gi¶ cña nã
lµ Thomas Bayes).
241 242
6.2.1 §Þnh lý Bayes
Gäi X lµ mét chøng cø (evidence) (trong bµi to¸n ph©n líp th× X sÏ lµ mét
phÇn tö d÷ liÖu), H lµ mét gi¶ thiÕt nµo ®Ó cho X thuéc vÒ mét líp mét líp C nµo
®ã. Trong bµi to¸n ph©n líp chóng ta muèn x¸c ®Þnh gi¸ trÞ P(H |X) lµ x¸c suÊt
®Ó gi¶ thiÕt H lµ ®óng víi chøng cø X thuéc vµo líp C víi ®iÒu kiÖn ta biÕt c¸c
th«ng tin m« t¶ X. P(H |X) lµ mét x¸c suÊt hËu nghiÖm (posterior probability hay
posteriori probability) cña H víi ®iÒu kiÖn X.
Gi¶ sö tËp d÷ liÖu kh¸ch hµng cña chóng ta ®îc m« t¶ bëi c¸c thuéc tÝnh
tuæi vµ thu nhËp, vµ mét kh¸ch hµng X cã tæi lµ 35 vµ thu nhËp lµ $40000. Gi¶
sö H lµ gi¶ thiÕt kh¸ch hµng ®ã sÏ mua m¸y tÝnh, th× P(H |X) ph¶n ¸nh x¸c suÊt
ngêi dïng X sÏ mua m¸y tÝnh víi ®iÒu kiÖn ta biÕt tuæi vµ thu nhËp cña ngêi
®ã.
Ngîc l¹i P(H) lµ x¸c suÊt tiÒn nghiÖm (prior probability hay priori
probability) cña H. Trong vÝ dô trªn, nã lµ x¸c suÊt mét kh¸ch hµng sÏ mua m¸y
tÝnh mµ kh«ng cÇn biÕt c¸c th«ng tin vÒ tuæi hay thu nhËp cña hä. Hay nãi c¸ch
kh¸c, x¸c suÊt nµy kh«ng phô thuéc vµo X. T¬ng tù, P(X |H) lµ x¸c suÊt cña X
víi ®iÒu kiÖn H, nã lµ mét x¸c suÊt hËu nghiÖm. VÝ dô, nã lµ x¸c suÊt ngêi
dïng X (cã tæi lµ 35 vµ thu nhËp lµ $40000) sÏ mua m¸y tÝnh víi ®iÒu kiÖn ta ®·
biÕt lµ ngêi dïng ®ã sÏ mua m¸y tÝnh. Cuèi cïng P(X) lµ x¸c suÊt tiÒn nghiÖm
cña X. Trong vÝ dô trªn, nã sÏ lµ x¸c suÊt mét ngêi trong tËp d÷ liÖu sÏ cã tuæi
34 vµ thu nhËp $40000. C¸c x¸c suÊt nµy sÏ ®îc tÝnh dùa vµo ®Þnh lý Bayes nh
sau:
)(
)()|()|(
XP
HPHXPXHP (6.9)
6.2.2 Ph©n líp Naive Bayes
Bé ph©n líp Naive Bayes hay bé ph©n líp Bayes ®¬n gi¶n (simple Bayes
classifier) ho¹t ®éng nh sau:
1) Gäi D lµ tËp d÷ liÖu huÊn luyÖn, trong ®ã mçi phÇn tö d÷ liÖu X ®îc biÓu
diÔn b»ng mét vector chøa n gi¸ trÞ thuéc tÝnh A1, A2, …, An , X={x1, x2,
…, xn}.
2) Gi¶ sö cã m líp C1, C2, …, Cm; Cho mét phÇn tö d÷ liÖu X, bé ph©n líp sÏ
g¸n nh·n cho X lµ líp cã x¸c suÊt hËu nghiÖm lín nhÊt. Cô thÓ, bé ph©n
líp Bayes sÏ dù ®o¸n X thuéc vµo líp Ci nÕu vµ chØ nÕu:
),1( )|()|( jimiXCPXCP ji (6.10)
Gi¸ trÞ nµy sÏ ®îc tÝnh dùa vµo ®Þnh lý Bayes:
)(
)()|()|(
XP
CPCXPXCP ii
i (6.11)
3) §Ó t×m gi¸ trÞ x¸c suÊt lín nhÊt, ta nhËn thÊy trong c«ng thøc 6.10 th× gi¸
trÞ P(X) lµ gièng nhau víi mäi líp nªn ta kh«ng cÇn tÝnh. Do ®ã ta chØ cÇn
t×m gi¸ trÞ lín nhÊt cña P(X |Ci)P(Ci). Chó ý r»ng P(Ci) ®îc íc lîng
b»ng c«ng thøc ||
||)(
D
DCP i
i , trong ®ã Di lµ tËp c¸c phÇn tö d÷ liÖu
thuéc vµo líp Ci. NÕu x¸c suÊt tiÒn nghiÖm P(Ci) còng kh«ng x¸c ®Þnh
®îc th× ta coi chóng b»ng nhau P(C1)=P(C2)=… =P(Cm), khi ®ã ta chØ cÇn
t×m gi¸ trÞ P(X |Ci) lín nhÊt.
4) Khi sè lîng c¸c thuéc tÝnh m« t¶ d÷ liÖu lµ lín th× chi phÝ tÝnh to¸n P(X
|Ci) lµ rÊt lín, do ®ã ®Ó lµm gi¶m ®é phøc t¹p, gi¶i thuËt Naive bayes gi¶
thiÕt c¸c thuéc tÝnh lµ ®éc lËp nhau hay kh«ng cã sù phô thuéc nµo gi÷a
c¸c thuéc tÝnh. Khi ®ã ta cã thÓ tÝnh:
)|(...)|()|()|( 11
ini
n
kiki CxPCxPCxPCXP
(6.12)
Chóng ta cã thÓ íc lîng )|(),...,|(),|( 21 inii CxPCxPCxP tõ
tËp d÷ liÖu huÊn luyÖn víi xk lµ gi¸ trÞ cña thuéc tÝnh Ak cña phÇn tö d÷ liÖu
X. §Ó tÝnh to¸n x¸c suÊt P(X | Ci), th× tïy vµo gi¸ trÞ cña c¸c thuéc tÝnh mµ
ta sÏ sö dông c¸c ph¬ng ph¸p tÝnh to¸n kh¸c nhau:
243 244
a) NÕu c¸c Ak ®îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi r¹c th×
||
||)|(
i
ki
ikD
DCxP , trong ®ã
kiD lµ tËp c¸c phÇn tö trong iD cã gi¸
trÞ cña thuéc tÝnh Ak b»ng xk.
b) NÕu c¸c Ak ®îc biÓu diÔn b»ng c¸c gi¸ trÞ liªn tôc, khi ®ã ta gi¶ thiÕt
nã tu©n theo ph©n bè chuÈn Gauss víi gi¸ trÞ trung b×nh m vµ ®é lÖch
chuÈn σ vµ hµm mËt ®é g ®îc ®Þnh nghÜa nh sau:
2
2
2
)(
2
1),,(
mx
emxg
(6.13)
vµ x¸c suÊt )|( ik CxP ®îc tÝnh b»ng c«ng thøc:
),,()|( kC
kCkik ii
xgCxP (6.14)
trong ®ã kC
kC ii
m , lµ gi¸ trÞ trung b×nh (mean) vµ ®é lÖch chuÈn
(standard deviation) cña thuéc tÝnh Ak víi ®iÒu kiÖn lµ thuéc líp Ci . Gäi
Di lµ tËp hîp c¸c phÇn tö d÷ liÖu thuéc vµo líp Ci (Di D), khi ®ã gi¸ trÞ
trung b×nh vµ ®é lÖch chuÈn cña c¸c thuéc tÝnh Ak cña líp Ci ®îc tÝnh
nh sau:
|| i
DX
jk
kC
D
x
m ij
i
(6.15)
ij
ii
DX
kC
jk
i
kC x
D2)(
||
1 (6.16)
Quay l¹i c¬ së d÷ liÖu kh¸ch hµng ë b¶ng 6.1, gi¶ sö ta cã mét kh¸ch hµng
míi X cã c¸c gi¸ trÞ thuéc tÝnh lµ:
X=(age=youth, income=medium, student=yes, credit_rating=fair)
B©y giê cÇn x¸c ®Þnh xem kh¸ch hµng X cã thuéc líp Cyes (mua m¸y tÝnh)
hay kh«ng, ta tÝnh to¸n nh sau:
P(Cyes)=9/14=0.643; P(Cno)=5/14=0.357;
Tríc khi tÝnh x¸c suÊt P(X | Ci), ta tÝnh c¸c x¸c suÊt thµnh phÇn:
P(age = youth | Cyes) = 2/9 = 0.222
P(age = youth | Cno) = 3/5 = 0.600
P(income = medium | Cyes) = 4/9 = 0.444
P(income = medium | Cno) = 2/5 = 0.400
P(student = yes | Cyes) = 6/9 = 0.667
P(student = yes | Cno) = 1/5 = 0.200
P(credit_rating= fair | Cyes) = 6/9 = 0.667
P(credit_rating = fair | Cno) = 2/5 = 0.400
Cuèi cïng ta cã x¸c suÊt P(X | Ci):
P(X | Cyes) = P(age = youth | Cyes) * P(income = medium | Cyes) *
P(student = yes | Cyes) *P(credit_rating = fair | Cyes)
= 0.222 * 0.444 * 0.667 * 0.667 = 0.044
P(X | Cno) = 0.600 * 0.400 * 0.200 * 0.400 = 0.019.
P(X | Cyes) * P(Cyes) = 0.044 * 0.643 = 0.028
P(X | Cno) * P(Cno) = 0.019 * 0.357 = 0.007
Tõ kÕt qu¶ nµy ta thÊy P(X | Cyes) * P(Cyes) cã gi¸ trÞ lín nhÊt, do ®ã thuËt
to¸n Bayes sÏ kÕt luËn lµ kh¸ch hµng X sÏ mua m¸y tÝnh.
Trong qu¸ tr×nh tÝnh to¸n c«ng thøc 6.12, ta cã thÓ gÆp trêng hîp P(xk |
Ci)=0. VÝ dô trong trêng hîp thuéc tÝnh Ak lµ gi¸ trÞ rêi r¹c th× gi¸ trÞ P(xk | Ci)
®îc tÝnh theo c«ng thøc ||
||)|(
i
ki
ikD
DCxP , khi 0|| k
iD th× P(xk | Ci)=0.
§iÒu nµy cã nghÜa lµ P(X | Ci) theo c«ng thøc 6.12 sÏ cã gi¸ trÞ lµ 0. §Ó tr¸nh
trêng hîp nµy x¶y ra, ta cã thÓ sö dông c«ng thøc íc lîng Laplace (Laplace
estimator), c«ng thøc Laplace cã rÊt nhiÒu d¹ng tïy thuéc vµo c¸c bµi to¸n kh¸c
nhau, trong trêng hîp cô thÓ nµy ta cã thÓ sö dông c«ng thøc:
245 246
mD
DCxP
i
ki
ik
||
||1)|( (6.17)
trong ®ã m lµ sè lîng líp, ta cã thÓ nhËn thÊy ë tö sè ®· ®îc céng thªm
gi¸ trÞ 1 nªn nã sÏ tr¸nh ®îc trêng hîp P(xk | Ci)=0. Mét vÝ dô cô thÓ, gi¶ sö
líp Cyes cã 1000 phÇn tö d÷ liÖu, trong ®ã kh«ng cã phÇn tö nµo cã gi¸ trÞ thuéc
tÝnh thu nhËp income = low, cã 990 phÇn tö d÷ liÖu cã income = medium, vµ 10
phÇn tö d÷ liÖu cã income = high. NÕu kh«ng sö dông íc lîng Laplace th× x¸c
suÊt cña P(xk | Cyes) t¬ng øng sÏ lµ: 0/1000=0; 990/1000=0.990 vµ
10/1000=0.010. Khi sö dông íc lîng Laplace th× c¸c x¸c suÊt sÏ t¬ng øng lµ:
1/1003=0.001; 991/1003=0.998 vµ 11/1003=0.011, nh vËy ta ®· gi¶i quyÕt
®îc vÊn ®Ò cña c«ng thøc 6.12.
6.3. ThuËt to¸n ph©n líp m¸y vector hç trî SVM
T¬ng tù thuËt to¸n Bayes, thuËt to¸n m¸y vector hç trî (Support Vector
Machines – SVM) lµ mét thuéc líp gi¶i thuËt ph©n líp thèng kª. Nã cã kh¶
n¨ng xö lý c¶ d÷ liÖu tuyÕn tÝnh vµ d÷ liÖu kh«ng tuyÕn tÝnh. B¶n chÊt cña gi¶i
thuËt nµy lµ nã x©y dùng mét siªu ph¼ng ®Ó ph©n chia d÷ liÖu thµnh 2 nöa.
Trong trêng hîp nÕu d÷ liÖu lµ kh«ng tuyÕn tÝnh th× nã sÏ sö dông mét hµm
nh©n (kernel function) ®Ó chuyÓn ®æi tËp d÷ liÖu ban ®Çu sang mét kh«ng gian
míi cã sè chiÒu lín h¬n ®Ó xö lý.
6.3.1 Trêng hîp d÷ liÖu cã thÓ ph©n lo¹i tuyÕn tÝnh
§Ó lµm quen víi thuËt to¸n ph©n líp SVM ta xÐt trêng hîp ®¬n gi¶n lµ tËp
d÷ liÖu huÊn luyÖn chØ cã 2 líp vµ nã ph©n bè ë d¹ng mµ ta cã thÓ ph©n t¸ch
chóng mét c¸ch tuyÕn tÝnh. Gäi D lµ tËp d÷ liÖu huÊn luyÖn: (X1, y1), (X2, y2), …
, (X|D|, y|D|), trong ®ã Xi lµ c¸c phÇn tö d÷ liÖu vµ yi lµ nh·n t¬ng øng cña nã.
Gi¸ trÞ cña yi cã thÓ nhËn lµ mét trong 2 gi¸ trÞ {-1, +1} gièng nh tËp d÷ liÖu
trong b¶ng 6.1 lµ cã 2 líp cho trêng mua m¸y tÝnh lµ yes hay no. §Ó cã thÓ
hiÓn thÞ ®îc d÷ liÖu ta lÊy trêng hîp d÷ liÖu ®îc biÓu diÔn b»ng 2 thuéc tÝnh
A1 vµ A2, vµ c¸c phÇn tö d÷ liÖu cña tËp D ®îc minh häa b»ng h×nh 6.3. Tõ h×nh
vÏ cho chóng ta thÊy d÷ liÖu cã thÓ ph©n t¸ch thµnh 2 nöa b»ng mét ®êng
th¼ng. Tuy nhiªn sè lîng c¸c ®êng th¼ng cã thÓ dïng ®Ó ph©n t¸ch tËp d÷ liÖu
trªn thµnh 2 nöa lµ v« h¹n (h×nh 6.3 minh häa mét sè ®êng th»ng vÏ b»ng
®êng ®øt nÐt cã thÓ dïng ®Ó ph©n t¸ch d÷ liÖu thµnh 2 líp riªng biÖt). Trong
trêng hîp d÷ liÖu ®îc biÓu diÔn b»ng 3 thuéc tÝnh (3 chiÒu) th× ®êng th¼ng sÏ
®îc thay thÕ b»ng mÆt ph¼ng (plane), vµ trêng hîp tæng qu¸t (n chiÒu) th× ta
dïng siªu ph¼ng (hyperplane) ®Ó thay thÕ ®êng th¼ng. Ta sÏ dïng thuËt ng÷
siªu ph¼ng tõ ®o¹n nµy vÒ sau trong thuËt to¸n SVM.
§Ó t×m ra siªu ph¼ng tèt nhÊt, gi¶i thuËt SVM t×m siªu ph¼ng cã lÒ lín
nhÊt (maximum marginal hyperplane - MMH). Kh¸i niÖm lÒ cã thÓ ®îc minh
häa trªn h×nh 6.4, lÒ cña siªu ph¼ng h lµ tæng kho¶ng c¸ch tõ h ®Õn 2 siªu ph¼ng
lµ tiÕp tuyÕn víi 2 miÒn d÷ liÖu (ë hai bªn siªu ph¼ng) vµ song song víi siªu
ph¼ng h. Hay nãi mét c¸ch kh¸c, lÒ cña siªu ph¼ng h lµ tæng kho¶ng c¸ch cña 2
phÇn tö d÷ liÖu (ë 2 mÆt cña siªu ph¼ng) trong tËp d÷ liÖu huÊn luyÖn gÇn víi h nhÊt. H×nh 6.5 minh häa mét siªu ph¼ng kh¸c cã lÒ lín h¬n so víi lÒ cña siªu
ph¼ng trong h×nh 6.4. Lý do cña viÖc t×m siªu ph¼ng cã lÒ lín nhÊt lµ ta hy väng
nã sÏ nã cã thÓ ph©n líp tèt nhÊt, nã cho chóng ta tØ lÖ lçi ph©n líp thÊp nhÊt.
Mét siªu ph¼ng ph©n líp cã thÓ biÓu diÔn b»ng c«ng thøc:
0 bXW (6.18)
247 248
H×nh 6.3 Minh häa d÷ liÖu cã thÓ ph©n t¸ch mét c¸ch tuyÕn tÝnh
H×nh 6.4 LÒ cña mét siªu ph¼ng
H×nh 6.5 Siªu ph¼ng cã lÒ lín
trong ®ã W lµ vector träng sè W={w1, w2, …, wn}; vµ n lµ sè lîng c¸c
thuéc tÝnh m« t¶ tËp d÷ liÖu D; b lµ mét sè thùc ®îc gäi lµ ®é lÖch. Trong
trêng hîp ®¬n gi¶n nhÊt, ta xÐt sè lîng thuéc tÝnh lµ 2 ký hiÖu lµ A1 vµ A2.
Khi ®ã phÇn tö d÷ liÖu X ®îc biÓu diÔn b»ng X=(x1, x2) víi x1, x2 lµ gi¸ trÞ
t¬ng øng cña thuéc tÝnh A1 vµ A2. NÕu ta coi b còng lµ mét träng sè th× c«ng
thøc 6.18 sÏ ®îc cã d¹ng:
022110 xwxww (6.19)
Khi ®ã c¸c ®iÓm n»m phÝa trªn siªu ph¼ng sÏ tháa m·n ®iÒu kiÖn:
022110 xwxww (6.20)
C¸c ®iÓm n»m phÝa díi siªu ph¼ng sÏ tháa m·n ®iÒu kiÖn:
022110 xwxww (6.21)
Hai siªu ph¼ng tiÕp tuyÕn víi d÷ liÖu vµ song song víi siªu ph¼ng ph©n líp
h cã thÓ ®îc biÓu diÔn b»ng c«ng thøc:
1: 221101 xwxwwH , víi yi=+1 vµ (6.22)
1: 221102 xwxwwH , víi yi=-1 (6.23)
249 250
Do ®ã, nãi mét c¸ch chÝnh x¸c h¬n th× c¸c ®iÓm ë trªn siªu ph¼ng H1 sÏ
®îc ph©n vµo líp +1 vµ c¸c ®iÓm ë díi siªu ph¼ng H2 sÏ ®îc ph©n vµo líp -1.
B»ng c¸ch nh©n c¶ 2 vÕ cña 2 bÊt ®¼ng thøc 6.22 vµ 6.23 víi yi ta ®îc bÊt ®¼ng
thøc chung:
1)( 22110 xwxwwyi , víi i (6.24)
§Ó x¸c ®Þnh 2 siªu ph¼ng H1 vµ H2 ta chØ cÇn dùa vµo c¸c phÇn tö d÷ liÖu
huÊn luyÖn n»m trªn 2 siªu ph¼ng (c¸c phÇn tö d÷ liÖu tháa m·n
1)( 22110 xwxwwyi ).
C¸c phÈn tö d÷ liÖu nµy ®îc gäi lµ c¸c vector hç trî (support vector).
Chóng còng chÝnh lµ c¸c phÇn tö d÷ liÖu n»m gÇn siªu ph¼ng ph©n chia h nhÊt.
H×nh 6.6 minh häa c¸c vector hç trî (chóng lµ c¸c h×nh ®îc b«i ®en) . Trong
trêng hîp tæng qu¸t th× c¸c vector hç trî chÝnh lµ c¸c phÇn tö khã ph©n líp nhÊt
nhng l¹i cung cÊp nhiÒu th«ng tin nhÊt cho viÖc ph©n líp (gióp ta x¸c ®Þnh c¸c
siªu ph¼ng tiÕp tuyÕn). Tõ c«ng thøc 6.24 ë trªn chóng ta cã thÓ suy ra c«ng
thøc tÝnh ®é lín cña lÒ. Kho¶ng c¸ch tõ mét ®iÓm bÊt kú tõ siªu ph¼ng H1 ®Õn
siªu ph¼ng ph©n líp h lµ W
1, trong ®ã W lµ chuÈn Euclidean cña W:
222
21 ... nwwwWWW (6.25)
T¬ng tù kho¶ng c¸ch tõ mét ®iÓm bÊt kú tõ siªu ph¼ng H2 ®Õn siªu ph¼ng
ph©n líp h còng lµ W
1, vµ ®é lín cña lÒ sÏ lµ
W
2. ViÖc t×m ra siªu ph¼ng cã
lÒ lín nhÊt ngêi ta dùa vµo viÖc gi¶i c«ng thøc 6.24, viÖc nµy cã thÓ gi¶i quyÕt
b»ng bµi to¸n tèi u toµn ph¬ng låi (convex quadratic optimization). Chi tiÕt
c¸ch gi¶i bµi to¸n nµy sÏ kh«ng ®îc tr×nh bµy trong khu«n khæ cuèn gi¸o tr×nh
nµy.
H×nh 6.6 Minh häa vector hç trî
Sau khi t×m ®îc siªu ph¼ng cã lÒ lín nhÊt MMH, siªu ph¼ng nµy cã thÓ
®îc viÕt l¹i dùa trªn c«ng thøc Lagrangian nh sau:
l
i
Tiii
T bXXyXf1
0)( 6.26
trong ®ã yi lµ nh·n cña c¸c vector hç trî Xi ; XT lµ mét phÇn tö d÷ liÖu
kiÓm tra; ¸i vµ b0 lµ c¸c sè thùc, chóng lµ c¸c tham sè ®îc x¸c ®Þnh th«ng qua
qu¸ tr×nh tèi u; vµ l lµ sè lîng c¸c vector hç trî.
Cho mét phÇn tö d÷ liÖu míi XT nÕu sign(f(XT )) =+1 th× phÇn tö XT n»m
trªn siªu ph¼ng MMH, SVM sÏ dù ®o¸n nh·n cña XT lµ +1, ngîc l¹i nã sÏ dù
®o¸n XT thuéc líp -1.
6.3.2 Trêng hîp d÷ liÖu kh«ng thÓ ph©n t¸ch tuyÕn tÝnh
Trong thùc tÕ ta cã thÓ gÆp nhiÒu miÒn d÷ liÖu kh«ng thÓ ph©n t¸ch mét
c¸ch tuyÕn tÝnh nh trong h×nh 6.7. Víi vÝ dô minh häa nµy, ta thÊy kh«ng thÓ
tån t¹i mét siªu ph¼ng nµo cã thÓ ph©n t¸ch tËp d÷ liÖu (®îc ký hiÖu b»ng c¸c
h×nh trßn rçng vµ h×nh trßn ®îc t« ®en) thµnh 2 nöa. Tuy nhiªn SVM cã thÓ më
251 252
réng ®Ó ph©n líp ®îc c¸c d÷ liÖu kh«ng thÓ ph©n t¸ch tuyÕn tÝnh (linearly
inseparable data hay non-linearly separable data) hay gäi ®¬n gi¶n lµ d÷ liÖu
kh«ng tuyÕn tÝnh (nonlinear data) hay d÷ liÖu phi tuyÕn. SVM më réng nµy cã
kh¶ n¨ng t×m ®îc ranh ríi (boundary) ph©n líp, hay siªu diÖn kh«ng tuyÕn tÝnh
(nonlinear hypersurface) (hay siªu diÖn phi tuyÕn) tõ kh«ng gian d÷ liÖu ®Çu
vµo.
SVM ®îc më réng ®Ó xö lý d÷ liÖu phi tuyÕn theo 2 bíc chÝnh nh sau:
1. Bíc ®Çu tiªn chóng ta chuyÓn kh«ng gian d÷ liÖu ®Çu vµo thµnh mét
kh«ng gian d÷ liÖu cã sè chiÒu lín h¬n b»ng mét ¸nh x¹ kh«ng tuyÕn
tÝnh (¸nh x¹ phi tuyÕn). Cã rÊt nhiÒu ¸nh x¹ phi tuyÕn cã thÓ ®îc sö
dông trong bíc nµy (sÏ ®îc tr×nh bµy ë díi).
2. Khi d÷ liÖu ®· ®îc chuyÓn sang kh«ng gian cã sè chiÒu lín h¬n, bíc
tiÕp theo ta t×m siªu ph¼ng tuyÕn tÝnh ®Ó ph©n líp d÷ liÖu trªn kh«ng
gian míi.
§Ó minh häa cho ph¬ng ph¸p xö lý cña SVM ta cã thÓ xem minh häa
trong h×nh 6.8, trong ®ã h×nh 6.8 a) m« t¶ kh«ng cña gian d÷ liÖu ®Çu vµo (nã
®îc biÓu diÔn b»ng kh«ng gian 2 chiÒu), râ rµng víi ph©n bè d÷ liÖu nh thÕ
nµy th× ta kh«ng thÓ dïng mét siªu ph¼ng ®Ó ph©n t¸ch 2 líp ra thµnh 2 phÇn ®éc
lËp nhau. Sau khi sö dông hµm ¸nh x¹, kh«ng gian d÷ liÖu ®Çu vµo sÏ ®îc
chuyÓn sang kh«ng gian míi cã sè chiÒu cao h¬n (3 chiÒu), ®Æc biÖt trong kh«ng
gian d÷ liÖu míi nµy ta cã thÓ sö dông mét siªu ph¼ng ®Ó ph©n t¸ch d÷ liÖu
thµnh 2 líp.
H×nh 6.7 Trêng hîp d÷ liÖu kh«ng thÓ ph©n t¸ch b»ng mét siªu ph¼ng
a) Kh«ng gian ban ®Çu (2 chiÒu) b) Kh«ng gian míi (3 chiÒu)
H×nh 6.8 Hµm ¸nh x¹ tõ d÷ liÖu phi tuyÕn sang d÷ liÖu tuyÕn tÝnh
VÝ dô trong mét miÒn d÷ liÖu 3 chiÒu, mét phÇn tö d÷ liÖu sÏ ®îc biÓu
diÔn b»ng vector X=(x1, x2, x3), sau khi sö dông mét hµm ¸nh x¹ « sang kh«ng
gian míi cã 6 chiÒu, phÇn tö X sÏ biÕn thµnh Z, sao cho Z=«(X)=(x1, x2, x3,
x1*x1, x1*x2, x1*x3). Gi¶ sö sau khi biÕn ®æi, d÷ liÖu trong kh«ng gian míi sÏ cã
thÓ ph©n líp tuyÕn tÝnh, vµ ta cã thÓ dïng mét siªu ph¼ng ®Ó ph©n t¸ch d÷ liÖu
thµnh 2 nöa, khi ®ã siªu ph¼ng h sÏ ®îc biÓu diÔn b»ng c«ng thøc
h(Z)=W*Z+b, trong ®ã W lµ vector träng sè vµ Z lµ vector biÓu diÔn d÷ liÖu
trong kh«ng gian míi vµ b lµ mét sè thùc gièng nh c«ng thøc biÓu diÔn siªu
253 254
ph¼ng 6.18. Khi diÔn gi¶i c«ng thøc nµy ra ta cã c«ng thøc biÓu diÔn siªu ph¼ng
lµ:
h(Z)=w1x1 + w2 x2 + w3 x3 + w4 x1*x1+ w5x1*x2+w6 x1*x3+b
=w1z1 + w2 z2 + w3 z3 + w4 z4+ w5z5+w6 z6+b
Tuy chóng ta ®· më réng thªm søc m¹nh cña SVM, nhng chóng ta l¹i cã
thªm vÊn ®Ò. Cô thÓ lµ ®é phøc t¹p thuËt to¸n sÏ t¨ng lªn bëi v× ta ph¶i sö dông
thªm hµm ¸nh x¹. RÊt may lµ tån t¹i gi¶i ph¸p cho vÊn ®Ò nµy, chó ý c«ng thøc
6.25, ta ph¶i thùc hiÖn phÐp nh©n tÝch v« híng XiXT (trong ®ã Xi vµ XT ®Òu lµ
c¸c vector trong kh«ng gian d÷ liÖu ban ®Çu) hay viÕt XiXj cho ®¬n gi¶n:
k
jkikji xxXX * , trong ®ã xik lµ c¸c gi¸ trÞ biÓu diÔn phÇn tö d÷ liÖu Xi
vµ xjk lµ c¸c gi¸ trÞ biÓu diÔn phÇn tö d÷ liÖu Xj.
Khi chuyÓn sang kh«ng gian míi, tÝch v« híng trªn sÏ ®îc tÝnh to¸n
b»ng «(Xi)«(Xj) trong ®ã « lµ hµm ¸nh x¹. Tuy nhiªn, mét mÑo to¸n häc rÊt hay
ë ®©y lµ, thay v× tÝnh tÝch v« híng trªn d÷ liÖu ë kh«ng gian d÷ liÖu míi, ta sö
dông th× ta cã thÓ sö dông mét hµm nh©n (kernel function) K cho kÕt qu¶ t¬ng
tù nh sau:
)()(),( jiji XΦXΦXXK (6.27)
B»ng c¸ch sö dông hµm t¬ng ®¬ng nµy, th× ë bÊt kú ®©u xuÊt hiÖn
«(Xi)«(Xj) th× ta thay thÕ b»ng hµm K(Xi,Xj). Do ®ã, viÖc tÝnh to¸n vÒ b¶n chÊt
sÏ ®îc thùc hiÖn trªn kh«ng gian d÷ liÖu ban ®Çu – kh«ng gian cã kh¶ n¨ng cã
sè chiÒu nhá h¬n nhiÒu. Sau khi sö dông hµm nh©n thay thÕ, ta cã thÓ sö dông
thuËt to¸n t×m kiÕm siªu ph¼ng ph©n líp mµ còng kh«ng cÇn quan t©m ®Õn ¸nh
x¹ biÕn ®æi cô thÓ lµ g×. C¸c ®Æc ®iÓm cña hµm nh©n cã thÓ sö dông ®Ó thay thÕ
hµm nh©n tÝch v« híng ®· ®îc nghiªn cøu. Díi ®©y xin tr×nh bµy mét sè hµm
nh©n phæ biÕn, nã thêng ®îc cµi ®Æt trong c¸c gãi phÇn mÒm cµi ®Æt gi¶i thuËt
SVM (ch¼ng h¹n nh th viÖn libSVM20, hay th viÖn Weka21):
20 http://www.csie.ntu.edu.tw/~cjlin/libsvm/
21 http://sourceforge.net/projects/weka/
1. Hµm nh©n ®a thøc cÊp h:
h
jiji XXXXK )1(),( (6.28)
2. Hµm nh©n Gaussian radial c¬ b¶n:
222/
),(ji XX
ji eXXK
(6.29)
3. Hµm nh©n ®a sigmoid
)tanh(),( jiji XXXXK (6.30)
Mét sè hµm nh©n kh¸c ta cã thÓ tham kh¶o vµ thö nghiÖm tõ bé phÇn mÒm
cµi ®Æt gi¶i thuËt SVM cã tªn lµ Accord.NET22 .
VÊn ®Ò thø 2 lµ liÖu cã tån t¹i mét hµm nh©n nµo cã thÓ biÕn c¸c tËp d÷
liÖu phi tuyÕn bÊt kú sang kh«ng gian d÷ liÖu tuyÕn tÝnh. C©u tr¶ lêi cã lÏ lµ
kh«ng, tïy vµo tõng lo¹i d÷ liÖu mµ sÏ cã mét hoÆc mét sè hµm nh©n phï hîp.
Trong nhiÒu trêng hîp ta ph¶i chän thö nhiÒu hµm nh©n kh¸c nhau ®Ó chän ra
hµm nh©n phï hîp víi tËp d÷ liÖu ®ang xö lý nhÊt.
6.3.3 Ph©n líp ®a líp víi SVM
VÊn ®Ò cuèi cïng lµ thuËt to¸n SVM tr×nh bµy ë trªn chØ ho¹t ®éng víi d÷
liÖu cã 2 líp, trong thùc tÕ sè lîng líp cña d÷ liÖu cã thÓ rÊt lín. RÊt may lµ
còng ®· cã gi¶i ph¸p ®Ó më réng SVM cho bµi to¸n ph©n líp cã nhiÒu líp.
Bµi to¸n ph©n líp c©u hái yªu cÇu mét bé ph©n líp ®a líp do ®ã cÇn c¶i
tiÕn SVM c¬ b¶n (ph©n líp nhÞ ph©n) thµnh bé ph©n líp ®a líp.
Mét trong nh÷ng ph¬ng ph¸p c¶i tiÕn ®ã lµ sö dông thuËt to¸n 1-against-all [Hsu02, Milgram06]. ý tëng c¬ b¶n lµ chuyÓn bµi to¸n ph©n líp
nhiÒu líp thµnh nhiÒu bµi to¸n ph©n líp nhÞ ph©n nh sau:
22 http://crsouza.blogspot.com/2010/03/kernel-functions-for-
machine-learning.html
255 256
Gi¶ sö tËp d÷ liÖu mÉu 1 1( , ),..., ( , )m mx y x y víi ix lµ mét vector n
chiÒu vµ iy Y lµ nh·n líp ®îc g¸n cho vector ix (cã m nh·n líp
kh¸c nhau)
BiÕn ®æi tËp Y ban ®Çu thµnh m tËp cã hai líp con
}}{,{ iii yYyZ
¸p dông SVM ph©n líp nhÞ ph©n c¬ b¶n víi m tËp iZ ®Ó x©y dùng siªu
ph¼ng cho ph©n líp nµy. Nh vËy ta sÏ cã m bé ph©n líp nhÞ ph©n.
Bé ph©n líp víi sù kÕt hîp cña m bé ph©n líp trªn ®îc gäi lµ bé ph©n líp
®a líp më réng víi SVM. Ngoµi ra cßn cã mét gi¶i ph¸p ph©n líp ®a líp kh¸c lµ
one-against-one, ®éc gi¶ cã thÓ tham kh¶o chi tiÕt t¹i [Hsu02, Milgram06].
6.4. ThuËt to¸n ph©n líp kNN
M« h×nh chung cña c¸c thuËt to¸n häc cã gi¸m s¸t lµ gi¶i thuËt sÏ ph©n tÝch
d÷ liÖu huÊn luyÖn ®Ó t×m ra m« h×nh biÓu diÔn d÷ liÖu, sau ®ã ta cã thÓ dïng
mét tËp d÷ liÖu kh¸c ®Ó kiÓm thö ®é chÝnh x¸c cña gi¶i thuËt nh minh häa trªn
h×nh 6.9. Nh m« t¶ ë trªn h×nh, tËp d÷ liÖu huÊn luyÖn sÏ ®îc sö dông ®Ó t¹o
ra m« h×nh (trong qu¸ tr×nh huÊn luyÖn gi¶i thuËt). Cã mét sè gi¶i thuËt l¹i
kh«ng hÒ tån t¹i giai ®o¹n häc ®Ó t¹o ra m« h×nh, mµ nã chØ ®¬n thuÇn lµ sö
dông tËp d÷ liÖu huÊn luyÖn phôc vô cho giai ®o¹n dù ®o¸n nh·n cña d÷ liÖu sau
nµy. Hay nãi mét c¸ch kh¸c m« h×nh cña gi¶i thuËt thuéc líp nµy chÝnh lµ tËp d÷
liÖu huÊn luyÖn. Nh÷ng gi¶i thuËt nµy ®îc liÖt kª vµo líp gi¶i thuËt lêi häc
(lazy learner). §Æc ®iÓm cña líp gi¶i thuËt nµy lµ nã kh«ng tèn thêi gian ®Ó häc,
tuy nhiªn giai ®o¹n ph©n líp cña nã l¹i bÞ “tr¶ gi¸”. Th«ng thêng c¸c gi¶i thuËt
lêi häc sÏ cÇn ph¶i tÝnh to¸n nhiÒu trong qu¸ tr×nh ph©n líp. Cã thÓ ®©y lµ
nhîc ®iÓm lín nhÊt cña líp gi¶i thuËt lêi häc, v× khi tËp d÷ liÖu huÊn luyÖn lµ
rÊt lín th× chi phÝ khi ph©n líp sÏ cµng cao.
H×nh 6.9 C¸c bíc trong m« h×nh häc m¸y cã gi¸m s¸t
Tuy nhiªn mét trong nh÷ng u ®iÓm cña viÖc “lêi häc” lµ nã hç trî xö lý
d÷ liÖu mét c¸ch gia t¨ng (incremental). Cô thÓ lµ víi c¸c gi¶i thuËt cÇn ph¶i
huÊn luyÖn th× khi d÷ liÖu huÊn luyÖn thay ®æi, th× ta ph¶i huÊn luyÖn l¹i gi¶i
thuËt ®Ó t¹o ra m« h×nh míi t¬ng øng víi d÷ liÖu míi. Tuy nhiªn víi gi¶i thuËt
lêi häc th× cho dï d÷ liÖu huÊn luyÖn cã thay ®æi th× còng kh«ng ph¶i mÊt c«ng
huÊn luyÖn.
Mét trong nh÷ng gi¶i thuËt thuéc líp gi¶i thuËt lêi häc lµ gi¶i thuËt k
ngêi l¸ng giÒng gÇn nhÊt (k nearest neighbors) viÕt t¾t lµ kNN vµ gi¶i thuËt
case-based reasoning. Gi¸o tr×nh nµy sÏ tr×nh bµy chi tiÕt gi¶i thuËt kNN.
Khi ®a mét phÇn tö d÷ liÖu míi, gi¶i thuËt sÏ t×m k phÇn tö d÷ liÖu l¸ng
giÒng gÇn nã nhÊt (k nearest neighbors), sau ®ã dùa trªn nh·n (líp) cña c¸c l¸ng
giÒng nµy mµ nã sÏ quyÕt ®Þnh nh·n (líp) cña phÇn tö d÷ liÖu míi lµ thuéc líp
nµo. Trêng hîp ®¬n gi¶n nhÊt lµ ta chØ t×m mét phÇn tö gÇn phÇn tö míi nhÊt,
nh·n cña phÇn tö míi sÏ ®îc g¸n lµ nh·n cña phÇn tö t×m ®îc. §Ò t×m c¸c
phÇn tö l¸ng giÒng gÇn nhÊt ta cÇn ®Þnh nghÜa ®é ®o nµo ®ã, mét trong c¸c ®é ®o
®iÓn h×nh lµ ®é ®o kho¶ng c¸ch Euclide. Gi¶ sö cã 2 phÇn tö d÷ liÖu X1=(x11,
x12, …, x1n) vµ X2=(x21, x22, …, x2n), ®é ®o kho¶ng c¸ch Euclide ®îc tÝnh b»ng
c«ng thøc:
n
iii xxXXdist
1
22121 )(),( (6.31)
257 258
Tõ c«ng thøc 6.31, ta nhËn thÊy nÕu c¸c thuéc tÝnh kh¸c nhau cã miÒn gi¸
trÞ kh¸c nhau th× cã thÓ ®é chÝnh x¸c cña ®é ®o sÏ kh«ng chÝnh x¸c. VÝ dô thuéc
tÝnh thu nhËp cã miÒn gi¸ trÞ lín h¬n nhiÒu so víi thuéc tÝnh tuæi, hay thuéc tÝnh
sè lîng con. Khi ®ã chØ cÇn mét ®é chªnh lÖch nhá cña thuéc tÝnh thu nhËp
còng lµm thay ®æi gi¶ trÞ cña ®é ®o kho¶ng c¸ch. §Ó lµm cho c¸c thuéc tÝnh cã
“¶nh hëng” ngang nhau ®Õn ®é ®o kho¶ng c¸ch, ta cã thÓ chuÈn hãa d÷ liÖu c¸c
thuéc tÝnh sö dông c«ng thøc sau ®Ó chuyÓn gi¸ trÞ v cña mét thuéc tÝnh A sang
gi¸ trÞ v’ cã miÒn gi¸ trÞ n»m trong kho¶ng [0, 1]:
AA
A
minmax
minvv
' (6.32)
trong ®ã minA vµ maxA lµ gi¸ trÞ nhá nhÊt vµ lín nhÊt cña thuéc tÝnh A.
Trêng hîp thuéc tÝnh biÓu diÔn d÷ liÖu kh«ng ph¶i lµ d÷ liÖu liªn tôc mµ
lµ d÷ liÖu rêi r¹c (ch¼ng h¹n thuéc tÝnh mµu nã cã miÒn gi¸ trÞ lµ mét danh s¸ch
c¸c lo¹i mµu). Khi ®ã ta cã thÓ gi¶i quyÕt nh sau: gi¶ sö x1i vµ x2i lµ gi¸ trÞ rêi
r¹c (biÓu diÔn thuéc tÝnh A) cña 2 phÇn tö d÷ liÖu X1 vµ X2, th×:
ii
ii
ii xx
xxxx
21
21
21 khi 1
khi 0 (6.33)
Râ rµng víi c«ng thøc nµy th× ta cã thÓ ¸p dông c«ng thøc 6.31 víi d÷ liÖu
rêi r¹c. Trong nhiÒu trêng hîp ta còng cã thÓ sö dông ®é ®o t¬ng tù (thay v×
®é ®o kho¶ng c¸ch) ®Ó t×m ra c¸c phÇn tö l¸ng giÒng gÇn nhÊt.
VÊn ®Ò tiÕp theo lµ x¸c ®Þnh gi¸ trÞ k nh thÕ nµo ®Ó ta cã thÓ thu ®îc kÕt
qu¶ ph©n líp tèt nhÊt. Víi trêng hîp ®¬n gi¶n nhÊt th× k=1 (khi ®ã gi¶i thuËt
kNN sÏ ®îc ký hiÖu lµ 1-NN). Khi x¸c ®Þnh ®îc phÇn tö d÷ liÖu gÇn phÇn tö
d÷ liÖu cÇn phÇn líp nhÊt th× bµi to¸n x¸c ®Þnh nh·n l¹i rÊt ®¬n gi¶n v× nã chÝnh
lµ nh·n cña phÇn tö gÇn nhÊt võa t×m ®îc. Tuy nhiªn cã mét vÊn ®Ò khi ta chØ
dùa vµo 1 phÇn tö l¸ng giÒng ®Ò quyÕt ®Þnh nh·n cña phÇn tö d÷ liÖu cÇn ph©n
líp: ®ã lµ trêng hîp phÇn tö l¸ng giÒng gÇn nã nhÊt l¹i lµ phÇn tö nhiÔu (noise),
khi ®ã nh·n thu ®îc sÏ kh«ng chÝnh x¸c. §Ò gi¶i quyÕt vÊn ®Ò nµy th× ta cã thÓ
dïng c¸c ph¬ng ph¸p ®Ó läc c¸c d÷ liÖu nhiÔu, thËm chÝ lµ c¸c thuéc tÝnh nhiÔu
®i.
Tuy nhiªn còng cã mét gi¶i thuËt më réng cña gi¶i thuËt 1-NN, ®ã lµ t¨ng
gi¸ trÞ cña k lªn ®Ó t¹o kh¶ n¨ng ra quyÕt ®Þnh dùa trªn nhiÒu phÇn tö d÷ liÖu.
Th«ng thêng c¸c gi¸ trÞ cña k ®îc chän sÏ lµ c¸c gi¸ trÞ lÎ (®Ó tr¸nh trêng hîp
c¸c l¸ng giÒng cña phÇn tö d÷ liÖu cÇn ph©n líp l¹i thuéc 2 líp kh¸c nhau, vµ sè
lîng c¸c l¸ng giÒng trong mçi líp l¹i b»ng nhau). Víi k=3 vµ cã 3 phÇn tö d÷
liÖu l¸ng giÒng gÇn nhÊt cã nh·n lµ {A, B, A}, khi ®ã ta cã thÓ kÕt luËn lµ phÇn
tö d÷ liÖu cÇn phÇn líp lµ thuéc líp A. Víi k=5, c¸c phÇn tö l¸ng giÒng cã nh·n
lµ {A, B, A, B, B}, th× ta cã thÓ kÕt luËn lµ phÇn tö d÷ liÖu míi thuéc líp B. Tuy
nhiªn viÖc ph©n líp dùa vµo viÖc ®Õm sè nh·n nh thÕ nµy sÏ cã vÊn ®Ò. Cô thÓ
víi trêng hîp k=5, vµ gi¶ sö ®é t¬ng tù t¬ng øng cña 5 l¸ng giÒng nµy lµ
{0.98, 0.67, 0.56, 0.34, 0.23}. Ta cã thÓ nhËn thÊy c¸c phÇn tö l¸ng giÒng 4 vµ 5
cã ®é t¬ng tù rÊt thÊp, do ®ã nÕu ta dùa vµo c¸c phÇn tö d÷ liÖu nµy ®Ó kÕt luËn
nh·n cña phÇn tö d÷ liÖu míi thuéc líp A sÏ kh«ng tin cËy.
Do ®ã ngêi ta ®Ò xuÊt lµ sö dông träng sè cho nh·n cña c¸c phÇn tö l¸ng
giÒng, chóng ta cã gi¶i thuËt míi cã tªn lµ: k ngêi l¸ng giÒng gÇn nhÊt cã ®¸nh
träng sè kho¶ng c¸ch (distance-weighted kNN). Cô thÓ nh·n cña k l¸ng giÒng sÏ
®îc g¸n träng sè, líp cã tæng träng sè lín nhÊt sÏ ®îc dïng ®Ó g¸n cho phÇn
tö cÇn ph©n líp. Träng sè ®¬n gi¶n chÝnh lµ ®é t¬ng tù gi÷a phÇn tõ d÷ liÖu cÇn
ph©n líp X víi phÇn tö l¸ng giÒng Xi lµ sim(X, Xi). Víi vÝ dô k=5 ë trªn th× tæng
träng sè cña c¸c l¸ng giÒng thuéc líp A lµ 0.98+0.56=1.54, vµ tæng träng sè c¸c
nh·n thuéc líp B lµ 0.67+ 0.34+ 0.23=1.24, kÕt qu¶ nµy cho ta quyÕt ®Þnh lµ
phÇn tö cÇn ph©n líp thuéc líp A. Mét sè c«ng thøc tÝnh träng sè kh¸c lµ: 1/(1-
sim(X, Xi)) hay 1/(1-sim(X, Xi))2 . C¸c c«ng thøc nµy ®Òu cã ®Æc ®iÓm chung lµ
gi¸ trÞ cña chóng sÏ t¨ng lªn khi ®é t¬ng tù gi÷a chóng t¨ng lªn. Tuy cã rÊt
nhiÒu ®Ò xuÊt c¶i tiÕn so víi gi¶i thuËt 1-NN tuy nhiªn trong nhiÒu trêng hîp
th× 1-NN vÉn tá ra lµ cã chÊt lîng tèt h¬n c¶.
Mét nhîc ®iÓm cña gi¶i thuËt kNN lµ rÊt chËm khi kÝch thíc cña tËp d÷
liÖu huÊn luyÖn D t¨ng lªn. Ta ph¶i sö dông |D| phÐp so s¸nh ®Ó t×m ra c¸c l¸ng
259 260
giÒng gÇn nhÊt, hay ®é phøc t¹p cña nã lµ O(n). Cã rÊt nhiÒu ®Ò xuÊt ®Ó lµm
gi¶m ®é phøc t¹p cña gi¶i thuËt, mét sè ph¬ng ph¸p ®îc liÖt kª ë díi:
S¾p xÕp tËp d÷ liÖu D ®Çu vµo vµ tæ chøc nã díi d¹ng 1 c©y t×m kiÕm,
khi ®ã ®é phøc t¹p cña nã gi¶m xuèng cßn O(log(n)).
Sö dông c¸c ph¬ng ph¸p song song hãa
LÊy mÉu tËp d÷ liÖu D ®Ó t¹o mét tËp d÷ liÖu D’ cã kÝch thíc nhá h¬n
Sö dông 1 phÇn ®é ®o kho¶ng c¸ch (partial distance), viÖc tÝnh to¸n
kho¶ng c¸ch chØ dùa trªn mét tËp con c¸c thuéc tÝnh, nÕu gi¸ trÞ thu
®îc lín h¬n 1 ngìng nµo ®ã th× ta sÏ kh«ng tÝnh to¸n tiÕp phÇn tö d÷
liÖu hiÖn t¹i n÷a (v× nã cã kho¶ng c¸ch qu¸ xa), vµ phÇn tö d÷ liÖu tiÕp
theo sÏ ®îc xö lý.
Ph¬ng ph¸p hiÖu chØnh (editing): chóng ta lo¹i bá c¸c phÇn tö d÷ liÖu
(®· ®îc chøng minh) lµ v« nghÜa trong qu¸ tr×nh ph©n líp. Ph¬ng
ph¸p nµy cßn cã c¸c tªn kh¸c lµ tØa (pruning) hay c« ®äng hãa
(condensing) v× chóng lµm gi¶m sè lîng phÇn tö d÷ liÖu trong tËp huÊn
luyÖn.
6.5. §¸nh gi¸ c¸c gi¶i thuËt ph©n líp
Nh ®· ®Ò cËp ë trªn, tríc khi ®a bé ph©n líp vµo øng dông, chóng ta
cÇn ph¶i biÕt ®îc ®é chÝnh x¸c cña nã cã ®¸p øng ®îc yªu cÇu trong miÒn d÷
liÖu cô thÓ nµo ®ã hay kh«ng. §Ó tÝnh to¸n c¸c ®é ®o ®¸nh gi¸ tra sö dông ma
trËn lÉn lén nh b¶ng 6.2, trong ®ã TP (true positive) lµ sè lîng c¸c phÇn tö
®îc dù ®o¸n ®óng líp +1; FN (false negative) lµ sè lîng c¸c phÇn tö ®o¸n
nhÇm tõ -1 sang +1; FP (false positive) lµ sè lîng c¸c phÇn tö bÞ ®o¸n nhÇm tõ
líp +1 sang -1; vµ TN (true negative) lµ sè lîng phÇn tö ®îc dù ®o¸n ®óng
thuéc líp -1. Chóng ta cã c¸c c«ng thøc ®¸nh gi¸ nh sau:
TØ lÖ lçi tæng thÓ:
%100
FN TN FP TP
FNFP Error (6.34)
B¶ng 6.2 Ma trËn lÉn lén
Líp thùc tÕ
Líp ®îc dù ®o¸n bëi gi¶i thuËt ph©n líp
+1 -1
+1 TP FN
-1 FP TN
§é chÝnh x¸c tæng thÓ:
%100
FN TN FP TP
TNTP Accuracy (6.35)
§èi víi tõng líp th× ta cã thÓ sö dông thªm 2 ®é ®o ®¸nh gi¸ sau:
§é chÝnh x¸c (precision): %100
FPTP
TP P (6.36)
§é håi tëng (recall): %100
FNTP
TP R (6.37)
§é ®o tæng hîp (F-measure) RP
R PF
2 (6.38)
Trong trêng hîp bµi to¸n ph©n líp K líp, c¸c ®é ®o trung b×nh ®îc sö
dông bao gåm trung b×nh mÞn (microaveraging) vµ trung b×nh th«
(macroaveraging).
§é chÝnh x¸c trung b×nh th« (macro-averaging precision):
K
cc
M PK
P1
1 (6.39)
261 262
§é håi tëng trung b×nh th« (macro-averaging recall):
K
cc
M RK
R1
1 (6.40)
§é chÝnh x¸c trung b×nh mÞn (micro-averaging precision):
)(
1
1
K
c cc
K
c c
TNTP
TPP
(6.41)
§é håi tëng trung b×nh mÞn (micro-averaging recall):
)(
1
1
K
c cc
K
c c
FPTP
TPR
(6.42)
trong ®ã PC vµ RC lÇn lît lµ ®é chÝnh x¸c vµ ®é håi tëng cña líp C. C¸c ®é ®o
trung b×nh mÞn ®îc coi lµ c¸c ®é ®o tèt h¬n ®Ó ®¸nh gi¸ chÊt lîng thuËt to¸n
ph©n líp.
Theo m« h×nh ®îc m« t¶ trong h×nh 6.9, tËp d÷ liÖu g¸n nh·n sÏ ®îc chia
lµm 2 phÇn: mét dµnh cho huÊn luyÖn gi¶i thuËt vµ phÇn cßn l¹i ®Ó kiÓm thö
®îc. Ph¬ng ph¸p chia ®¬n gi¶n nhÊt lµ lÊy ngÉu nhiªn kho¶ng 2/3 d÷ liÖu lµm
d÷ liÖu huÊn luyÖn vµ phÇn 1/3 cßn l¹i ®îc dïng lµm d÷ liÖu kiÓm thö. Ph¬ng
ph¸p chia nµy gäi lµ ph¬ng ph¸p holdout. Ph¬ng ph¸p holdout cã thÓ cho
chóng ta kÕt qu¶ kiÓm thö kh«ng chÝnh x¸c v× cã thÓ mét c¸ch chia nµo ®ã lµm
cho chÊt lîng cña gi¶i thuËt rÊt tèt, hoÆc còng cã thÓ lµ rÊt kÐm. Lý do lµ viÖc
lÊy ngÉu nhiªn cã thÓ lµm cho tËp d÷ liÖu huÊn luyÖn kh«ng ®¹i diÖn ®óng cho
miÒn d÷ liÖu ta ®ang xÐt: ch¼ng h¹n cã trêng hîp kh«ng cã mét phÇn tö d÷ liÖu
thuéc vµo líp A nµo ®ã n»m trong tËp huÊn luyªn, vµ kÕt qu¶ lµ chÊt lîng cña
gi¶i thuËt kÐm. §Ó lµm t¨ng ®é chÝnh x¸c khi ®¸nh gi¸ mét gi¶i thuËt ta cã thªm
mét sè ph¬ng ph¸p sau:
Ph¬ng ph¸p lÊy mÉu ngÉu nhiªn (random subsampling): ®©y lµ ph¬ng
ph¸p më réng cña ph¬ng ph¸p holdout, ta thùc hiÖn viÖc chia d÷ liÖu k
lÇn, trong mçi lÇn ta thùc hiÖn viÖc huÊn luyÖn gi¶i thuËt vµ kiÓm thö.
KÕt qu¶ kiÓm thö cña gi¶i thuËt ®îc tÝnh b»ng gi¸ trÞ trung b×nh cña kÕt
qu¶ kiÓm thö trong k lÇn lÆp. Ph¬ng ph¸p nµy cßn cã tªn kh¸c lµ
Repeated holdout.
Ph¬ng ph¸p chia theo tØ lÖ (stratification): trong ph¬ng ph¸p nµy,
ngoµi viÖc chia d÷ liÖu lµ ngÉu nhiªn, nã cßn bæ sung thªm rµng buéc lµ
tØ lÖ d÷ liÖu cña c¸c líp trong c¶ tËp d÷ liÖu huÊn luyÖn vµ kiÓm thö lµ
gièng nhau.
Ph¬ng ph¸p thÈm ®Þnh chÐo k-tËp (k-fold cross-validation): thay v×
chia d÷ liÖu g¸n nh·n thµnh 2 tËp (mét tËp dµnh cho huÊn luyÖn vµ tËp
kiÓm thö), tËp d÷ liÖu huÊn luyÖn ban ®Çu D sÏ ®îc chia ngÉu nhiªn
thµnh k tËp con (®îc gäi lµ fold) kh«ng giao nhau: D1, D2, …, Dk, kÝch
thíc cña c¸c tËp nµy lµ xÊp xØ nhau. Qu¸ tr×nh huÊn luyÖn vµ kiÓm thö
sÏ ®îc thùc hiÖn (lÆp) k lÇn. T¹i mçi lÇn lÆp thø i tËp d÷ liÖu Di sÏ ®îc
dïng lµm tËp d÷ liÖu kiÓm thö vµ (k-1) tËp d÷ liÖu cßn l¹i sÏ ®îc gép
l¹i ijkjD jj
,1, lµm tËp d÷ liÖu huÊn luyÖn. ViÖc lµm nµy sÏ
®¶m b¶o tÝnh ngÉu nhiªn cña d÷ liÖu, h¬n n÷a bÊt kú phÇn tö nµo còng
®îc lµm d÷ liÖu kiÓm thö 1 lÇn vµ lµm d÷ liÖu huÊn luyÖn trong (k-1)
lÇn. Ta cã thÓ kÕt hîp ph¬ng ph¸p thÈm ®Þnh chÐo víi ph¬ng ph¸p
chia theo tØ lÖ ®Ó cã thÓ thu ®îc kÕt qu¶ thÈm ®Þnh chÝnh x¸c h¬n.
Ph¬ng ph¸p Leave-one-out: lµ trêng hîp ®Æc biÖt cña ph¬ng ph¸p
thÈm ®Þnh chÐo k tËp, trong ®ã sè tËp k=n víi n lµ sè lîng c¸c phÇn tö
d÷ liÖu trong tËp D. Víi ph¬ng ph¸p nµy ta thÊy chi phÝ cho viÖc kiÓm
thö lµ rÊt lín nªn nã kh«ng ph¶i lµ ph¬ng ph¸p ®¸nh gi¸ phæ dông.
263 264
6.6. Mét sè øng dông cña c¸c gi¶i thuËt ph©n líp
Gi¶i thuËt ph©n líp cã lÏ ®îc liÖt kª lµ gi¶i thuËt ®îc sö dông nhiÒu nhÊt,
hay cã tÝnh øng dông cao nhÊt trong thùc tÕ. Díi ®©y chØ xin liÖt kª mét sè øng
dông cña nã:
Trong ng©n hµng, khi xem xÐt hå s¬ cña mét kh¸ch hµng cÇn vay vèn, nÕu
ta cã thÓ ph©n líp ®îc kh¸ch hµng nµy thuéc líp “an toµn” hay “m¹o
hiÓm” th× sÏ cã ý nghÜa rÊt quan träng cho ngêi ra quyÕt ®Þnh cho vay
vèn.
Trong chøng kho¸n, nÕu ph©n líp ®îc c¸c m· chøng kho¸n sÏ lªn hay
xuèng th× cã thÓ sÏ lµ bµi to¸n sèng cßn ®èi víi mét nhµ ®Çu t.
Trong c¸c mail server (nh gmail hay yahoo), chóng ta vÉn thÊy c¸c hÖ
thèng läc th r¸c, nã cã kh¶ n¨ng ph©n lo¹i ®îc c¸c th r¸c (spam mail)
vµ ®a vµo thïng r¸c. Chøc n¨ng nµy lµm cho ngêi dïng thÊy rÊt thuËn
tiÖn vµ tr¸nh ®îc bùc m×nh.
Trong c¸c hÖ thèng thu thËp tin (nh trang baomoi.com) th× ta cÇn mét hÖ
thèng tù ®éng ph©n líp c¸c b¶n tin thu ®îc vµ ®a vµo c¸c chuyªn môc
phï hîp.
Trong mét hÖ thèng th viÖn ®iÖn tö, c¸c gi¶i thuËt ph©n líp rÊt quan träng
v× nã gióp ta ph©n lo¹i tù ®éng ®îc c¸c tµi liÖu vµo c¸c líp phï hîp, tõ ®ã
ngêi dïng sÏ t×m ra tµi liÖu m×nh quan t©m ®îc dÔ dµng h¬n.
Trong qu¸ tr×nh xö lý d÷ liÖu c¸c m¸y t×m kiÕm sÏ muèn ph¸t hiÖn ra c¸c
trang r¸c (spam) ®Ó lo¹i bá trong qu¸ tr×nh ®¸nh chØ môc.
C¸c dÞch vô trùc tuyÕn (chia sÎ ¶nh, tin hay video) rÊt cÇn cã mét hÖ ph©n
líp cã kh¶ n¨ng ph¸t hiÖn ra c¸c b¶n tin, c¸c h×nh ¶nh hay video cã néi
dung kh«ng phï hîp nh c¸c néi dung dung tôc, hay kh«ng phï hîp víi
v¨n hãa, chÝnh trÞ, …
RÊt nhiÒu bµi to¸n trong xö lý ng«n ng÷ tù nhiªn nh ph©n ®o¹n
(chunking), g¸n nh·n tõ lo¹i (part of speech tagging), thËm chÝ lµ nhËn
d¹ng thùc thÓ tªn (named entity recognition) còng ®Òu cã thÓ biÕn ®æi
thµnh bµi to¸n ph©n líp.
C©u hái vµ bµi tËp
1. TÝnh to¸n têng minh ®é lîi th«ng tin cho c¸c thuéc tÝnh cßn l¹i kh«ng
®îc tÝnh têng minh ë môc 6.2.1.
2. TÝnh to¸n têng minh tØ sè ®é lîi cho c¸c thuéc tÝnh cßn l¹i kh«ng ®îc
tÝnh têng minh ë môc 6.2.2.
3. TÝnh to¸n têng minh tØ sè Gini cho c¸c thuéc tÝnh cßn l¹i kh«ng ®îc
tÝnh têng minh ë môc 6.2.3.
4. Dïng bé ph©n líp DecisionTable trong phÇn mÒm weka ®Ó ph©n líp tËp
d÷ liÖu ®i kÌm vµ ®¸nh gi¶ sö dông ph¬ng ph¸p thÈm ®Þnh chÐo (10-
folds cross-validation).
5. Gi¶ sö trong b¶ng d÷ liÖu 6.1, ta lÊy dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö,
toµn bé c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn. Dïng thuËt to¸n Naive
Bayes ®Ó ph©n líp vµ kiÓm tra xem nã cã ph©n líp ®óng hay kh«ng?
6. Dïng bé ph©n líp NaiveBayes trong phÇn mÒm weka ®Ó ph©n líp tËp d÷
liÖu ®i kÌm vµ ®¸nh gi¶ sö dông ph¬ng ph¸p thÈm ®Þnh chÐo (10-folds
cross-validation).
7. Gi¶ sö trong b¶ng d÷ liÖu 6.1, ta lÊy dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö,
toµn bé c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn. Dïng thuËt to¸n kNN
víi k=1 ®Ó ph©n líp vµ kiÓm tra xem nã cã ph©n líp ®óng hay kh«ng?
265 266
8. Dïng bé ph©n líp KStar trong phÇn mÒm weka ®Ó ph©n líp tËp d÷ liÖu
®i kÌm vµ ®¸nh gi¶ sö dông ph¬ng ph¸p thÈm ®Þnh chÐo (10-folds
cross-validation).
9. Dïng bé ph©n líp LibSVM trong phÇn mÒm weka ®Ó ph©n líp tËp d÷
liÖu ®i kÌm vµ ®¸nh gi¶ sö dông ph¬ng ph¸p thÈm ®Þnh chÐo (10-folds
cross-validation).
10. Cµi ®Æt gi¶i thuËt c©y quyÕt ®Þnh sö dông ®é lîi th«ng tin, sau ®ã ¸p
dông ph©n líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu
kiÓm thö vµ c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.
11. Cµi ®Æt gi¶i thuËt c©y quyÕt ®Þnh sö dông tØ sè ®é lîi, sau ®ã ¸p dông
ph©n líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö
vµ c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.
12. Cµi ®Æt gi¶i thuËt c©y quyÕt ®Þnh sö dông tØ sè Gini, sau ®ã ¸p dông
ph©n líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö
vµ c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.
13. Cµi ®Æt gi¶i thuËt NaiveBayes cho d÷ liÖu rêi r¹c, sau ®ã ¸p dông ph©n
líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö vµ c¸c
dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.
14. Cµi ®Æt gi¶i thuËt NaiveBayes cho d÷ liÖu liªn tôc, sau ®ã ¸p dông ph©n
líp d÷ liÖu ®i kÌm víi phÇn mÒm weka. Chia file d÷ liÖu ra thµnh 2 nöa
theo tØ lÖ 70%/30% lµm d÷ liÖu huÊn luyÖn vµ d÷ liÖu kiÓm thö.
15. Cµi ®Æt gi¶i thuËt kNN (víi k=1), sau ®ã ¸p dông ph©n líp d÷ liÖu ®i
kÌm víi phÇn mÒm weka. Chia file d÷ liÖu ra thµnh 2 nöa theo tØ lÖ
70%/30% lµm d÷ liÖu huÊn luyÖn vµ d÷ liÖu kiÓm thö.
Ch¬ng 7. Ph¬ng ph¸p häc b¸n gi¸m s¸t
7.1. Giíi thiÖu
C¸c thuËt to¸n ®· tr×nh bµy ë ch¬ng 6 cã ®Æc ®iÓm lµ chØ cã thÓ häc tõ d÷
liÖu ®· g¸n nh·n, viÖc t¹o ra c¸c d÷ liÖu g¸n nh·n thêng lµ c«ng viÖc buån tÎ
nhng l¹i tèn c«ng søc. Trong nghiªn cøu cña m×nh Lang [Lang95] ®· chøng
minh r»ng: khi mét ngêi ®äc 1000 bµi b¸o ®Ó g¸n nh·n líp cho chóng, th× mét
gi¶i thuËt ph©n líp dùa trªn tËp d÷ liÖu g¸n nh·n nµy cã thÓ ®¹t ®îc ®é chÝnh
x¸c lµ 50%. Trong nhiÒu hÖ thèng trong thùc tÕ, Ýt ngêi cã ®ñ kiªn nhÉn ®Ó thùc
hiÖn c«ng viÖc g¸n nh·n d÷ liÖu nh trªn vµ ®Æc biÖt lµ thu ®îc mét chÊt lîng
ph©n líp thÊp nh vËy. Chóng ta rÊt muèn cã mét gi¶i thuËt cã thÓ chØ cÇn vµi
chôc d÷ liÖu g¸n nh·n (thay v× vµi ngh×n d÷ liÖu g¸n nh·n) mµ vÉn cã thÓ cho
chóng ta mét bé ph©n líp víi ®é chÝnh x¸c chÊp nhËn ®îc. Ngoµi d÷ liÖu g¸n
nh·n th× trong thùc tÕ c¸c d÷ liÖu cha g¸n nh·n thêng tån t¹i víi sè lîng lín,
ch¼ng h¹n víi bµi to¸n ph©n líp v¨n b¶n, th× nguån d÷ liÖu c¸c trang web tõ
Internet lµ rÊt lín. NÕu tËn dông ®îc c¸c nguån d÷ liÖu cha g¸n nh·n th× sÏ
lµm gi¶m ®îc c«ng søc t¹o d÷ liÖu còng nh lµm t¨ng ®îc chÊt lîng cña c¸c
bé ph©n líp. HiÖn t¹i ®· cã rÊt nhiÒu nghiªn cøu vµ ®Ò xuÊt c¸c gi¶i thuËt cã kh¶
n¨ng sö dông d÷ liÖu g¸n nh·n, ®ång thêi tËn dông c¶ d÷ liÖu cha g¸n nh·n ®Ó
lµm giµu (augment) thªm d÷ liÖu huÊn luyÖn nh»m lµm t¨ng chÊt lîng ph©n
líp. C¸c gi¶i thuËt cã ®Æc ®iÓm nµy ®îc ph©n vµo líp gi¶i thuËt häc b¸n gi¸m
s¸t [Goldman00, Dempster77, Nigam00, Zhu05, Zhu07].
§Ó cã thÓ ph©n biÖt ®îc c¸c lo¹i (líp) gi¶i thuËt: häc cã gi¸m s¸t, kh«ng
gi¸m s¸t vµ b¸n gi¸m s¸t ta cã thÓ xem xÐt c¸c ®Æc ®iÓm sau cña c¸c lo¹i gi¶i
thuËt:
Gi¶i thuËt häc cã gi¸m s¸t: ®Çu vµo cña nã lµ mét tËp d÷ liÖu ®· ®îc
g¸n nh·n {xi, yi}, trong ®ã yi lµ c¸c nh·n t¬ng øng cña phÇn tö d÷ liÖu
xi, hay nãi c¸ch kh¸c mçi mét phÇn tö d÷ liÖu xi ®· ®îc ph©n vµo c¸c
líp cô thÓ yi. NhiÖm vô cña c¸c gi¶i thuËt nµy lµ t×m mèi quan hÖ gi÷a
267 268
d÷ liÖu vµ nh·n ®Ó cã thÓ dïng ®Ó dù ®o¸n nh·n cña mét phÇn tö d÷ liÖu
x míi cha cã nh·n.
Gi¶i thuËt häc kh«ng gi¸m s¸t: ®Çu vµo cña nã lµ mét tËp chØ chøa c¸c
phÇn tö d÷ liÖu {xi} kh«ng cã nh·n, hay nãi c¸ch kh¸c chóng ta kh«ng
biÕt tríc nh·n c¸c phÇn tö d÷ liÖu xi . NhiÖm vô cña c¸c gi¶i thuËt nµy
lµ t×m ra cÊu tróc quan träng cña d÷ liÖu, vµ ph©n d÷ liÖu thµnh c¸c
nhãm cã c¸c ®Æc ®iÓm chung.
C¸c gi¶i thuËt häc b¸n gi¸m s¸t: vÒ yªu cÇu ®Çu ra nã còng gièng gi¶i
thuËt häc cã gi¸m s¸t tøc lµ nã còng ph¶i t×m ra quan hÖ gi÷a d÷ liÖu vµ
nh·n ®Ó cã thÓ dù ®o¸n ®îc c¸c phÇn tö d÷ liÖu míi. Tuy nhiªn sù
kh¸c biÖt ë ®©y lµ ®Çu vµo cho c¸c gi¶i thuËt b¸n gi¸m s¸t lµ mét tËp
nhá c¸c d÷ liÖu cã g¸n nh·n {xi, yi} vµ mét tËp lín c¸c d÷ liÖu kh«ng
g¸n nh·n {xj}, c¸c gi¶i thuËt ph¶i häc ra quan hÖ gi÷a d÷ liÖu vµ nh·n tõ
2 tËp d÷ liÖu nµy. Do ®ã ta cã thÓ ®Þnh nghÜa mét c¸ch kh«ng h×nh thøc
(1) gi¶i thuËt häc b¸n gi¸m s¸t = gi¶i thuËt häc cã gi¸m s¸t + d÷ liÖu kh«ng g¸n nh·n, hoÆc (2) gi¶i thuËt häc b¸n gi¸m s¸t = d÷ liÖu cã g¸n
nh·n + gi¶i thuËt häc kh«ng gi¸m s¸t . Tïy vµo lo¹i gi¶i thuËt häc b¸n
gi¸m s¸t kh¸c nhau mµ nã thuéc ®Þnh nghÜa kh«ng h×nh thøc (1) hay
(2).
Gi¶i thuËt häc b¸n gi¸m s¸t thuéc ®Þnh nghÜa kh«ng h×nh thøc (1) cã m«
h×nh chung nh minh häa ë h×nh 7.1. §Çu vµo cho gi¶i thuËt b¸n gi¸m s¸t lµ mét
tËp nhá d÷ liÖu g¸n nh·n L vµ mét tËp d÷ liÖu cha g¸n nh·n U. TËp d÷ liÖu g¸n
nh·n L (1) sÏ ®îc sö dông ®Ó huÊn luyÖn c¸c gi¶i thuËt ®Ó t¹o ra m« h×nh ban
®Çu (2). M« h×nh nµy sÏ ®îc dïng ®Ó g¸n nh·n c¸c d÷ liÖu cha ®îc g¸n nh·n
U (3) vµ ta thu ®îc tËp d÷ liÖu ®· g¸n nh·n L’ (4). Tïy theo tõng gi¶i thuËt mµ
toµn bé tËp d÷ liÖu L’ hay mét tËp con cña L’, kÕt hîp víi tËp L (5) ®îc dïng
®Ó huÊn luyÖn hay cËp nhËt l¹i m« h×nh cña thuËt to¸n ®Ó t¹o ra m« h×nh míi (6).
Qu¸ tr×nh 3, 4, 5 vµ 6 sÏ ®îc lÆp ®i lÆp l¹i ®Ó lµm t¨ng chÊt lîng ph©n líp cña
gi¶i thuËt. Tïy theo tõng lo¹i gi¶i thuËt häc b¸n gi¸m s¸t mµ ®Çu ra cña nã sÏ lµ
m« h×nh ph©n líp hay lµ mét tËp d÷ liÖu huÊn luyÖn L ®· ®îc bæ sung thªm c¸c
phÇn tö d÷ liÖu g¸n nh·n cã ®é tin cËy. PhÇn tiÕp theo cña ch¬ng 7 sÏ tr×nh bµy
mét sè thuËt to¸n ph©n líp b¸n gi¸m s¸t th«ng dông.
H×nh 7.1 M« h×nh chung cña c¸c gi¶i thuËt b¸n gi¸n s¸t dùa trªn gi¶i thuËt gi¸m s¸t
C¸c thuËt to¸n häc b¸n gi¸m s¸t thêng gi¶ ®Þnh (assumption) r»ng tËp d÷
liÖu cã nh·n L vµ tËp d÷ liÖu cha g¸n nh·n U lµ cã cïng ph©n bè. Víi gi¶ ®Þnh
nµy th× ta míi cã thÓ khai th¸c ®îc c¸c phÇn tö d÷ liÖu cha cã nh·n ®Ó lµm
giµu tËp d÷ liÖu cã nh·n, hay nãi mét c¸ch kh¸c víi gi¶ ®Þnh nµy th× ta míi cã
thÓ sö dông m« h×nh thu ®îc tõ tËp d÷ liÖu g¸n nh·n L ®Ó ph©n líp c¸c phÇn tö
d÷ liÖu trong tËp d÷ liÖu cha cã nh·n U.
Ngoµi c¸ch ph©n lo¹i gi¶i thuËt häc b¸n gi¸m s¸t theo ®Þnh nghÜa kh«ng
h×nh thøc (1) vµ (2) ë trªn, ta cßn cã mét sè c¸ch ph©n lo¹i gi¶i thuËt häc b¸n
gi¸m s¸t kh¸c:
Gi¶i thuËt häc b¸n gi¸m s¸t dùa trªn bé ph©n líp: b¾t ®Çu b»ng gi¶i
thuËt ph©n líp yÕu (weak), lµ gi¶i thuËt ph©n líp cã hiÖu n¨ng thÊp, ta
sÏ dÇn dÇn c¶i thiÖn chÊt lîng cña gi¶i thuËt ph©n líp ®Ó cuèi cïng thu
®îc gi¶i thuËt ph©n líp cã hiÖu n¨ng cao. C¸c gi¶i thuËt thuéc líp nµy
339 340
®Þnh râ rµng víi mét vµi (nªn kh«ng qu¸ con sè 3) môc tiªu cô thÓ. Trong qu¸
tr×nh tiÕn hãa m« h×nh khai ph¸ d÷ liÖu, thµnh phÇn x¸c ®Þnh bµi to¸n khai ph¸
d÷ liÖu trong m« h×nh nµy ngµy cµng ®îc chó träng h¬n, cã nghÜa lµ c«ng viÖc
x¸c ®Þnh bµi to¸n khai ph¸ d÷ liÖu ngµy cµng trë nªn quan träng h¬n. M« h×nh
lÆp khai ph¸ d÷ liÖu [CCGMS98] khuyÕn c¸o ®Æt ra nhiÒu nhÊt ba môc tiªu kinh
doanh cho mét dù ¸n khai ph¸ d÷ liÖu doanh nghiÖp. GÇn ®©y, m« h×nh khai ph¸
d÷ liÖu híng miÒn øng dông [CYZZ10] bao gåm cã 13 bíc th× cã tíi 5 bíc
cã néi dung thùc hiÖn liªn quan tíi vÊn ®Ò x¸c ®Þnh bµi to¸n; ngoµi ba bíc thùc
hiÖn "hiÓu vÊn ®Ò" (P1), "ph©n tÝch rµng buéc" (P2) vµ "®Þnh nghÜa c¸c môc tiªu
ph©n tÝch vµ x©y dùng ®Æc trng" (P3) th× c¸c bíc thi hµnh lÆp (P7, P11) còng
bao gãi vÊn ®Ò x¸c ®Þnh bµi to¸n. §ång thêi, c¸c m« h×nh khai ph¸ d÷ liÖu ®îc
®Ò xuÊt gÇn ®©y còng ngµy cµng nhÊn m¹nh khÝa c¹nh t¬ng t¸c víi chuyªn gia
tri thøc miÒn øng dông; ®«i khi c¸c nh©n viªn khai ph¸ d÷ liÖu cÇn "th¬ng
lîng" víi c¸c chuyªn gia khai ph¸ d÷ liÖu.
Trong miÒn øng dông kinh doanh, ph¸t hiÖn gian lËn, n©ng cao chÊt lîng
dÞch vô kh¸ch hµng, gi¶m chi phÝ dÞch vô... lµ mét sè môc tiªu thêng gÆp cña
c¸c bµi to¸n khai ph¸ d÷ liÖu. H¬n n÷a, khai ph¸ d÷ liÖu trong kinh doanh
thêng theo m« h×nh ®ñ (Sufficiency Paradigm) mµ kh«ng ph¶i theo m« h×nh tèi
u (Efficiency Paradigm). Theo m« h×nh ®ñ, c¸c gi¶i ph¸p khai ph¸ d÷ liÖu tèt
nhÊt ®îc x¸c ®Þnh theo c¸ch chóng lµm viÖc tèt ra sao cïng víi c¸c qu¸ tr×nh
kinh doanh kh¸c ®Ó t¨ng cêng sù g¾n kÕt trong toµn bé chuçi lîi nhuËn mµ
kh«ng ph¶i hoµn to¸n theo tèi ®a hãa hiÖu qu¶ tµi chÝnh theo m« h×nh tèi u. Sù
g¾n kÕt nh vËy cho phÐp c«ng ty chñ ®éng vµ thÝch øng víi sù thay ®æi tõ tri
thøc míi, chø kh«ng ph¶n øng vµ c¶n trë sù thay ®æi.
Nh vËy, tri thøc vµ kü n¨ng ®îc sö dông nh»m x¸c ®Þnh vµ thi thµnh
®îc "m« h×nh ®ñ tèt" (good-enough model) ®Ó khai ph¸ d÷ liÖu trong thùc tiÔn
cã tÇm quan träng ®Æc biÖt [NEM09].
1.1.1.5. Truy vÊn th«ng thêng hoÆc c«ng cô xö lý ph©n tÝch trùc tuyÕn kh«ng thÓ gi¶i ®îc bµi to¸n ®îc ®Æt ra
Khai ph¸ d÷ liÖu kh«ng ph¶i vµ kh«ng thÓ lµ mét "mèt" hoÆc mét "niÒm
tin" c«ng nghÖ mµ khai ph¸ d÷ liÖu ph¶i ®îc ®Æt xøng tÇm ph¸t hiÖn tri thøc
kinh doanh mµ kh«ng ph¶i ®Ó tr¶ lêi cho c¸c c©u hái nghiÖp vô, hay nh c¸ch
nãi d©n gian "dïng dao phay ®Ó c¾t tiÕt gµ" khi tiÕn hµnh khai ph¸ d÷ liÖu. Mét
sè néi dung ph©n biÖt gi÷a bµi to¸n khai ph¸ d÷ liÖu víi c¸c bµi to¸n truy vÊn
hoÆc xö lý ph©n tÝch trùc tuyÕn (Online Analysis Processing: OLAP) ®· ®îc ®Ò
cËp t¹i Ch¬ng 1 vµ Ch¬ng 2. Tríc khi tiÕn hµnh mét dù ¸n khai ph¸ d÷ liÖu,
chóng ta cÇn kiÓm tra, thö nghiÖm mét c¸ch réng r·i xem c¸c ph¬ng tiÖn truy
vÊn th«ng thêng hoÆc c¸c c«ng cô OLAP cã ®¹t ®îc c¸c môc tiªu ®îc ®Æt ra
hay kh«ng. Trong trêng hîp c¸c ph¬ng tiÖn vµ c«ng cô ®· biÕt kh«ng thÓ ®¹t
®îc môc tiªu hoÆc ®¹t môc tiªu nhng chi phÝ lao ®éng qu¸ nhiÒu, vît qu¸
mét ngìng cho phÐp th× míi cÇn tiÕn hµnh dù ¸n khai ph¸ d÷ liÖu.
Yªu cÇu ph©n biÖt sù kh¸c nhau b¶n chÊt khi x¸c ®Þnh bµi to¸n khai ph¸ d÷
liÖu víi bµi to¸n truy vÊn, thèng kª, OLAP th«ng thêng lµ cã tÝnh cèt lâi ®Ó
®¶m b¶o sù thµnh c«ng cña dù ¸n khai ph¸ d÷ liÖu. ChØ trong bèi c¶nh dù ¸n
khai ph¸ d÷ liÖu ®îc xem xÐt c«ng phu th× dù ¸n míi ®îc ®Æt ®óng tÇm cao
cña nã, do ®ã míi huy ®éng ®îc ®ñ tµi nguyªn cÇn thiÕt ®Ó thùc hiÖn qu¸ tr×nh
khai ph¸ d÷ liÖu.
Thùc tiÔn ë ViÖt Nam, nhiÒu trêng hîp vi ph¹m bµi häc nµy: ®Æt bµi to¸n
khai ph¸ d÷ liÖu dï cha tiÕn hµnh khai ph¸ c«ng cô OLAP. Mét nguyªn nh©n
chñ yÕu dÉn tíi sai sãt nh vËy lµ cha ®ñ tri thøc vµ kü n¨ng lµm chñ c¸c
ph¬ng tiÖn truy vÊn th«ng thêng hoÆc c¸c c«ng cô OLAP. H¹n chÕ nµy rÊt hay
x¶y ra víi nh÷ng ngêi míi lµm quen víi lÜnh vùc khai ph¸ d÷ liÖu, ch¼ng h¹n,
lÇm tëng mét sè kÕt qu¶ thèng kª th«ng thêng víi viÖc thùc hiÖn bµi to¸n khai
ph¸ d÷ liÖu. ThËm chÝ, nhiÒu trêng hîp cßn coi nhËn ®Þnh kiÓu "sinh viªn vïng
®ång b»ng häc tèt h¬n sinh viªn vïng s©u vïng xa" nh lµ kÕt qu¶ thùc hiÖn mét
bµi to¸n khai ph¸ d÷ liÖu.
341 342
1.1.1.6. D÷ liÖu ph¶i s½n cã cho khai ph¸ d÷ liÖu
Nh ®· nãi, chóng ta cã c¶m nghÜ r»ng bµi häc nµy lµ rÊt tÇm thêng, tuy
nhiªn, trªn thùc tÕ, d÷ liÖu kh«ng ph¶i lu«n lu«n cã s½n ®Ó khai ph¸ d÷ liÖu. T×nh
huèng ®Çu tiªn dÉn tíi t×nh tr¹ng nµy lµ do d÷ liÖu ®îc lu tr÷ trªn ph¹m vi toµn
bé doanh nghiÖp (cã thÓ ph©n t¸n trªn ph¹m vi rÊt réng vµ cã thÓ ®îc tæ chøc
lu tr÷ díi d¹ng c¸c hÖ thèng di chó), vµ d÷ liÖu ®îc ®Þnh d¹ng rÊt kh¸c nhau.
§Ó d÷ liÖu lµ s½n sµng cho khai ph¸ d÷ liÖu, cÇn dµnh c«ng søc vµ thêi gian thÝch
hîp cho thu thËp d÷ liÖu (Ch¬ng 3) mµ ®iÒu nµy kh«ng ph¶i lu«n ®îc con
ngêi s½n sµng chÊp nhËn. Khi thùc hiÖn bµi to¸n khai ph¸ d÷ liÖu, chóng ta
thêng cã c¶m gi¸c nhµm ch¸n víi c«ng viÖc thu thËp d÷ liÖu mang tÝnh thñ
c«ng, kh«ng cã tÝnh s¸ng t¹o cho nªn chóng ta thêng tù tháa m·n víi lîng d÷
liÖu nµo ®ã mµ chóng ta cho lµ ®· t¬ng ®èi ®Çy ®ñ. VÝ dô, trong bµi to¸n khai
ph¸ d÷ liÖu web liªn quan tíi lÜnh vùc y tÕ vµ ch¨m sãc søc kháe, do nhiÒu
nguyªn nh©n, chóng ta thêng bá qua viÖc nghiªn cøu kü lìng cÊu tróc m¹ng
c¸c trang web liªn quan tíi y tÕ vµ ch¨m sãc søc kháe mµ chØ tËp trung vµo mét
sè ®Þa chØ web mµ chóng ta coi lµ ®iÓn h×nh ®Ó t¶i vÒ néi dung c¸c trang web.
Chóng ta thêng bá qua ph¬ng ph¸p x¸c ®Þnh “danh s¸ch ®Þa chØ nh©n” cña
c¸c thuËt to¸n duyÖt web (crawling).
§«i khi, ë mét sè tæ chøc, d÷ liÖu cho bµi to¸n khai ph¸ d÷ liÖu ph¶i ®îc
tÝch hîp tõ c¸c bé d÷ liÖu do nhiÒu bé phËn n¾m gi÷, tÝnh c¸t cø côc bé t¹i mét
sè bé phËn trong tæ chøc ®ã còng t¹o khã kh¨n cho viÖc thu thËp d÷ liÖu.
T×nh huèng thø hai dÉn tíi t×nh tr¹ng d÷ liÖu cha s½n cã trong trong mét
sè trêng hîp lµ do cã mét sè rµng buéc ph¸p lý ng¨n chÆn viÖc truy cËp d÷ liÖu
nh¹y c¶m.
Khi quyÕt ®Þnh thùc hiÖn mét dù ¸n khai ph¸ d÷ liÖu, cÇn tiÕn hµnh viÖc
cam kÕt ®èi víi c«ng viÖc thu thËp d÷ liÖu mét c¸ch cã hÖ thèng ®Ó d÷ liÖu s½n
sµng cho khai ph¸ d÷ liÖu vµ ®¶m b¶o cam kÕt ®îc thùc hiÖn khi triÓn khai. CÇn
dµnh ®ñ c«ng søc, thêi gian vµ c¬ chÕ cho thu thËp d÷ liÖu ®èi víi t×nh huèng thø
nhÊt hoÆc thùc thi c¸c gi¶i ph¸p khai ph¸ d÷ liÖu víi tÝnh riªng t ®èi víi t×nh
huång thø hai (Môc 10.3 tr×nh bµy chi tiÕt h¬n vÒ khai ph¸ d÷ liÖu víi tÝnh riªng
t).
1.1.1.7. D÷ liÖu ph¶i ®ñ, s¹ch vµ ph¶i liªn quan tíi bµi to¸n khai ph¸ d÷ liÖu
Ch¬ng 2 tr×nh bµy qu¸ tr×nh tiÕn hãa vÒ m« h×nh khai ph¸ d÷ liÖu cho thÊy
tri thøc miÒn øng dông ngµy cµng cã vÞ trÝ quan träng h¬n trong qu¸ tr×nh ph¸t
hiÖn tri thøc tõ d÷ liÖu. Tri thøc miÒn øng dông gióp lµm têng minh bµi to¸n
khai ph¸ d÷ liÖu, do ®ã, ®Þnh râ ®îc tÝnh ®ñ, tÝnh s¹ch vµ tÝnh liªn quan cña d÷
liÖu tíi bµi to¸n khai ph¸ d÷ liÖu. Ch¬ng 3. Tr×nh bµy néi dung bíc tiÒn xö lý
d÷ liÖu d¶m b¶o d÷ liÖu cã chÊt lîng tèt cho qu¸ tr×nh khai ph¸.
NÒn t¶ng d÷ liÖu cho bµi to¸n khai ph¸ d÷ liÖu lµ c¸c CSDL t¸c nghiÖp mµ
chóng ®îc thiÕt kÕ víi môc ®Ých phôc vô ho¹t ®éng nghiÖp vô hµng ngµy vµ
hÇu hÕt trong sè ®ã thêng kh«ng kÌm theo môc ®Ých øng dông khai ph¸ d÷ liÖu
cho nªn viÖc ®¶m b¶o tÝnh liªn quan cña d÷ liÖu s½n cã còng kh«ng lµ mét céng
viÖc dÔ dµng. HiÓu bµi to¸n khai ph¸ d÷ liÖu vµ hiÓu d÷ liÖu ®¶m b¶o tÝnh liªn
quan cña d÷ liÖu víi bµi to¸n khai ph¸ d÷ liÖu.
TÝnh ®ñ cña d÷ liÖu ®îc ®¶m b¶o b»ng viÖc thu thËp d÷ liÖu ®ñ ®¹i diÖn
cho miÒn øng dông. TÝnh s¹ch cña d÷ liÖu ®îc ®¶m b¶o b»ng qu¸ tr×nh hiÓu d÷
liÖu, lµm s¹ch d÷ liÖu, lùa chän ®Æc trng (nh ®· ®Ò cËp t¹i Ch¬ng 2). TÝnh
s¹ch cña d÷ liÖu cã quan hÖ víi tÝnh ®Çy ®ñ khi ®Ó ®¶m b¶o r»ng d÷ liÖu ®ñ mµ
kh«ng d thõa v× d thõa d÷ liÖu cã thÓ g©y ra nhiÔu.
§Ó kiÓm tra c¸c tiªu chÝ nµy ®îc ®¶m b¶o, viÖc tiÕn hµnh mét nghiªn cøu
thÝ ®iÓm ph©n tÝch d÷ liÖu qua mÉu s½n cã lµ rÊt h÷u Ých. Nghiªn cøu thÝ ®iÓm
cÇn ph¶i lµm râ c¸c vÊn ®Ò tån t¹i cho chÊt lîng d÷ liÖu, tõ ®ã íc tÝnh ®îc
thêi gian vµ nç lùc cho tiÒn xö lý d÷ liÖu.
Nh ®· ®Ò cËp t¹i Ch¬ng 2, c«ng viÖc hiÓu vµ chuÈn bÞ d÷ liÖu rÊt mÊt
nhiÒu thêi gian vµ c«ng søc. NhiÒu t¸c gi¶ nhËn ®Þnh r»ng Quy t¾c 80:20 (Quy
t¾c /LuËt Pareto) còng hiÖn diÖn trong pha x©y dùng m« h×nh khai ph¸ d÷ liÖu,
theo ®ã, kho¶ng 80% thêi gian lµ dµnh cho viÖc chuÈn bÞ d÷ liÖu cßn 20% cßn
l¹i lµ dµnh cho viÖc d¹y vµ kiÓm thö m« h×nh. Quy t¾c nµy ®ßi hái tÝnh kiªn tr×
cña c¸c chuyªn viªn khai ph¸ d÷ liÖu.
343 344
1.1.1.8. C¸c tri thøc míi ph¶i cã tÝnh hµnh ®éng
Qu¸ tr×nh khai ph¸ d÷ liÖu cã thÓ t¹o ra tri thøc míi nhng tri thøc ®ã ph¶i
cã tÝnh hµnh ®éng trong ®iÒu kiÖn cña tæ chøc vµ cho ra kÕt qu¶ ®¸p øng môc
tiªu cña tæ chøc. TÝnh hµnh ®éng (hay ¸p dông ®îc) cña mÉu hay ®é ®o hÊp dÉn
®· ®îc ®Ò cËp ë Ch¬ng 2. Tuy nhiªn, viÖc thùc thi c¸c ®é ®o hÊp dÉn míi chØ
cho phÐp nhËn ®Þnh r»ng mÉu ®ã cã thÓ lµ hÊp dÉn mµ kh«ng ph¶i quyÕt ®Þnh
mÉu ch¾c ch¾n cã tÝnh hµnh ®éng.
Do phô thuéc vµo ®iÒu kiÖn cña tæ chøc cho nªn tÝnh hµnh ®éng cña tri
thøc ®èi víi c¸c tæ chøc kh¸c nhau lµ kh¸c nhau. VÝ dô, trong mét c«ng ty tiÕp
thÞ trùc tiÕp, cã thÓ triÓn khai c¸c kÕt qu¶ khai ph¸ d÷ liÖu theo mét sè c¸ch:
- Th«ng qua giao diÖn dµnh riªng tíi c¸c phÇn mÒm øng dông hiÖn cã ®Ó tri
thøc míi truy cËp ®îc ®èi víi ngêi dïng Ýt kinh nghiÖm.
- Tèi u hãa c¸c chiÕn dÞch tiÕp thÞ göi ®i. Víi th trùc tiÕp cã thÓ ®¹t ®îc
mét gi¶m gi¸ 20-40%.
- TriÓn khai kÕt qu¶ trong c¸c kªnh kh¸c, vÝ dô nh trung t©m cuéc gäi. KÕt
qu¶ khai ph¸ d÷ liÖu trùc tuyÕn cã thÓ ®îc dïng cho hép tho¹i ®iÒu khiÓn. NÕu
chóng ta kÕt hîp néi dung d÷ liÖu cña mét cuéc ®èi tho¹i víi c¸c d÷ liÖu phÝa
sau tõ hÖ thèng ho¹t ®éng, chóng ta cã ®îc mét hÖ thèng tiÕp thÞ rÊt m¹nh mÏ.
10.1.2. Bµi häc vÒ triÓn khai dù ¸n
Nada Lavrac vµ céng sù [LMFHL04] tr×nh bµy mét sè nhËn ®Þnh sau ®©y
liªn quan tíi qu¸ tr×nh triÓn khai dù ¸n khai ph¸ d÷ liÖu t¹i c«ng ty:
- HÇu hÕt c¸c chuyªn gia miÒn øng dông (doanh nh©n, qu¶n lý tiÕp thÞ, ®¹i
diÖn b¸n hµng, qu¶n lý ®¶m b¶o chÊt lîng, nh©n viªn an ninh, vv) lµ nh÷ng
ngêi lµm viÖc trong ngµnh c«ng nghiÖp chØ quan t©m ®Õn khai ph¸ d÷ liÖu theo
gãc ®é lµ chóng gióp hä lµm tèt h¬n c«ng viÖc riªng cña hä. Hä kh«ng quan t©m
chi tiÕt kü thuËt vµ cµng kh«ng muèn quan t©m tíi vÊn ®Ò tÝch hîp. ChÝnh v× lý
do nµy mµ cÇn t¹o ra mét c¬ chÕ kÕt hîp hiÖu qu¶ c¸c chuyªn gia khai ph¸ d÷
liÖu víi c¸c chuyªn gia miÒn øng dông.
- øng dông khai ph¸ d÷ liÖu thµnh c«ng cÇn ®îc tÝch hîp hoµn toµn víi
mét øng dông tiÕp thÞ, mét c«ng cô qu¶n lý quan hÖ kh¸ch hµng (Customer
relationship management: CRM), mét m«i trêng qu¶n lý dÞch vô, mét hÖ thèng
kiÓm kª hoÆc mét c«ng cô qu¶n lý triÖu chøng vµ søc kháe. §Ó hoµn thµnh viÖc
tÝch hîp nãi trªn, lêi gi¶i cho bµi to¸n khai ph¸ d÷ liÖu thêng kh«ng ph¶i lµ lêi
gi¶i tèi u chØ cho bµi to¸n khai ph¸ d÷ liÖu mµ cÇn lµ lêi gi¶i ®ñ tèt song cho
phÐp phï hîp víi c¸c bµi to¸n cÇn tÝch hîp ®Ó t¹o ra t¸c ®éng trùc tiÕp vµo môc
tiªu ph¸t triÓn cña tæ chøc.
- §a mét thuËt to¸n thµnh c«ng trong phßng thÝ nghiÖm, ngay c¶ víi d÷
liÖu lÊy tõ thùc tiÔn cuéc sèng, trë thµnh mét øng dông khai ph¸ d÷ liÖu cã hiÖu
qu¶ trong c«ng nghiÖp cã thÓ l¹i ph¶I qua mét qu¸ tr×nh l©u dµi. C¸c vÊn ®Ò nh
hiÖu qu¶ chi phÝ, qu¶n lý, b¶o tr×, tÝch hîp phÇn mÒm, t¸i c«ng nghÖ lao ®éng vµ
qu¸ tr×nh kinh doanh ph¶i ®îc tÝnh to¸n theo suèt qu¸ tr×nh l©u dµi ®ã.
- T¬ng tù nh mäi dù ¸n CNTT kh¸c, toµn bé dù ¸n khai ph¸ d÷ liÖu ph¶i
nhËn ®îc sù hç trî cña ngêi qu¶n lý hµng ®Çu cña c«ng ty, cÇn ®îc thùc hiÖn
bëi c¸c nhãm nhá víi tÝch hîp néi bé m¹nh vµ mét phong c¸ch qu¶n lý linh
ho¹t. VÊn ®Ò chñ së h÷u cÇn x¸c ®Þnh râ ngêi chÞu tr¸ch nhiÖm dù ¸n khai ph¸
d÷ liÖu. Ph¬ng ¸n tèt lµ ngêi chÞu tr¸ch nhiÖm dù ¸n kh«ng ph¶i lµ mét nhµ
ph©n tÝch kü thuËt hoÆc chuyªn gia t vÊn mµ ph¶i lµ mét ngêi cã tr¸ch nhiÖm
kinh doanh trùc tiÕp, vÝ dô nh, mét ngêi thuéc m«i trêng b¸n hµng hoÆc tiÕp
thÞ. §iÒu nµy mang l¹i lîi Ých cho tÝch hîp bªn ngoµi ®èi víi gi¶i ph¸p khai ph¸
d÷ liÖu.
- Dù ¸n khai ph¸ d÷ liÖu gãp phÇn t¨ng cêng tri thøc tæ chøc v× vËy viÖc
thùc hiÖn c¸c dù ¸n thÝ ®iÓm víi ®êng cong häc dèc (steep learning curve) cã
tÇm quan träng sèng cßn. Ngêi sö dông hÖ thèng khai ph¸ d÷ liÖu trë nªn thµnh
th¹o chØ víi thêi gian vµ nç lùc ë møc tèi thiÓu. Hoµn vèn ®Çu t d¬ng nªn
®îc hoµn hµnh trong vßng tõ 6 ®Õn 12 th¸ng. KÕt qu¶ øng dông khai ph¸ d÷
liÖu kh«ng chØ lµ vÊn ®Ò kü thuËt phøc t¹p liªn quan ®Õn c¸c nh©n viªn kü thuËt
mµ chñ yÕu lµ t¸c ®éng ®Õn mét nhãm réng lín con ngêi trong tæ chøc, v× vËy,
dù ¸n cÇn ®îc qu¶n lý mét c¸ch chÆt chÏ.
345 346
Sarabjot S. Anand [AGHLRW07] ®Ò cËp tíi vai trß vµ thi hµnh c¸c chuÈn
(c«ng nghiÖp) khi nhóng mét c«ng nghÖ khai ph¸ d÷ liÖu ®øng riªng rÏ vµo c«ng
nghÖ tÝch hîp ®îc truy cËp vµ sö dông réng r·i trong m«i trêng kinh doanh
cña doanh nghiÖp (nãi riªng) vµ trong m«i trêng thùc hiÖn sø m¹ng cña tæ chøc
(nãi chung). C¸c chuÈn ®îc x©y dùng nh»m lµm cho qu¸ tr×nh tÝch hîp nµy
trong suèt vµ minh b¹ch. ChuÈn CRISP-DM (The CRoss-Industry Standard
Process for Data Mining, nh ®· ®Ò cËp t¹i Ch¬ng 2) víi bèn chiÒu ng÷ c¶nh
miÒn øng dông (Application Domain), kiÓu bµi to¸n khai ph¸ d÷ liÖu (Data
Mining Problem Type), khÝa c¹nh kü thuËt (Technical Aspect) vµ c¸c c«ng cô vµ
kü thuËt (Tools and Techniques) ®îc coi lµ mét chuÈn c«ng nghiÖp phæ dông
khi ®a c¸c dù ¸n khai ph¸ d÷ liÖu vµo øng dông thùc tiÔn.
10.1.3. §Æc trng cña chuyªn viªn khai ph¸ d÷ liÖu
Khai ph¸ d÷ liÖu lµ mét lo¹i ho¹t ®éng cã ®é phøc t¹p cao, tèn thêi gian vµ
c«ng søc vµ thêng ®ái hái mét qu¸ tr×nh l©u dµi. Ch¬ng 1 ®· ®Ò cËp tíi mét sè
®Æc trng cña nhµ khoa häc d÷ liÖu mµ vÒ b¶n chÊt hä còng chÝnh lµ chuyªn viªn
khai ph¸ d÷ liÖu. §Ó “thi hµnh s¸ng t¹o ho¹t ®éng kh¶o s¸t vµ ph©n tÝch, t¨ng
cêng t vÊn, hîp t¸c, vµ phèi hîp n¨ng lùc cña nh÷ng ngêi kh¸c ®Ó tiÕn hµnh
nghiªn cøu vµ gi¸o dôc b»ng c¸c bé d÷ liÖu sè; ®i tiªn phong trong viÖc ph¸t
triÓn s¸ng t¹o trong lÜnh vùc c«ng nghÖ c¬ së d÷ liÖu vµ khoa häc th«ng tin, bao
gåm ph¬ng ph¸p trùc quan hãa d÷ liÖu vµ ph¸t hiÖn tri thøc ®Ó ¸p dông vµo c¸c
lÜnh vùc khoa häc vµ gi¸o dôc liªn quan ®Õn c¸c bé d÷ liÖu; thi hµnh mét c¸ch
tèt nhÊt c¶ theo khÝa c¹nh thùc tiÔn lÉn khÝa c¹nh c«ng nghÖ; ®ãng vai trß cè vÊn
®Ó khëi t¹o hoÆc chuyÓn ®æi d÷ liÖu cho c¸c nhµ ®iÒu tra, sinh viªn vµ nh÷ng
ngêi kh¸c cã quan t©m tíi khoa häc d÷ liÖu; thiÕt kÕ vµ thi hµnh c¸c ch¬ng
tr×nh gi¸o dôc vµ tiÕp cËn céng ®ång lµm cho lîi Ých cña c¸c bé d÷ liÖu vµ th«ng
tin khoa häc kü thuËt sè tíi c¸c nghiªn cøu viªn, gi¶ng viªn, sinh viªn vµ c«ng
chóng trong mét ph¹m vi réng nhÊt cã thÓ ®îc”, hä cÇn cã ®Æc trng riªng ®Ó
nhËn ra ®îc c¸c tri thøc h÷u Ých, cÇn thiÕt tõ “nói d÷ liÖu ®å sé”. Gi¸m ®èc
th«ng tin (CIO) ®îc coi nh mét chuyªn viªn khai ph¸ d÷ liÖu cao cÊp mµ ®Æc
trng cña lo¹i chuyªn viªn cao cÊp nµy ®· ®îc giíi thiÖu t¹i Ch¬ng 2. Nh÷ng
®Æc trng ®îc ®Ò cËp díi ®©y liªn quan tíi chuyªn viªn khai ph¸ ®iÓn h×nh.
Theo c¸c chuyªn gia hµng ®Çu vÒ khai ph¸ d÷ liÖu, ngoµi nh÷ng ®Æc trng
cña chuyªn viªn CNTT nãi chung, chuyªn viªn khai ph¸ d÷ liÖu cÇn cã c¸c ®Æc
trng sau ®©y [NM09]:
• TÝnh kiªn tr×: CÇn kiªn tr× "tÊn c«ng" mét vÊn ®Ò khai ph¸ d÷ liÖu mét
c¸ch liªn tôc vµ tõ c¸c gãc ®é kh¸c nhau. CÇn thùc hiÖn viÖc tù ®éng hãa c¸c
bíc cÇn thiÕt, ®Æc biÖt khi thùc hiÖn c¸c bµi kiÓm tra lÊy mÉu l¹i. CÇn huy ®éng
ho¹t ®éng kiÓm tra, ®¸nh gi¸ ngoµi (bao gåm ®¸nh gi¸ chÐo) khi triÓn khai c«ng
viÖc còng nh trong viÖc ®¸nh gi¸ hiÖu qu¶ cña m« h×nh. Ph¶n biÖn kh¸ch quan,
ph¸t hiÖn sai sãt cña m« h×nh, nghiªn cøu c¸c t×nh huèng ph¸ vì m« h×nh lµ c¸c
gi¶i ph¸p cÇn thiÕt khi x©y dùng m« h×nh khai ph¸ d÷ liÖu.
• Th¸i ®é lµm viÖc: Thø nhÊt, c«ng viÖc khai ph¸ d÷ liÖu ®ßi hái tinh thÇn
l¹c quan, tin tëng vµo kÕt qu¶ ph¸t hiÖn tri thøc khi tiÕn hµnh mét qu¸ tr×nh
nhiÒu khã kh¨n nh khai ph¸ d÷ liÖu. Thø hai, cÇn gi÷ mét th¸i ®é ®óng møc vÒ
kÕt qu¶ khai ph¸ d÷ liÖu.
• Lµm viÖc nhãm: Ph¶i hîp t¸c chÆt chÏ víi c¸c chuyªn gia kinh doanh vµ
thèng kª ®Ó cã ®îc tiÕn ®é tèt nhÊt cho dù ¸n. CÇn ®¶m b¶o ch¾c ch¾n r»ng mçi
®èi t¸c ®Òu cã thÓ ph¸t triÓn nghÒ nghiÖp th«ng qua sù thµnh c«ng cña dù ¸n. ChÝ
cã mét nhãm céng t¸c hiÖu qu¶ cña c¸c chuyªn gia khai ph¸ d÷ liÖu, kinh doanh,
thèng kÕ míi t¹o ra ®îc nhËn thøc nh vËy. Kh«ng ph¶i tÊt c¶ mäi ngêi ®·
muèn dù ¸n thµnh c«ng ngay tõ ®Çu. §«i khi, c¸c chuyªn gia kinh doanh e ng¹i
vÒ c¸c bÝ mËt c«ng viÖc, lo l¾ng vÒ c¸c mèi nguy hiÓm tiÒm n¨ng khi dù ¸n khai
ph¸ d÷ liÖu ®µo s©u vµo miÒn ho¹t ®éng cña m×nh.
• TÝnh khiªm tèn: Häc hái tõ nh÷ng ngêi kh¸c (®Æc biÖt lµ c¸c chuyªn gia
miÒn øng dông) ®Ó san lÊp c¸c lç hæng vÒ tri thøc miÒn øng dông còng nh quy
tr×nh tæ chøc cña ®¬n vÞ triÓn khai dù ¸n khai ph¸ d÷ liÖu. TÝnh khiªm tèn gióp
chuyªn viªn khai ph¸ d÷ liÖu hiÓu vÒ miÒn øng dông (nãi riªng hiÓu d÷ liÖu)
toµn diÖn h¬n do thu thËp ®îc th«ng tin toµn diÖn tõ líp réng lín nh÷ng ngêi
cã liªn quan. CÇn cã tinh thÇn thø lçi tèt khi gÆp hiÖn tîng ph¸t biÓu sai cña
347 348
kh¸ch hµng vµ nh÷ng ngêi liªn quan. TÝnh khiªm tèn cßn ®îc thÓ hiÖn trong
viÖc kh«ng coi nh÷ng c«ng nghÖ mµ m×nh ®· n¾m b¾t ®îc lµ ®Æc hiÖu v¹n n¨ng
mµ cÇn ph¸t biÕt lùa chän tõ nhiÒu c«ng nghÖ thay thÕ nhau ®Ó lùa chän ra ®îc
mét c«ng nghÖ phï hîp víi tõng ÷ng bµi to¸n khai ph¸ d÷ liÖu cô thÓ.
10.2. Mét sè lçi thêng gÆp trong khai ph¸ d÷ liÖu
Môc 10.1 ®· giíi thiÖu mét sè bµi häc kinh nghiÖm trong khai ph¸ d÷ liÖu
®îc ®óc kÕt tõ kÕt qu¶ thµnh c«ng hay thÊt b¹i khi triÓn khai c¸c øng dông khai
ph¸ d÷ liÖu. §ång thêi vµ t¬ng øng víi c¸c bµi häc ®ã, c¸c lçi ®iÓn h×nh trong
khai ph¸ d÷ liÖu còng ®îc ph¸t hiÖn. Ch¼ng h¹n, bµi häc vÒ d÷ liÖu ph¶i ®Çy ®ñ,
s¹ch sÏ vµ liªn quan tíi bµi to¸n khai ph¸ d÷ liÖu sÏ ®îc t¬ng øng víi lçi thiÕu
d÷ liÖu. Tuy nhiªn, viÖc tr×nh bµy têng minh c¸c lçi thêng gÆp nhÊt trong khai
ph¸ d÷ liÖu còng lµ mét néi dung hÕt søc cÇn thiÕt ®Ó nh¾c nhë nh÷ng ngêi míi
b¾t ®Çu tham gia triÓn khai dù ¸n khai ph¸ d÷ liÖu. C«ng bè c¸c kÕt qu¶ kh«ng
mong ®îi [CD10], nhËn diÖn vµ c«ng bè c¸c lçi thêng gÆp trong khai ph¸ d÷
liÖu lµ nhøng ho¹t ®éng cã tÇm quan träng trong céng ®ång nh÷ng ngêi nghiªn
cøu vµ triÓn khai trong lÜnh vùc nµy.
Danh s¸ch c¸c lçi thêng gÆp trong ho¹t ®éng khai ph¸ d÷ liÖu ®îc giíi
thiÖu díi ®©y do Robert Nisbet vµ céng sù [NEM09] nhËn diÖn. Theo c¸c t¸c
gi¶, ®Çu tiªn lµ mét danh s¸ch 10 lçi ®iÓn h×nh nhÊt ®îc x¸c ®Þnh, vµ sau ®ã lçi
“thiÕu d÷ liÖu” tëng nh “ai còng biÕt” ®îc bæ sung vµ ®îc ®¸nh chØ sè 0
("kh«ng"). Néi dung môc nµy ®îc tæng hîp tõ tµi liÖu [NEM09] vµ mét sè tµi
liÖu liªn quan kh¸c, trong ®ã cã chuyªn môc “C¸c kÕt qu¶ kh«ng mong ®îi”
(Unexpected results) cña T¹p chÝ ACM SIGKDD Explorations newsletter sè 2, tËp
12 n¨m 2010.
ThiÕu d÷ liÖu
"D÷ liÖu" ®îc ®Ò cËp ë ®©y lµ tËp vÝ dô ®îc chän lµm ®¹i diÖn cho miÒn
d÷ liÖu cña bµi to¸n khai ph¸ d÷ liÖu. TÝnh ®¹i diÖn cña tËp vÝ dô ®ßi hái viÖc
h×nh thµnh tËp vÝ dô ®¸p øng yªu cÇu tËp vÝ dô "duy tr×" cÊu tróc cña miÒn d÷
liÖu mµ cÊu tróc c¬ b¶n nhÊt lµ ph©n bè x¸c suÊt cña d÷ liÖu. Robert Nisbet vµ
céng sù [NEM09] cho mét vÝ dô vÒ t×nh huèng tri thøc tiÒm Èn ®îc vÝ nh "c¸i
kim trong ®èng cã kh«" d÷ liÖu trong bµi to¸n ph¸t hiÖn gian lËn tÝn dông ng©n
hµng. M« h×nh d÷ liÖu ®îc h×nh thµnh tõ tËp vÝ dô mÉu cho phÐp kh«ng bá sãt
c¸c mÉu tiÒm Èn ®ã.
Lçi thiÕu d÷ liÖu xuÊt ph¸t tõ mét sè nguyªn nh©n. Thø nhÊt, mét vÝ dô
thêng ®îc t¹o ra b»ng ph¬ng ph¸p thñ c«ng víi nh÷ng thao t¸c dÔ g©y nhµm
ch¸n cho ngêi thùc hiÖn. Thø hai, "hiÓu d÷ liÖu" (nh tr×nh bµy ë Ch¬ng 3) lµ
mét c«ng viÖc nghiªn cøu vµ triÓn khai c«ng phu, trong ®ã ®¸ng chó ý lµ c«ng
viÖc kiÓm nghiÖm gi¶ thiÕt m« h×nh d÷ liÖu. Kh«ng hiÓu tèt d÷ liÖu dÉn ®Õn t×nh
huèng nhËn ®îc mét tËp vÝ dô víi kÝch thíc lín song vÉn trong t×nh tr¹ng
thiÕu d÷ liÖu do chän nhÇm (thõa) vÝ dô võa tèn c«ng søc võa cã thÓ lµm sai lÖch
m« h×nh d÷ liÖu.
Häc b¸n gi¸m s¸t lµ mét ®Þnh híng gi¶i ph¸p tèt ®Ó kh¾c phôc lçi thiÕu d÷
liÖu, tuy nhiªn, nã kh«ng ph¶i lµ gi¶i ph¸p v¹n n¨ng ¸p dông ®îc cho mäi
trêng hîp [Gold10, Zhu08]. Trong nh÷ng trêng hîp ¸p dông ®îc gi¶i ph¸p
häc b¸n gi¸m s¸t, "hiÓu d÷ liÖu" cµng cã vai trß ®Æc biÖt quan träng.
CÇn ph©n biÖt kh¸i niÖm tËp d÷ liÖu trong t×nh huèng ®¸nh gi¸ mét thuËt
to¸n khai ph¸ d÷ liÖu víi t×nh huèng triÓn khai mét dù ¸n khai ph¸ d÷ liÖu.
Trong t×nh huèng ®Çu tiªn, c¸c bé d÷ liÖu "chuÈn" cña c«ng ®ång nghiªn cøu
®îc c«ng bè trªn Internet lµ mét lùa chän tèt. T×nh huèng thø hai c«ng phu
h¬n, võa ph¶i sö dông c¸c bé d÷ liÖu chuÈn võa ph¶i hiÓu d÷ liÖu miÒn øng dông
®Ó h×nh thµnh tËp vÝ dô mÉu.
Qu¸ chó träng vµo viÖc häc
NhÊn m¹nh c«ng viÖc tinh chØnh m« h×nh theo d÷ liÖu ®Ó nhËn ®îc mét
m« h×nh tèt theo tËp vÝ dô lµ mét biÓu hiÖn cña t×nh huèng qu¸ chó träng vµo
viÖc häc. ViÖc lµm nh vËy thêng dÉn ®Õn t×nh huèng "qu¸ khíp" (overfitting)
gi÷a m« h×nh vµ d÷ liÖu bëi v× dï bíc hiÓu d÷ liÖu cã ®îc tiÕn hµnh c«ng phu
®Õn mÊy th× tËp vÝ dô còng kh«ng thÓ ®¹i diÖn ®Çy ®ñ cho d÷ liÖu miÒn øng
dông. Khi chó träng lµm khÝt m« h×nh víi d÷ liÖu häc, chóng ta cã thiªn híng
349 350
nhÊn m¹nh ®Æc trng riªng cña tËp vÝ dô h¬n lµ c¸c ®Æc trng chung cña d÷ liÖu
miÒn øng dông mµ tËp vÝ dô ®¹i diÖn.
Dù tr÷ vÝ dô ®Ó ®¸nh gi¸ sau m« h×nh lµ mét gi¶i ph¸p ®Þnh híng cho
phÐp kh¾c phôc lçi qu¸ chó träng vµo viÖc häc. Tuy nhiªn, vÝ dô häc lµ tµi
nguyªn qu¸ cho x©y dùng m« h×nh cho nªn kh«ng ph¶i lóc nµo còng dµnh ®îc
vÝ dô dù tr÷. Trong trêng hîp ®ã, viÖc lÊy mÉu bæ sung (resampling) cÇn ®îc
tiÕn hµnh.
Trong nhiÒu trêng hîp, kü thuËt ®¸nh gi¸ chÐo (cross-folds valuation)
còng ®îc coi lµ mét gi¶i ph¸p kh¾c phôc lçi m« h×nh "qu¸ khÝt" víi vÝ dô häc.
Khi ¸p dông kü thuËt ®¸nh gi¸ chÐo, tÝnh ngÉu nhiªn cña viÖc ph©n chia tËp vÝ dô
cã ý nghÜa rÊt quan träng.
Dùa vµo chØ mét kü thuËt
Trong to¸n häc, kÕt qu¶ nghiªn cøu lµ b¶n chÊt cßn kü thuËt thi hµnh ®Ó ®i
tíi kÕt qu¶ chØ lµ thø yÕu. Theo c¸ch nãi cña Gian-Carlo Rota29, mçi nhµ to¸n
häc (thËm chÝ c¶ nhµ to¸n häc vÜ ®¹i ngêi §øc David Hilbert) chØ cã mét vµi
mÑo vÆt (nguyªn v¨n tiÕng Anh: "Every mathematician has only a few tricks").
Trong khai ph¸ d÷ liÖu, th× cã ®iÒu kh¸c biÖt lµ chóng ta kh«ng chØ dùa vµo
nh÷ng kü thuËt khai ph¸ d÷ liÖu quen biÕt ®Ó thùc hiÖn c¸c bµi to¸n khai ph¸ d÷
liÖu kh¸c nhau. Sù kh¸c biÖt nµy cã xuÊt ph¸t ®iÓm tõ sù kh¸c biÖt cña nguån
gèc tri thøc "míi". Trong to¸n häc, tri thøc míi cã ®îc dùa trªn suy luËn l«gic,
biÖn luËn, chøng minh cña nhµ to¸n häc theo nh÷ng kü thuËt riªng v× vËy nhµ
to¸n häc thêng a chuéng c¸c kü thuËt s¾n cã cña m×nh. Trong khi ®ã, trong
khai ph¸ d÷ liÖu, tri thøc míi ®îc tiÒm Èn trong d÷ liÖu, kh«ng phô thuéc vµo ý
kiÕn chñ quan cña c¸c ngêi khai ph¸ d÷ liÖu, v× vËy, kh«ng thÓ dùa vµo c¸c kü
thuËt nµo ®ã quen thuéc cña hä.
ViÖc ¸p dông mét sè kü thuËt kh¸c nhau ®Ó gi¶i bµi to¸n khai ph¸ d÷ liÖu
cho phÐp chóng ta ®a ra ®îc nhiÒu ph¬ng ¸n nh»m môc ®Þch ®¸nh gi¸ chóng
29 http://alumni.media.mit.edu/~cahn/life/gian-carlo-rota-10-
lessons.html
vµ lùa chän ph¬ng ¸n tèt nhÊt trong sè c¸c ph¬ng ¸n ®· ®îc thi hµnh. TiÕn
hµnh c«ng viÖc nh vËy cã thÓ g©y ra sù tèn kÐm nhÊt ®Þnh, ®Æc biÖt trong thùc
nghiÖm, song lµ rÊt cÇn thiÕt.
TÝch hîp c¸c kü thuËt kh¸c nhau lµ mét tiÕp cËn ®îc xem xÐt khi gi¶i
quyÕt c¸c bµi to¸n khai ph¸ d÷ liÖu. Mçi kü thuËt khai ph¸ d÷ liÖu phï hîp tèt
víi mét lo¹i m« h×nh d÷ liÖu t¬ng øng, tuy nhiªn, gi¶ thiÕt vÒ m« h×nh d÷ liÖu
miÒn øng dông kh«ng ph¶i lµ chÝnh x¸c hoÆc hoµn toµn chÝnh x¸c. Khi tÝch hîp
nhiÒu kü thuËt khai ph¸ d÷ liÖu víi nhau th× c¸ch kü thuËt nµy bæ sung cho nhau
nh÷ng h¹n chÕ vÒ gi¶ thiÕt m« h×nh d÷ liÖu cña mçi m« h×nh. Robert Nisbet vµ
céng sù [NEM09] ®· chØ dÉn cô thÓ vÒ lîi thÕ cña tÝch hîp m« h×nh trong nhiÒu
øng dông khai ph¸ d÷ liÖu.
Christophe Giraud Carrier vµ Margaret H. Dunham [CD10] nhÊn m¹nh
r»ng kh«ng ph¶i mäi kü thuËt khai ph¸ d÷ liÖu ®îc coi lµ tèt th× ®Òu ¸p dông
®îc cho mäi t×nh huèng. C¸c t¸c gi¶ tæng hîp ba trêng hîp vÒ c¸c kü thuËt
hiÖu qu¶ rÊt phæ biÕn song trong mét sè trêng hîp c¸c kü thuËt nµy l¹i cho kÕt
qu¶ rÊt h¹n chÕ
(i) m« h×nh ng÷ nghÜa Èn Latent Semantic Indexing LSI kh«ng bao gåm ®îc
c¸c mèi quan hÖ gi÷a tõ, chñ ®Ò Èn vµ tµi liÖu trong c¸c bé d÷ liÖu TREC,
(ii) kü thuËt ®¸nh gi¸ chÐo theo ®é ®o AUC cho hiÖu qu¶ thÊp trong thêng
hîp sö dông c¬ chÕ stack vµ mÉu cã Ýt vÝ dô d¬ng,
(iii) hiÖu n¨ng cña c¸c bé ph©n líp kh«ng t¨ng khi th«ng tin/vÝ dô mÉu
®îc bæ sung vµo tËp vÝ dô mÉu. Mét nguyªn nh©n lien quan tíi ®iÓm phï hîp
trªn lµ cÊu t¹o cña kiÕn tróc líp kh«ng ph¶n ¸nh t¬ng øng víi ph©n bè cña c¸c
thÓ hiÖn.
Nh÷ng khuyÕn c¸o trªn ®©y gióp mäi ngêi tr¸nh lçi chØ sö dông c¸c kü
thuËt khai ph¸ d÷ liÖu quen thuéc.
§Æt sai c©u hái
Lçi ®Æt sai c©u hái xuÊt hiÖn ë hai cÊp ®é x¸c ®Þnh môc tiªu vµ x¸c ®Þnh
m« h×nh môc tiªu.
351 352
Thø nhÊt, ®Æt c©u hái sai cã nguyªn nh©n tõ x¸c ®Þnh sai môc tiªu khai ph¸
d÷ liÖu. Nh vËy, lçi nµy liªn quan mËt thiÕt tíi bµi häc cÇn ®Æt ®óng bµi to¸n
khai ph¸ d÷ liÖu. Môc tiªu cña bµi to¸n khai ph¸ d÷ liÖu g¾n kÕt víi môc tiªu
kinh doanh, viÖc chuyÓn ®æi tõ môc tiªu kinh doanh thµnh môc tiªu khai ph¸ d÷
liÖu lµ rÊt khã kh¨n, phøc t¹p, v× vËy sù céng t¸c c¸c chuyªn gia nhiÒu lÜnh vùc
lµ hÕt søc quan träng.
Mét vµi nguyªn nh©n ®iÓn h×nh g©y ra t×nh huèng ®Æt sai c©u hái (x¸c ®Þnh
sai môc tiªu) khai ph¸ d÷ liÖu lµ do c«ng søc lµm viÖc ®Ó hiÓu bµi to¸n vµ d÷
liÖu cha ®îc bá ra ®óng møc ®é, do nh÷ng ngêi liªn quan ®· ¸p ®Æt viÖc thõa
kÕ qu¸ møc bµi to¸n khai ph¸ d÷ liÖu s¾n cã mµ ®îc coi lµ cïng lo¹i hoÆc do ®·
u tiªn qu¸ møc kinh nghiÖm cña c¸c chuyªn viªn khai ph¸ d÷ liÖu.
Thø hai, môc tiªu khai ph¸ d÷ liÖu ®îc ®Æt ®óng song x¸c ®Þnh m« h×nh
môc tiªu cã thÓ kh«ng ®óng. C©u hái ®Æt ra cho øng dông khai ph¸ d÷ liÖu lµ
mét bé phËn trong c¸ch thøc x¸c ®Þnh m« h×nh môc tiªu. Ph©n tÝch ®a chiÒu
m¹nh cho phÐp x¸c ®Þnh m« h×nh môc tiªu tèt.
ChØ “nghe” tõ d÷ liÖu
TiÕp cËn khai ph¸ d÷ liÖu "t×m nh÷ng mÉu (tri thøc) míi, h÷u dông, cã gi¸
trÞ, tiÒm Èn trong d÷ liÖu" kh«ng ®ång nhÊt víi quan niÖm r»ng d÷ liÖu s½n cã lµ
tÊt c¶ c¸c nguån tµi nguyªn cã thÓ cã phôc vô qu¸ tr×nh khai ph¸ d÷ liÖu. Bµi
to¸n khai ph¸ d÷ liÖu cÇn nh÷ng nguån tµi nguyªn bæ sung kh¸c.
Mét mÆt, d÷ liÖu chóng ta thu thËp ®îc cã thÓ cha bao gåm hÕt c¸c ®Æc
trng d÷ liÖu miÒn øng dông cho bµi to¸n khai ph¸ d÷ liÖu. Trong thùc tiÔn, d÷
liÖu thu thËp ®îc tõ c¸c hÖ thèng quan s¸t mµ c¸c hÖ thèng quan s¸t ®ã kh«ng
ph¶i lóc nµo còng cho phÐp h×nh thµnh th«ng tin toµn diÖn m« t¶ d÷ liÖu. Cã thÓ
nãi mét sè "®Æc trng" (thuéc tÝnh) cña d÷ liÖu bÞ bá sãt trong qu¸ tr×nh thu thËp
d÷ liÖu. Tri thøc miÒn øng dông cho phÐp gi¶m thiÓu t×nh huèng bá sãt nh vËy.
MÆt kh¸c, mÆc dï chuyªn gia khai ph¸ d÷ liÖu cã kh¶ n¨ng "nghe ®îc c¸c
c©u chuyÖn do d÷ liÖu kÓ" nhng ®Ó nghe ®îc "c©u chuyÖn tõ d÷ liÖu" th× hä
cÇn ph¶i ®îc cung cÊp thªm tri thøc miÒn øng dông (do c¸c chuyªn gia miÒn
øng dông cung cÊp) vµ néi dung vµ ý nghÜa môc tiªu cña bµi to¸n khai ph¸ d÷
liÖu (do ngêi qu¶n lý cao cÊp cung cÊp).
Nh tr×nh bµy trong Ch¬ng 1, hÖ thèng khai ph¸ d÷ liÖu chøa mét c¬ së tri
thøc nh mét thµnh phÇn t¸ch ra khái tµi nguyªn d÷ liÖu ®Çu v¸o cho bµi to¸n
khai ph¸ d÷ liÖu. H¬n n÷a, c¬ së tri thøc nµy lµ kh«ng ®Çy ®ñ vµ c¸c yÕu tè trong
c¬ së tri thøc nµy cã thÓ ®îc bæ sung, thay ®æi, hay lo¹i bá.
ChÊp nhËn dß rØ tõ t¬ng lai
Tiªu ®Ò cña môc nhá nµy ¸m chØ r»ng cã sù nhËp nh»ng gi÷a ®Çu vµo vµ
®Çu ra cña bµi to¸n khai ph¸ d÷ liÖu, hay nãi kh¸c ®i, tån t¹i mét sù giao thoa
nµo ®ã cña tËp biÕn ®Çu vµo víi tËp biÕn ®Çu ra. Sù giao thoa nh vËy cã nguyªn
nh©n tõ viÖc hiÓu d÷ liÖu trong giai ®o¹n tiÒn xö lý d÷ liÖu cha chÝnh x¸c.
Robert Nisbet vµ céng sù [NEM09] ®a ra mét sè vÝ dô cña lo¹i lçi nµy, trong
®ã cã vÝ dô ®i t×m luËt liªn quan tíi sù ph¸ s¶n cña c¸c c«ng ty tõ viÖc nghiªn
cøu d÷ liÖu cña c¸c c«ng ty ®ang tån t¹i.
Mét vÝ dô tÇm thêng cña lçi nµy lµ sù giao thoa gi÷a tËp vÝ dô häc víi tËp
vÝ dô ®¸nh gi¸ m« h×nh. Mét sè ngêi míi lµm quen víi khai ph¸ d÷ liÖu khi tiÕn
hµnh ®¸nh gi¸ m« h×nh l¹i cho phÐp vÝ dô häc ®ãng vai trß cña d÷ liÖu kiÓm thö.
Gi¶m bít vÝ dô "lµm phiÒn"
Trong qu¸ tr×nh hiÓu d÷ liÖu, cã thÓ chóng ta ph¸t hiÖn ra mét vµi vÝ dô
kh¸c biÖt hoµn toµn víi ®Æc trng chung cña tËp vÝ dô cßn l¹i. Nh÷ng vÝ dô kh¸c
biÖt nµy tån t¹i trong thùc tiÔn song cã vÎ nh nã g©y khã kh¨n rÊt lín khi x©y
dùng m« h×nh. Trong trêng hîp ®ã, dÔ x¶y ra nhËn ®Þnh r»ng nÕu bá ®i c¸c vÝ
dô nµy, qu¸ tr×nh x©y dùng m« h×nh võa ®¬n gi¶n vµ m« h×nh x©y dùng ®îc cã
vÎ rÊt phï hîp víi tËp d÷ liÖu cßn l¹i. Tõ nhËn ®Þnh nµy dÉn tíi viÖc lo¹i bá c¸c
vÝ dô kh¸c biÖt nh ®· nãi vµ lçi gi¶m bít vÝ dô lµm phiÒn xuÊt hiÖn.
Christophe Giraud Carrier vµ Margaret H. Dunham [CD10] khuyÕn c¸o vÒ
viÖc cÇn ph¶i tr¸nh nh÷ng lçi khi lùa chän vµ sö dông d÷ liÖu ®Çu vµo.
353 354
§¸p øng mäi yªu cÇu
Lèi nµy cã nguyªn nh©n tõ nhËn thøc cha toµn diÖn vÒ khai ph¸ d÷ liÖu,
cha h×nh dung hÕt qu¸ tr×nh khã kh¨n vµ phøc t¹p cña khai ph¸ d÷ liÖu. Trong
mét sè trêng hîp, quyÕt ®Þnh nãng véi mong muèn øng dông mét c«ng nghÖ
tiªn tiÕn còng lµ mét nguyªn nh©n dÉn tíi t×nh tr¹ng sù chuÈn bÞ tri thøc vµ kü
n¨ng cha theo kÞp víi mong muèn ®ã. C¸c nguyªn nh©n nãi trªn dÉn tíi t×nh
tr¹ng x¸c ®Þnh cha ®óng ph¹m vi kÕt qu¶ cña khai ph¸ d÷ liÖu.
Yªu cÇu ®èi víi mét øng dông khai ph¸ d÷ liÖu hay còng vËy ph¹m vi kÕt
qu¶ cña øng dông nh vËy cÇn ®îc x¸c ®Þnh phï hîp víi giíi h¹n môc tiªu cña
øng dông mµ ®· ®îc khuyÕn c¸o lµ kh«ng qu¸ ba môc tiªu cho mét øng dông.
Qu¸ tËp trung vµo viÖc ®i t×m m« h×nh tèt
Cã thÓ coi lçi nµy lµ ®ång d¹ng víi lçi dùa vµo chØ mét kü thuËt khai ph¸
d÷ liÖu. T×m ®îc m« h×nh tèt, phï hîp víi ng÷ c¶nh cña bµi to¸n khai ph¸ d÷
liÖu lµ ®Þnh híng chñ ®¹o cña qu¸ tr×nh khai ph¸ d÷ liÖu. NÕu qu¸ tËp trung vµo
viÖc ®i t×m mét m« h×nh tèt, mét mÆt, sÏ x¶y ra hiÖn tîng coi nhÑ c¸c thµnh
phÇn quan träng kh¸c cña qu¸ tr×nh khai ph¸ d÷ liÖu, mÆt kh¸c, dÔ bÞ l¹c vµo
"mª cung" khi t×m kiÕm m« h×nh.
Nh ®· biÕt, tiÕp cËn lêi gi¶i cho bµi to¸n khai ph¸ d÷ liÖu lµ "lêi gi¶i ®ñ
tèt" mµ kh«ng ph¶i lµ "lêi gi¶i tèt u", viÖc t×m m« h×nh tèt cÇn ®îc thi hµnh
víi møc ®é tËp trung phï hîp song còng cÇn giµnh thêi gian vµ c«ng søc cho c¸c
c«ng viÖc kh¸c trong toµn bé qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu, ®Æc biÖt lµ
cÇn ®Çu t thÝch ®¸ng cho c«ng viÖc tiÒn xö lý d÷ liÖu, biÓu diÔn d÷ liÖu, gi¶i
thÝch vµ trùc quan hãa kÕt qu¶.
H×nh 10.1. So s¸nh mét sè kü thuËt ph¸t hiÖn vµ trÝch chän
danh s¸ch trªn Web [Weni10]
Nh ®· biÕt, mçi mét m« h×nh khai ph¸ d÷ liÖu ®ßi hái miÒn øng dông bµi
to¸n khai ph¸ d÷ liÖu cÇn ®¸p øng yªu cÇu gi¶ thiÕt cña m« h×nh. Dï r»ng, trong
hÇu hÕt trêng hîp øng dông khai ph¸ d÷ liÖu, nÕu kh«ng b¸c bá ®îc gi¶ thiÕt
vÒ mét m« h×nh trªn miÒn øng dông cña bµi to¸n th× cÇn chÊp nhËn m« h×nh ®ã,
song "m« h×nh tèt" sÏ ®ßi hái nhiÒu gi¶ thiÕt h¬n v× vËy kh¶ n¨ng xuÊt hiÖn ph¶n
vÝ dô ®Ó b¸c bá m« h×nh sÏ cao h¬n.
Tim Weninger vµ céng sù [Weni10] kh¶o s¸t c¸c kü thuËt ph¸t hiÖn vµ
trÝch chän danh s¸ch chung trªn web. C¸c t¸c gi¶ kú väng r»ng c¸c kü thuËt lµm
tinh vi sÏ cho mét hiÖu n¨ng cao ph¸t hiÖn vµ trÝch chän danh s¸ch chung. Tuy
nhiªn, kÕt qu¶ thù nghiÖm chØ ra r»ng kü thuËt trùc quan (theo tiÕp cËn ®¬n gi¶n
“ng©y th¬”) l¹i cho kÕt qu¶ trung b×nh (®é håi tëng ®¹t 55%) cao h¬n nhiÒu so
víi c¸c kü thuËt tinh vi h¬n nh Google Sets, WebTables vµ WWT MDR (h×nh
10.1).
MÉu tÝnh cê
Ph¸t hiÖn tri thøc tõ d÷ liÖu ®îc vÝ nh "t×m kimtrong ®èng cá" cho nªn
®Æt ra yªu cÇu lµ sè lîng mÉu ®Ó häc m« h×nh cÇn kho¶ng 10% sè lîng d÷ liÖu
cã thÓ trong miÒn øng dông. §Ó ®¹t ®îc tû lÖ nµy hoÆc chóng ta ph¶i gi¶m kÝch
thíc kh«ng gian d÷ liÖu miÒn øng dông b»ng c¸c bá ®i c¸c mÉu th«ng dông
nhÊt (under sample) hoÆc bæ sung c¸c mÉu míi. Trong c¶ hai trêng hîp, lo¹i bá
mÉu (®Þnh híng gi¶m kÝch thíc kh«ng gian d÷ liÖu) hoÆc bæ sung mÉu míi,
lçi mÉu t×nh cê xÈy ra; viÖc lo¹i bá hay bæ sung mÉu kh«ng nh mong muèn.
VÒ lý thuyÕt, tËp vÝ dô mÉu (vÝ dô häc vµ vÝ dô kiÓm thö) lµ ®¹i diÖn cho
tËp d÷ liÖu miÒn øng dông, ®îc chän mét c¸ch "ngÉu nhiªn" tõ d÷ liÖu miÒn
øng dông. Trªn thùc tÕ, yªu cÇu nµy rÊt khã thùc hiÖn mét c¸ch tuyÖt ®èi chÝnh
x¸c. X¸c ®Þnh tèt ph©n bè d÷ liÖu theo c¸c ®Æc trng cho phÐp viÖc x©y dùng vÝ
dô mÉu mét c¸ch ngÉu nhiªn theo ph©n bè ®Æc trng ®· ®îc x¸c ®Þnh cho phÐp
gi¶m thiÓu lçi t×nh cê. Trong trêng hîp khã kh¨n ®¶m b¶o tÝnh ngÉu nhiªn
trong x©y dùng vÝ dô mÉu th× nªn ¸p dông mét thø tù ngÉu nhiªn cho c¸c mÉu.
Thø tù nµy cã thÓ ®îc dïng trong viÖc lùa chän tËp vÝ dô häc vµ tËp vÝ dô kiÓm
thö.
355 356
Theo Tim Weninger vµ céng sù [Weni10], trong trêng hîp cña bµi to¸n
ph¸t hiÖn vµ trÝch chän danh s¸ch, c¸c ph¬ng ph¸p tinh vi ®îc xem xÐt cã xu
híng thiªn vÞ trong viÖc lÊy mÉu; sù thiªn vÞ nh vËy cã thÓ lµ nguyªn nh©n lµm
cho c¸c kü thuËt tinh vi ®ã kh«ng ®¹t kÕt qu¶ nh kú väng.
Ngo¹i suy
Lçi ngo¹i suy cã xuÊt ph¸t ®iÓm tõ viÖc l¹m dông kinh nghiÖm tõ c¸c dù ¸n
khai ph¸ d÷ liÖu ®· thùc hiÖn. GÆp mét trêng hîp mµ ®îc coi lµ "t¬ng tù",
nh÷ng kinh nghiÖm ®· cã thêng dÉn ®Õn ngo¹i suy c¸c t×nh huèng bµi to¸n liªn
quan. Mét lo¹i mÉu ngo¹i suy ®iÓn h×nh lµ ngo¹i suy theo sè chiÒu kh«ng gian
d÷ liÖu miÒn øng dông: tõ kinh nghiÖm trong qu¸ khø ®èi víi cì chiÒu nhá,
ngo¹i suy t×nh huèng "t¬ng tù" ®èi víi cì chiÒu lín. Liªn quan tíi ngo¹i suy
theo cì kh«ng gian d÷ liÖu, Robert Nisbet vµ céng sù [NEM09] nªu c¸c nhËn
®Þnh sau ®©y cña Friedman:
- Cì cña tËp vÝ dô mÉu t¨ng cÊp sè nh©n theo sè chiÒu cña kh«ng gian d÷
liÖu,
- L©n cËn cña mét bé phËn nhá d÷ liÖu cã thÓ lµ rÊt lín,
- HÇu hÕt c¸c ®iÓm lµ gÇn mét c¹nh cña kh«ng gian mÉu h¬n ®iÓm gÇn
nhÊt víi nã,
- HÇu hÕt c¸c ®iÓm lµ kh¸c biÖt (bÊt thêng) theo phÐp chiÕu riªng cña
nã.
Nh÷ng nhËn ®Þnh trªn ®©y cho thÊy vÒ ®é phøc t¹p cña kh«ng gian d÷ liÖu
miÒn øng dông lµ nh÷ng th¸ch thøc kh«ng nhá khi sö dông tiÕp cËn ngo¹i suy.
Mét gi¶i ph¸p tèt ®Ó cã thÓ ph¸t huy tèt kinh nghiÖm trong qu¸ khø vµ
tr¸nh ®îc c¸c lçi ngo¹i suy lµ c¸c chuyªn viªn khai ph¸ d÷ liÖu cÇn thêng
xuyªn giao tiÕp vµ trao ®æi víi nhau vµ víi kh¸ch hµng vÒ t×nh huèng bµi to¸n,
nh»m bæ sung ®îc c¸c gi¶ thuyÕt kh¸ch quan vÒ kh«ng gian d÷ liÖu miÒn øng
dông.
10.3. C«ng cô Khai ph¸ d÷ liÖu
Sù ph¸t triÓn vÒ sè lîng c«ng cô khai ph¸ d÷ liÖu vµ doanh sè cña c«ng cô
khai ph¸ d÷ liÖu trong kinh doanh th«ng minh (business intelligence) lµ mét
minh chøng næi bËt cho ý nghÜa vµ tÇm quan träng cña khai lhas d÷ liÖu. Theo
Ralf Mikut vµ Markus Reischl [MR11], thÞ trêng toµn thÕ giíi vÒ kinh doanh
th«ng minh (phÇn mÒm vµ lÖ phÝ b¶o tr×) ®¹t 7,8 tû ®« la Mü vµo n¨m 2008,
trong ®ã cã 1,5 tû ®« la Mü cho c¸c ph©n tÝch cao cÊp bao gåm khai ph¸ d÷ liÖu
vµ thèng kª; khu vùc kinh doanh nµy ®· t¨ng 12,1% so víi n¨m 2007. C¸c c«ng
cô cã thÞ phÇn lín lµ SAS Enterprise Miner (33,2%), IBM SPSS Modeler
(14,3%), MicroSoft SQL Server Analysis Services (1,7%), Teradata Database
(1,5%), TIBCO Spotfire (1,4%). §ång thêi, nhiÒu c«ng cô phÇn mÒm më (miÔn
phÝ) còng trë nªn rÊt phæ biÕn, ch¼ng h¹n nh Waikato Environment for
Knowledge Analysis (WEKA). Ralf Mikut vµ Markus Reischl [MR11] ®· cung
cÊp mét nghiªn cøu tæng quan vÒ c«ng cô khai ph¸ d÷ liÖu vµ néi dung c¬ b¶n
cña nghiªn cøu trªn ®îc tr×nh bµy trong môc nµy.
10.3.1. Tiªu chÝ ph©n lo¹i c¸c c«ng cô khai ph¸ d÷ liÖu
C«ng cô khai ph¸ d÷ liÖu ®îc ph©n lo¹i dùa theo mét sè tiªu chÝ gåm
nhãm ngêi dïng, kiÓu d÷ liÖu, bµi to¸n vµ ph¬ng ph¸p khai ph¸ d÷ liÖu,
ph¬ng ¸n nhËp d÷ liÖu vµ ®a ra kÕt qu¶, m« h×nh giÊy phÐp.
Theo nhãm ngêi dïng, c«ng cô khai ph¸ d÷ liÖu ®îc ph©n lo¹i thµnh bèn
nhãm lµ øng dông kinh doanh, øng dông nghiªn cøu, ph¸t triÓn thuËt to¸n, vµ
d¹y - häc. Nhãm ngêi dïng øng dông kinh doanh sö dông c«ng cô khai ph¸ d÷
liÖu ®Ó gi¶i quyÕt c¸c bµi to¸n ¸p dông kinh doanh th¬ng m¹i hãa nh qu¶n lý
quan hÖ kh¸ch kh¸ch, ph¸t hiÖn gian lËn... Hä chñ yÕu quan t©m tíi c¸c c«ng cô
®· ®îc th¬ng m¹i hãa cung cÊp hç trî c¸c CSDL lín vµ tÝch hîp víi dßng kinh
doanh cña doanh nghiÖp. C¸c c«ng cô næi bËt nhÊt thuéc nhãm nµy lµ
ADAPA(Zementis), CART, IBM SPSS Modeler, IBM SPSS Statistics, KXEN,
MATLAB, Oracle Data Mining (ODM), SAP Netweaver Business Warehouse
(BW), SAS Enterprise Miner, SQL Server Analysis Services, STATISTICA,
357 358
TIBCO Spotfire. Nhãm ngêi dïng øng dông nghiªn cøu ¸p dông c«ng cô khai
ph¸ d÷ liÖu ®· ®îc chøng minh theo ph¬ng ph¸p luËn, c¸c giao diÖn (giao diÖn
®å häa, giao diÖn khu«n d¹ng d÷ liÖu hoÆc CSDL miÒn øng dông) vµo ho¹t ®éng
nghiªn cøu (vÝ dô, c«ng nghÖ vµ khoa häc ®êi sèng). Nhãm ngêi dïng ph¸t
triÓn thuËt to¸n ®ßi hái c¸c c«ng cô khai ph¸ d÷ liÖu chøa nhiÒu thuËt to¸n hiÖn
thêi ®Ó ph¸t triÓn thuËt to¸n khai ph¸ d÷ liÖu míi theo hai ph¬ng diÖn tÝch hîp
thuËt to¸n míi víi c¸c c«ng cô vµ so s¸nh nã víi thuËt to¸n ®· cã. Nhãm ngêi
dïng day – häc cÇn c¸c c«ng cô khai ph¸ d÷ liÖu trùc quan, giao diÖn ngêi
dïng tiÖn dông vµ kh«ng tèn kÐm. H¬n n÷a, nã cÇn céng cô cã kh¶ n¨ng cho
phÐp tÝch hîp ph¬ng ph¸p tù ph¸t triÓn t¹i c¸c trêng ®¹i häc.
Cã mét thuéc tÝnh c¬ b¶n cña kiÓu d÷ liÖu lµ sè chiÒu (dimension) cña kiÓu
d÷ liÖu ®ã. C¸c c«ng cô khai ph¸ d÷ liÖu lµm viÖc víi c¸c kiÓu d÷ liÖu lµ b¶ng
®Æc trng (feature tables) hai chiÒu, v¨n b¶n (texts) hai chiÒu, chuçi thêi gian
(time series) ba chiÒu, d·y (sequences) ba chiÒu, ¶nh (images) bèn chiÒu, ®å thÞ
(graphics) bèn chiÒu, ¶nh ba chiÒu (3D graphics) n¨m chiÒu, video n¨m chiÒu,
3D video s¸u chiÒu.
C¸c c«ng cô phÇn mÒm bao phñ toµn bé c¸c bµi to¸n khai ph¸ d÷ liÖu nh
häc gi¸m s¸t (ph©n líp, ph©n líp mê, håi quy), häc kh«ng gi¸m s¸t (ph©n côm,
ph©n ®o¹n), vµ häc b¸n gi¸m s¸t. C«ng cô khai ph¸ d÷ liÖu còng gi¶i quyÕt c¸c
bµi to¸n ®i kÌm c¸c bµi to¸n trªn ®©y nh lµm s¹ch d÷ liÖu, läc d÷ liÖu, trÝch xuÊt
®Æc trng, chuyÓn d¹ng d÷ liÖu, ®¸nh gi¸ vµ lùa chän ®Æc trng, tÝnh to¸n tÝnh
t¬ng tù vµ ph¸t hiÖn c¸c phÇn tö t¬ng tù, x¸c nhËn m« h×nh, hîp nhÊt m« h×nh
(hîp nhÊt víi tri thøc chuyªn gia), tèi u hãa m« h×nh.
HÇu hÕt c¸c ph¬ng ph¸p häc m¸y thèng kª cæ ®iÓn vµ c¸c ph¬ng ph¸p
häc m¸y míi h¬n ®Òu cã s½n c«ng cô phÇn mÒm thi hµnh. §é thêng xuyªn xuÊt
hiÖn cña c¸c ph¬ng ph¸p nµy trong c¸c c«ng cô khai ph¸ d÷ liÖu lµ mét tiªu chÝ
so s¸nh chóng. XuÊt hiÖn thêng xuyªn (cã trong hÇu hÕt c¸c c«ng cô khai ph¸
d÷ liÖu) lµ c¸c ph¬ng ph¸p ph©n líp dùa trªn hµm mËt ®é x¸c suÊt íc tÝnh
(nh Bayes), ph©n tÝch t¬ng quan, lùa chän ®Æc trng theo thèng kª, vµ tÝnh
to¸n (test) t¬ng quan. XuÊt hiÖn trong nhiÒu c«ng cô khai ph¸ d÷ liÖu lµ c¸c
ph¬ng ph¸p c©y quyÕt ®Þnh, ph©n côm, håi quy, lµm s¸ch d÷ liÖu, läc d÷ liÖu,
trÝch xuÊt ®Æc trng, ph©n tÝch thµnh phÇn chÝnh (PCA: principal component
analysis), ph©n tÝch nh©n tö (factor analysis), ®¸nh gi¸ vµ lùa chän ®Æc trng tiªn
tiÕn, tÝnh to¸n ®é t¬ng tù, m¹ng n¬ ron, ®¸nh g¸i chÐo m« h×nh, tÝnh to¸n (test)
t¬ng quan thèng kª. XuÊt hiÖn trong mét vµi c«ng cô khai ph¸ d÷ liÖu lµ c¸c
ph¬ng ph¸p ph©n líp mê (fuzzy classification), häc luËt kÕt hîp vµ khai ph¸ tËp
môc thêng xuyªn, ph©n tÝch thµnh phÇn ®éc lËp (independent component
analysis), bootstrapping, ®é ®o phøc (complexity measures), hîp nhÊt m« h×nh,
m¸y hç trî vector (SVM), k l¸ng giªngf gÇn nhÊt (k-NN), m¹ng Bayes (Bayesian
networks), vµ häc c¸c luËt râ (crisp rules). XuÊt hiÖn trong mét vµi c«ng cô khai
ph¸ d÷ liÖu lµ c¸c ph¬ng ph¸p rõng ngÉu nhiªn (random forests), häc hÖ thèng
mê, tËp th«, tèi u hãa thuËn to¸n b»ng thuËt to¸n tiÕn hãa.
VÒ t¬ng t¸c ngêi dïng, c«ng cô khai ph¸ d÷ liÖu ®îc ph©n thµnh ba lo¹i
(theo møc ®é tiÖn dông tõ thÊp lªn cao cho ngêi dïng) lµ t¬ng t¸c dßng lÖnh
thuÇn tóy sö dông mét ng«n ng÷ lËp tr×nh, t¬ng t¸c ®å häa víi cÊu tróc thùc
®¬n, t¬ng t¸c ®å häa ngêi dïng thùc sù.
M« h×nh xuÊt ra kÕt qu¶ (®a ra) vµ ®a vµo nhËp d÷ liÖu trong c¸c c«ng cô
khai ph¸ d÷ liÖu cã vai trß rÊt quan träng. C¸c m« h×nh nhËp – xuÊt ë ®©y
thêng tu©n theo mét sè d¹ng chuÈn ®Ó lµm thuËn tiÖn h¬n trong viÖc kÕt nèi
th«ng tin gi÷a céng cô nµy víi c¸c hÖ thèng phÇn mÒm kh¸c.
C«ng cô khai ph¸ d÷ liÖu cã thÓ ch¹y trªn nÒn hÖ thèng ®éc lËp hoÆc hÖ
thèng kh¸ch/chñ. C¸c c«ng cô khai ph¸ d÷ liÖu ®ang ®i theo xu híng ch¹y trªn
nÒn web vµ hç trî ch¹y trªn nÒn tÝnh to¸n ®¸m m©y.
Theo m« h×nh giÊy phÐp, c¸c c«ng cô khai ph¸ d÷ liÖu ®îc chia thµnh hai
nhãm chÝnh: S¶n phÈm th¬ng m¹i vµ phÇn mÒm nguån më (tù do). C«ng cô
khai ph¸ d÷ liÖu th¬ng m¹i lµ sù lùa chän cña nhãm ngêi dïng ¸p dông khai
ph¸ d÷ liÖu trong kinh doanh do c¸c c«ng cô nµy cã lîi thÓ vÒ tÝnh æn ®Þnh cao,
vÒ kh¶ n¨ng tÝch hîp víi c¸c c«ng cô kho d÷ liÖu, vÒ b¶o tr× hÖ thèng vµ vÒ
híng dÉn, ®µo t¹o. C¸c nhãm ngêi dïng kh¸c sö dông c«ng cô khai ph¸ d÷
liÖu nguån më (tù do) víi møc ®é giÊy phÐp kh¸c nhau. PhÇn mÒm nguån më cã
lîi thÕ vÒ söa lçi nhanh h¬n, vÒ tÝnh dÔ dµng ph¸t triÓn, vÒ sù tån t¹o céng ®ång
cïng ph¸t triÓn nguån më. Nªn lu ý r»ng phÇn mÒm tù do hay nguån më kh«ng
359 360
®ång nhÊt víi tÝnh miÔn phÝ. M« h×nh giÊy phÐp c«ng cô phÇn mÒm nguån më
khai ph¸ d÷ liÖu lµ m« h×nh giÊy phÐp GNU General Public License của Free
Software Foundation. Mét sè c«ng cô khai ph¸ d÷ liÖu theo m« h×nh trén nh
MatLab khi sö dông phÇn mÒm nguån më cho c¸c c«ng cô th¬ng m¹i.
10.3.2. C¸c kiÓu c«ng cô khai ph¸ d÷ liÖu
Dùa theo c¸c tiªu chÝ ph©n lo¹i nãi trªn, c«ng cô khai ph¸ d÷ liÖu ®îc
ph©n thµnh hÖ thèng khai ph¸ d÷ liÖu (Data mining suites: DMS), Gãi th«ng
minh kinh doanh (Business intelligence packages: BI), gãi to¸n häc
(Mathematical packages: MAT), gãi tÝch hîp (INT), c«ng cô dµnh riªng
(extensions: EXT), th viÖn khai ph¸ d÷ liÖu (Data mining libraries: LIB), c«ng
cô chuyªn dông (Specialties: SPEC), c«ng cô nghiªn cøu (research: RES), gi¶i
ph¸p (Solutions: SOL).
- HÖ thèng khai ph¸ d÷ liÖu (DMS) thi hµnh nhiÒu ph¬ng ph¸p gi¶i quyÕt
c¸c bµi to¸n khai ph¸ d÷ liÖu, ®îc ®Þnh híng tíi miÒn øng dông réng r·i song
s½n cã c¸c tiÖn Ých ®Ó t¹o ph¬ng ¸n øng dông cô thÓ. PhÇn lín DMS lµ phÇn
mÒm th¬ng m¹i vµ kh¸ ®¾t tiÒn vµ còng cã mét vµi DMS nguån më nh
RapidMiner. C¸c DMS ®iÓn h×nh lµ IBM SPSS Modeler, SAS Enterprise Miner,
Alice d’Isoft, DataEngine, DataDetective, GhostMiner, Knowledge Studio,
KXEN, thµnh phÇn khai ph¸ d÷ liÖu trong NAG, Partek Discovery Suite,
STATISTICA, vµ TIBCO Spotfire.
- Gãi th«ng minh kinh doanh (BI) chøa c¸c hµm khai ph¸ d÷ liÖu c¬ b¶n
(®Æc biÖt lµ c¸c ph¬ng ph¸p thèng kª) øng dông trong kinh doanh. HÇu hÕt gãi
BI lµ th¬ng m¹i (IBM Cognos 8 BI, Oracle DataMining, SAPNetweaver
Business Warehouse, Teradata Database, IBM DB2 Data Warehouse, vµ
PolyVista) nhng còng cã gãi nguån më (Pentaho).
- Gãi to¸n häc (MAT) cung cÊp mét tËp lín vµ më réng ®îc c¸c thuËt
to¸n vµ ch¬ng tr×nh con trùc quan hãa. HiÖn cã c¸c gãi MAT th¬ng m¹i
(MATLAB vµ R-PLUS) hoÆc nguån më (R, Kepler).
- Gãi tÝch hîp (INT) ®îc më réng tõ nhiÒu thuËt to¸n khai ph¸ d÷ liÖu
nguån më. Gãi tÝch hîp hoÆc lµ ch¹y ®éc lËp (chñ yÕu ®îc viÕt trªn Java:
KNIME, phiªn b¶n giao diÖn ®å häa cña WEKA, KEEL, vµ TANAGRA) hoÆc
lµ gãi ®îc më réng tõ gãi to¸n häc MAT (nh Gait-CAD, PRTools cho
MATLAB, vµ RWEKA cho R).
B¶ng 10.1. Quan hÖ kiÓu c«ng cô – nhãm ngêi dïng (+" ®Æc biÖt h÷u dông, 0: Ýt h÷u
dông, -: kh«ng h÷u dông) [MR11].
- C«ng cô dµnh riªng (EXT) lµ tiÖn Ých nhá thi hµnh mét thuËt to¸n khai
ph¸ d÷ liÖu cho c¸c c«ng cô kh¸c: Forecaster XL vµ XLMiner cho Excel,
Toolbox Matlab Neural Networks cho Matlab. Cã c¶ hai d¹ng EXT th¬ng m¹i
vµ nguån më.
- Th viÖn khai ph¸ d÷ liÖu (LIB) lµ mét gãi hµm thùc hiÖn c¸c ph¬ng
ph¸p khai ph¸ d÷ liÖu. C¸c hµm nµy cã thÓ ®îc nhóng trong c¸c c«ng cô phÇn
mÒm kh¸c b»ng c¸ch sö dông mét giao diÖn lËp tr×nh øng dông.
- C«ng cô chuyªn dông (SPEC) lµ t¬ng tù nh DMS, nhng chØ thùc hiÖn
mét häc ph¬ng ph¸p ®Æc biÖt (ch¼ng h¹n, häc ph¬ng ph¸p m¹ng n¬ ron nh©n
t¹o). SPEC còng bao gãi nhiÒu kü thuËt trùc quan.
B¶ng 10.2.a C¸c c«ng cô khai ph¸ d÷ liÖu th¬ng m¹i ®iÓn h×nh [MR11].
361 362
B¶ng 10.2.b C¸c c«ng cô khai ph¸ d÷ liÖu th¬ng m¹i ®iÓn h×nh
(tiÕp)[MR11].
- C«ng cô nghiªn cøu (RES) thùc hiÖn mét (hoÆc rÊt Ýt) thuËt to¸n míi vµ
s¸ng t¹o, v× vËy, chóng thêng cha æn ®Þnh. HÇu hÕt RES lµ m· nguån më.
Trong RES, hç trî ®å häa, vµo-ra d÷ liÖu vµ tù ®éng hãa Ýt ®îc quan t©m.
363 364
B¶ng 10.3.C¸c c«ng cô khai ph¸ d÷ liÖu nguån më ®iÓn h×nh
[MR11].
- Gi¶i ph¸p (SOL) lµ mét nhãm c«ng cô tïy chØnh vµ hç trî rÊt tèt cho mét miÒn
øng dông hÑp ch¼ng h¹n nh khai ph¸ v¨n b¶n (GATE), xö lý h×nh ¶nh (ITK,
ImageJ), ph¸t hiÖn ma tóy (Molegro Data Modeler), ph©n tÝch h×nh ¶nh trong
kÝnh hiÓn vi (CellProfilerAnalyst), hoÆc khai ph¸ d÷ liÖu hå s¬ biÓu hiÖn gen
(Partek Genomics Suite, MEGA). HiÖn cã rÊt nhiÒu SOL th¬ng m¹i vµ nguån
më.
B¶ng 10.1 chØ ra mèi quan hÖ gi÷a c¸c kiÓu c«ng cô khai ph¸ d÷ liÖu víi
c¸c nhãm ngêi dïng. HÖ thèng khai ph¸ d÷ liÖu tá ra h÷u dông cho ba líp
ngêi dïng øng dông kinh doanh, øng dông nghiªn cøu vµ d¹y-häc.
B¶ng 10.2 (a,b) liÖt kª c¸c c«ng cô khai ph¸ d÷ liÖu th¬ng m¹i ®iÓn h×nh.
Hai b¶ng nµy cung cÊp tªn c«ng cô, kiÓu c«ng cô vµ chØ dÉn trang web cña c«ng
cô khai ph¸ d÷ liÖu.
B¶ng 10.3 cung cÊp mét danh s¸ch c¸c c«ng cô khai ph¸ d÷ liÖu m· nguån
më víi bèn c«ng cô phæ sông nhÊt lµ ITK, KMINE, Orange, vµ WEKA. Tµi liÖu
m« t¶ vµ híng dÉn sö dông c«ng cô lµ cã s½n t¹i trang web cña mçi c«ng cô.
10.3.3. TËp vÝ dô ®¸nh gi¸ c«ng cô nghiªn cøu
So s¸nh mét thuËt to¸n khai ph¸ d÷ liÖu míi víi c¸c thuËt to¸n cïng gi¶i
mét bµi to¸n cÇn ph¶i ®îc tiÕn hµnh trªn tËp d÷ liÖu miÒn øng dông hoÆc mét
tËp d÷ liÖu "®¹i diÖn" cho tËp d÷ liÖu miÒn øng dông. ViÖc thu thËp vµ g¸n nh·n
d÷ liÖu lµ mét c«ng viÖc tèn nhiÒu c«ng søc, h¬n n÷a, viÖc chøng tá tËp d÷ liÖu
x©y dùng ®îc ®¶m b¶o tÝnh "®¹i diÖn" cho d÷ liÖu miÒn øng dông l¹i lµ mét bµi
to¸n khã. Thõa kÕ vµ ph¸t triÓn c¸c bé d÷ liÖu ®îc céng ®ång nghiªn cøu thõa
nhËn lµ mét tiÕp cËn tèt ®Ó cã ®îc c¸c bé d÷ liÖu mÉu cho qu¸ tr×nh x©y dùng
vµ ®¸nh gi¸ m« h×nh cña thuËt to¸n míi ®îc ®Ò xuÊt.
Víi mçi líp bµi to¸n, céng ®ång nghiªn cøu thõa nhËn cã mét sè CSDL
liÖu mÉu ®îc sö dông ®Ó hç trî viÖc ®¸nh gi¸ thuËt to¸n míi. Kho chøa d÷ liÖu
cña nhãm häc m¸y t¹i University of California, Irvine (UC Irvine Machine
Learning Repository) lµ mét vÝ dô ®iÓn h×nh.
UC Irvine Machine Learning Repository ®îc thõa nhËn réng r·i nh mét
tËp c¸c CSDL mÉu dïng ®Ó ®¸nh gi¸ thuËt to¸n häc m¸y30. H×nh 10.4 chØ dÉn
30 http://archive.ics.uci.edu/ml/
365 366
danh môc mét sè tËp d÷ liÖu mÉu UCI (cét tr¸i) vµ nh÷ng tËp d÷ liÖu ®îc truy
cËp nhiÒu nhÊt (cét ph¶i).
H×nh 10.4. Mét sè tËp d÷ liÖu mÉu trong kho chøa UCI
10.4. Khuynh híng ph¸t triÓn cña khai ph¸ d÷ liÖu
Theo Ralf Mikut vµ Markus Reischl [MR11], thuËt ng÷ "data mining" lÇn ®Çu
tiªn xuÊt hiÖn vµo n¨m 1983 trong bµi b¸o cña M. C. Lovell (M. C. (Lovell (1983).
Data Mining, The Review of Economics and Statistics 65:1-12) vµ thùc sù ®îc ph¸t
triÓn tõ cuèi nh÷ng n¨m 1980. Tr¶i qua kho¶ng 30 n¨m qu¸ tr×nh ph¸t triÓn, khai
ph¸ d÷ liÖu kh«ng nh÷ng trë thµnh mét lÜnh vùc khoa häc-c«ng nghÖ rÊt réng
lín mµ vÉn lu«n lµ néi dung nghiªn cøu thêi sù vµ ®ang ®îc ph¸t triÓn rÊt m¹nh
mÏ.
HiÖp héi c¸c nhµ khoa häc vÒ ph¸t hiÖn tri thøc vµ Khai ph¸ d÷ liÖu (The
Association for Computing Machinery's Special Interest Group on Knowledge
Discovery and Data Mining, viÕt t¾t lµ SIGKDD) ®îc thµnh lËp vµ ho¹t ®éng.
Ban ®iÒu hµnh cña SIGKDD gåm mét sè nhµ khoa häc hµng ®Çu thÕ giíi vÒ lÜnh
vùc nµy do Piatetsky-Shapiro31 chñ tr×. Tõ n¨m 1995, ho¹t ®éng ®iÓn h×nh nhÊt
cña SIGKDD lµ tæ chøc Héi nghÞ khoa häc quèc tÕ thêng niªn ACM SIGKDD
Conference on Knowledge Discovery and Data Mining.
Lµ mét thµnh phÇn n¨ng ®éng cña khoa häc m¸y tÝnh cho nªn khuynh
híng ph¸t triÓn cña khai ph¸ d÷ liÖu cã mèi liªn hÖ mËt thiÕt víi khuynh híng
ph¸t triÓn cña khoa häc m¸y tÝnh.
10.4.1. Khuynh híng ph¸t triÓn cña khoa häc m¸y tÝnh
Trong [Hop11], John E. Hopcroft tr×nh bµy vÒ khuynh híng ph¸t triÓn cña
khoa häc m¸y tÝnh, bao gåm sù chuyÓn ®æi c¸c chñ ®Ò cña khoa häc m¸y tÝnh
theo thêi gian. C¸c chñ ®Ò khoa häc m¸y tÝnh næi bËt ®· chuyÓn ®æi tõ c¸c chñ
®Ò nh Ng«n ng÷ lËp tr×nh, Ch¬ng tr×nh dÞch, HÖ ®iÒu hµnh, ThuËt to¸n, C¬ së
d÷ liÖu... tíi c¸c chñ ®Ò nh Theo dâi dßng t tëng trong tµi liÖu khoa häc,
Theo dâi qu¸ tr×nh tiÕn hãa cña c¸c céng ®ång trong c¸c m¹ng x· héi, TrÝch xuÊt
th«ng tin tõ c¸c nguån d÷ liÖu phi cÊu tróc, Xö lý c¸c bé d÷ liÖu vµ dßng d÷ liÖu
®å sé, TrÝch xuÊt c¸c tÝn hiÖu tõ tiÕng ån, Xö lý d÷ liÖu nhiÒu chiÒu vµ gi¶m kÝch
thíc...
Khuynh híng chuyÓn ®æi nãi trªn ®èi víi c¸c chñ ®Ò næi bËt cña khoa häc
m¸y tÝnh còng kh«ng n»m ngoµi xu thÕ t¨ng trëng víi tèc ®é cao khèi lîng d÷
liÖu, ®Æc biÖt lµ thµnh phÇn do ngêi dïng t¹o ra (UGC) nh ®· giíi thiÖu ë
Ch¬ng 1. Trong nghiªn cøu nãi trªn, J. E. Hopcroft giíi thiÖu mét sè néi dung
lý thuyÕt cÇn ®îc quan t©m ®Ó lµm nÒn t¶ng khoa häc gi¶i quyÕt c¸c bµi to¸n
thi hµnh x· héi ®iÖn tö nh sau:
31 http://www.kdnuggets.com/gps.html
367 368
- Lý thuyÕt, m« h×nh vµ gi¶i ph¸p t×m kiÕm. Thø nhÊt, c©u hái t×m kiÕm ®·
cã sù thay ®æi vÒ chÊt tõ c©u hái mang tÝnh cô thÓ, thèng kª sang c©u hái mang
tÝnh t vÊn vµ ®ßi hái sù ph©n tÝch phøc hîp nh "Víi t«i, mua « t« lo¹i nµo lµ
thÝch hîp ?", "H·y x©y dùng mét lÞch sö cã chó gi¶i vÒ lý thuyÕt ®å thÞ", "T«i
nªn vµo trêng ®¹i häc nµo ?", "C¸c lÜnh vùc cña khoa häc m¸y tÝnh ®· ph¸t
triÓn nh thÕ nµo ?"... Thø hai, kh«ng gian t×m kiÕm lµ réng lín vµ c©u hái ®îc
®Æt ra mäi lóc, mäi n¬i.
- M¹ng vµ c¶m biÕn. Trong mét m«i trêng cã tÝnh s½n sµng theo kh«ng
gian vµ thêi gian, ho¹t ®éng cã tÝnh ngÉu nhiªn, giao tiÕp víi m«i trêng th«ng
qua c¸c c¶m biÕn vµ kÕt nèi m¹ng c¸c møc thµnh phÇn (møc c¶m biÕn, møc
m¹ng c¸c m¹ng con, møc c¸c thµnh phÇn lín vµ cùc lín...) cÇn ®îc m« h×nh
hãa víi c¸c gi¶i ph¸p tÝch hîp hiÖu qu¶.
- Xö lý d÷ liÖu nhiÒu chiÒu ®å sé vµ chøa nhiÒu nhiÔu. TÝnh ®å sé cña d÷
liÖu n»m trong xu thÕ bïng næ th«ng tin nh ®· biÕt. D÷ liÖu cÇn cã nhiÒu chiÒu
®Ó biÓu diÔn s¸t thùc h¬n vÒ thùc t¹i. TÝnh ngÉu nhiªn cïng víi tÝnh phøc t¹p cña
hÖ thèng dÉn ®Õn viÖc d÷ liÖu cã thÓ cã chøa nhiÒu nhiÔu.
- M« h×nh vµ gi¶i ph¸p tÝch hîp hÖ thèng vµ tµi nguyªn d÷ liÖu. Dï sö dông
ph¬ng ph¸p x©y dùng hÖ thèng nµo (chøc n¨ng, ®èi tîng, kh¸c, vµ kÕt hîp) th×
c¸ch tiÕp cËn dùa trªn thµnh phÇn ®· trë thµnh c¸ch tiÕp cËn chung, rÊt h÷u hiÖu
®Æc biÖt lµ ®èi víi c¸c hÖ thèng lín.
Mét trong nh÷ng m« h×nh to¸n häc ®iÓn h×nh nhÊt liªn quan tíi c¸c néi
dung lý thuyÕt nªu trªn lµ ®å thÞ lín. Mét vÝ dô ®¬n gi¶n lµ ®å thÞ Web ®îc ®Ò
cËp trong c¸c m¸y t×m kiÕm hiÖn nay ®· cã sè ®Ønh lªn tíi hµng tû nót. TÝnh s½n
sµng, mäi lóc, mäi n¬i ®ßi hái m« h×nh hÖ thèng ®îc thiÕt lËp díi d¹ng ®å thÞ
sÏ cã sè nót rÊt lín. H¬n n÷a, c¸c ®å thÞ lín nµy cÇn lµ c¸c ®å thÞ ngÉu nhiªn.
Lêi gi¶i cho c¸c ®å thÞ lín hiÖn nhËn ®îc sù quan t©m ®Æc biÖt.
10.4.2. Khuynh híng ph¸t triÓn cña khai ph¸ d÷ liÖu
Http://www.sigkdd.org/index.php vµ http://www.kdnuggets.com/ lµ hai
tramh web cung cÊp nhiÒu kÕt qu¶ nghiªn cøu vµ triÓn khai cËp nhËt nhÊt vÒ lÜnh
vùc ph¸t hiÖn tri thøc tõ d÷ liÖu, lµ nguån d÷ liÖu tiÒm Èn c¸c th«ng tin h÷u Ých
vÒ khuynh híng ph¸t triÓn cña lÜnh vùc nµy mµ chón ta cã thÓ “ph¸t hiÖn” ra.
Theo Jiawei Han vµ céng sù [HKL12], xu híng ph¸t triÓn nghiªn cøu vµ
triÓn khai ®iÓn h×nh vÒ khai ph¸ d÷ liÖu bao gåm:
- Ph¸t triÓn mét lý thuyÕt thèng nhÊt vÒ khai ph¸ d÷ liÖu. Nh ®· ®îc tr×nh
bµy, lÜnh vùc khai ph¸ d÷ liÖu ®îc øng dông réng r·i, nhËn ®îc sù quan t©m
cña ®«ng ®¶o c¸c nhµ khoa häc thuéc c¸c lÜnh vùc nghiªn cøu rÊt ®a d¹ng v× vËy
tr×nh ®é ph¸t triÓn hiÖn thêi cña mçi mét nghiªn cøu vÒ khai ph¸ d÷ liÖu l¹i
mang tÝnh qu¸ ®Æc thï. RÊt nhiÒu kü thuËt ®îc thiÕt kÕ cho c¸c bµi to¸n riªng
lÎ, ch¼ng h¹n nh ph©n líp hoÆc ph©n côm, mµ kh«ng cã mét c¬ së lý thuyÕt
thèng nhÊt.
- Më réng miÒn øng dông khai ph¸ d÷ liÖu c¶ vÒ bÒ réng vµ chiÒu s©u
(kh«ng gian-thêi gian, ®èi tîng di chuyÓn vµ hÖ thèng m¹ng vËt lý, d÷ liÖu ®a
ph¬ng tiÖn khai ph¸, v¨n b¶n vµ web; d÷ liÖu sinh häc vµ y sinh; h×nh ¶nh vµ
©m thanh; m¹ng x· héi vµ m¹ng th«ng tin). Ph¸t triÓn c¸c øng dông khai ph¸ d÷
liÖu ®îc më réng tíi th¬ng m¹i ®iÖn tö, tiÕp thÞ ®iÖn tö vµ trë thµnh trµo lu
trong dÞch vô b¸n lÎ, ®ång thêi, ®îc t¨ng cêng sö dông trong nhiÒu lÜnh vùc
kh¸c nh ph©n tÝch tµi chÝnh, viÔn th«ng, sinh dîc phÈm vµ c¸c ngµnh khoa
häc. Xu thÕ tr×nh ®é kinh tÕ tri thøc cña x· héi ngµy cµng ®îc t¨ng cêng lµ
tiÒn ®Ò cho viÖc më réng miÒn øng dông cña khai ph¸ d÷ liÖu.
- Ph¸t triÓn c¸c ph¬ng ph¸p khai ph¸ d÷ liÖu cã tÝnh kh¶ cì vµ t¬ng t¸c,
ph¸t triÓn c¸c ph¬ng ph¸p th¨m dß. Sù t¨ng trëng khèi lîng c¸c d÷ liÖu cã rÊt
nhiÒu chiÒu vµ dßng d÷ liÖu tèc ®é cao. Phï hîp víi sù bïng næ th«ng tin vµ nhu
cÇu ph¸t triÓn øng dông khai ph¸ d÷ liÖu, viÖc ®Ò xuÊt c¸c thuËt to¸n khai ph¸ d÷
liÖu cã chøc n¨ng tù t¬ng t¸c vµ t¬ng t¸c lÉn nhau ®· cã tÝnh b¶n chÊt. Trong
mét sè øng dông, ch¼ng h¹n trong khai ph¸ text hoÆc ph©n tÝch an toµn hÖ thÇn
kinh, sè chiÒu cña d÷ liÖu lªn tíi tõ hµng tr¨m triÖu tíi hµng tû ®Æc trng. Trong
mét sè øng dông kh¸c, ch¼ng h¹n trong c¸c bµi to¸n nghiªn cøu vÒ thiªn v¨n
hoÆc vÒ m¹ng m¸y tÝnh, dßng d÷ liÖu lµ rÊt lín (cã thÓ lªn tíi hµng tr¨m TB t¹i
thêi ®iÓm hiÖn nay). C«ng nghÖ khai ph¸ d÷ liÖu hiÖn t¹i vÉn qu¸ chËm ®Ó chñ
®éng ®îc ®èi víi c¸c d÷ liÖu lín nh vËy. MÆt kh¸c, khai ph¸ d÷ liÖu dùa trªn
369 370
rµng buéc lµ mét ®Þnh híng quan träng n©ng cao n¨ng lùc tæng thÓ cña qu¸
tr×nh khai ph¸ d÷ liÖu cã sù t¨ng cêng t¬ng t¸c víi ngêi sö dông.
- Ph¸t triÓn c¸c m« h×nh vµ ph¬ng ph¸p tÝch hîp khai ph¸ d÷ liÖu vµo c¸c
hÖ thèng CSDL, hÖ thèng kho d÷ liÖu, hÖ thèng t×m kiÕm, hÖ thèng tÝnh to¸n
®¸m m©y. C¸c hÖ thèng nµy ®· trë thµnh trµo lu cña c¸c hÖ thèng xö lý th«ng
tin. Ch¼ng h¹n, bµi to¸n tÝch hîp Web víi kho d÷ liÖu bao gåm nhiÒu néi dung
cña khai ph¸ néi dung Web ®Ó x©y dùng ®îc kho d÷ liÖu víi nguån d÷ liÖu giÇu
cã cña Web. VÊn ®Ò quan träng khi tÝch hîp khai ph¸ d÷ liÖu ë ®©y ph¶i ®¶m
b¶o r»ng c¸c phôc vô khai ph¸ d÷ liÖu ®îc coi lµ c¸c thµnh phÇn ph©n tÝch d÷
liÖu b¶n chÊt cña hÖ thèng cÇn ph¶i ®îc tÝch hîp mét c¸ch tr¬n tru víi m«i
trêng xö lý th«ng tin.
- ChuÈn hãa qu¸ tr×nh ph¸t hiÖn tri thøc, chuÈn ho¸ c¸c ng«n ng÷ khai ph¸
d÷ liÖu cïng víi c¸c ph¬ng tiÖn chuÈn hãa kh¸c lµm thuËn tiÖn h¬n viÖc ph¸t
triÓn cã tÝnh hÖ thèng c¸c gi¶i ph¸p khai ph¸ d÷ liÖu tÝnh liªn thao t¸c cña c¸c hÖ
thèng vµ chøc n¨ng khai ph¸ d÷ liÖu phøc hîp [AGHHL07]. Mét sè kÕt qu¶ ë
møc s¶n phÈm c«ng nghÖ ®iÓn h×nh theo híng nµy cã OLE DB (Object Linking
and Embedding, Database) dïng cho khai ph¸ d÷ liÖu cña MicroSoft, PMML
(Predictive Model Markup Language) cña Data Mining Group (DMG) vµ
CRISP-DM (CRoss Industry Standard Process for Data Mining) cña nhãm ph¸t
triÓn CRISP-DM (http://www.crisp-dm.org/).
- Khai ph¸ d÷ liÖu ®éng, kh«ng c©n b»ng vµ nh¹y c¶m vÒ chi phÝ. M« h×nh
khai ph¸ d÷ liÖu cÇn g¾n kÕt víi thêi gian v× d÷ liÖu lµ kh«ng tÜnh vµ th©y ®æi
theo thêi gian. Theo c¸ch th«ng thêng, m« h×nh ®îc häc cÇn phï hîp theo thêi
gian, khi cã d÷ liÖu hiÖn thêi cÇn häc tiÕp m« h×nh cho c¸c khai ph¸ tiÕp theo, cã
nghÜa lµ m« h×nh còng cã tÝnh xu híng. Mét khuynh híng cña khai ph¸ d÷
liÖu lµ m« h×nh ®îc x©y dùng bao hµm ®îc tÝnh xu híng cµng nhiÒu cµng tèt.
T¬ng tù vÒ khai ph¸ d÷ liÖu ®èi víi d÷ liÖu kh«ng c©n b»ng, nh¹y c¶m vÒ chi
phÝ.
- Khai ph¸ d÷ liÖu trong mét khung c¶nh m¹ng, trong ®ã cã c¸c m¹ng x·
héi trùc tuyÕn hoÆc c¸c m¹ng m¸y tÝnh (khai ph¸ d÷ liÖu tèc ®é cao ®èi víi dßng
d÷ liÖu tèc ®é cao). Liªn quan mËt thiÕt tíi khai ph¸ d÷ liÖu trong khung c¶nh
m¹ng lµ c¸c bµi to¸n khai ph¸ d÷ liÖu ph©n t¸n vµ khai ph¸ d÷ liÖu ®a t¸c tö còng
nh khai ph¸ d÷ liÖu liªn quan tíi c¸c qu¸ tr×nh, luång d÷ liÖu thêi gian thùc.
- T¨ng cêng tÝnh trùc quan hãa trong khai ph¸ d÷ liÖu lµ gi¶i ph¸p hiÖu
qu¶ nh»m lµm cho qu¸ tr×nh ph¸t hiÖn tri thøc tõ tËp d÷ liÖu ®å sé ®îc thi hµnh
b»ng c¸c bé c«ng cô trùc quan hãa vµ dÔ dµng tÝch hîp ®îc víi c¸c thµnh phÇn
khai ph¸ d÷ liÖu.
- B¶o vÖ tÝnh riªng t vµ an ninh th«ng tin.
Th«ng b¸o cña c¸c héi nghÞ KDD thÕ giíi gÇn ®©y (KDD-2010,
Washington DC, July 25-28; http://www.kdd.org/kdd/2010/, KDD-2011, San
Diego CA, August 21-24, 2011; http://www.kdd.org/kdd/2011) vµ KDD-2012,
Beijing-China, August 12-16, 2012; http://www.kdd.org/kdd2012/ ®· ph¶n ¸nh
cô thÓ h¬n cho c¸c khuynh híng nghiªn cøu vµ triÓn khai nãi trªn:
- VÒ nghiªn cøu: m« t¶ viÖc nghiªn cøu s¸ng t¹o trªn mäi khÝa c¹nh cña
ph¸t hiÖn tri thøc vµ khai ph¸ d÷ liÖu theo c¸c chñ ®Ò vÒ ph¬ng ph¸p ph©n líp
vµ håi quy, häc b¸n gi¸m s¸t, ph©n côm, lùa chän ®Æc trng, c¸c m¹ng x· héi,
khai ph¸ d÷ liÖu ®å thÞ, ph©n tÝch d÷ liÖu thêi gian vµ kh«ng gian, tÝnh më réng,
sù riªng t, trùc quan hãa, ph©n tÝch v¨n b¶n, khai ph¸ Web, hÖ thèng t vÊn,
v.v. M¶ng nghiªn cøu cÇn nhÊn m¹nh c¬ së lý thuyÕt cho c¸c tiÕp cËn míi l¹ vÒ
m« h×nh vµ ph¬ng ph¸p thuËt to¸n cho bµi to¸n khai ph¸ d÷ liÖu cô thÓ trong
khoa häc, kinh doanh, y tÕ, vµ c¸c øng dông kü thuËt v.v..
- VÒ triÓn khai: m« t¶ viÖc triÓn khai c¸c gi¶i ph¸p KDD cã liªn quan tíi
viÖc thiÕt lËp c«ng nghiÖp hoÆc chÝnh quyÒn. NhÊn m¹nh viÖc thóc ®Èy sù hiÓu
biÕt thùc tiÔn, ¸p dông, hoÆc c¸c vÊn ®Ò thùc tÕ liªn quan ®Õn viÖc sö dông c¸c
c«ng nghÖ KDD trong c«ng nghiÖp vµ chÝnh quyÒn vµ lµm næi bËt c¸c th¸ch thøc
nghiªn cøu míi ph¸t sinh tõ nç lùc ®Ó t¹o ra c¸c øng dông KDD thùc tÕ. MiÒn
øng dông bao gåm th¬ng m¹i ®iÖn tö, y tÕ vµ dîc phÈm, quèc phßng, chÝnh
s¸ch c«ng, kü nghÖ, s¶n xuÊt, viÔn th«ng, vµ chÝnh phñ v.v.
Sù phong phó vÒ khuynh híng ph¸t triÓn cña khai ph¸ d÷ liÖu lµ minh
chøng râ rµng cho sù ph¸t triÓn m¹nh mÏ cña lÜnh vùc nµy. Khai ph¸ d÷ liÖu
371 372
ph¬ng tiÖn x· héi (data mining in social media) vµ häc m¸y kh«ng dõng (non-
ending learning) lµ nh÷ng chñ ®Ò nghiªn cøu næi bËt trong thêi gian gÇn ®©y.
10.4.2.1. Khai ph¸ d÷ liÖu ph¬ng tiÖn x· héi
Néi dung do ngêi dïng t¹o ra (UGC) ®· trë thµnh bé phËn chiÕm träng sè
lín t¨ng trëng khèi lîng d÷ liÖu (Ch¬ng 1) lµ nÒn t¶ng cho sù ph¸t triÓn
nhanh chãng cña khai ph¸ d÷ liÖu ph¬ng tiÖn x· héi (social media).
H×nh 10.5 Ph©n lo¹i m¹ng x· héi theo hiÖn diÖn x· héi/phong phó ph¬ng tiÖn truyÒn th«ng (social presence/media richness) vµ tù tr×nh bµy/ tù tiÕt lé (self-presentation / self-disclosure)
[HK10]
Theo Andreas M Kaplan vµ Michael Haenlein [KH10], thuËt ng÷ "ph¬ng
tiÖn x· héi" ®îc hiÓu lµ "mét nhãm c¸c øng dông dùa trªn Internet ®îc x©y
dùng trªn nÒn t¶ng t tëng vµ c«ng nghÖ cña Web 2.0 cho phÐp t¹o vµ trao ®æi
néi dung do ngêi dïng t¹o ra". Theo c¸c t¸c gi¶, thêi ®¹i cña ph¬ng tiÖn x·
héi ®îc b¾t ®Çu tõ viÖc ra ®êi cña trang web ‘‘Open Diary’’32 (NhËt ký më) cña
Bruce vµ Susan Abelson (vµo th¸ng 5/2012, Open Diary cã trªn 381 ngh×n nhËt
ký më). Hai chiÒu ®Æc trng c¬ b¶n ph©n biÖt c¸c lo¹i ph¬ng tiÖn x· héi lµ hiÖn
diÖn x· héi/phong phó ph¬ng tiÖn truyÒn th«ng (social presence/media
richness) vµ tù tr×nh bµy/ tù tiÕt lé (self-presentation / self-disclosure). C¸c t¸c
gi¶ gi¶i thÝch chi tiÕt vÒ néi dung ng÷ nghÜa cña hai chiÒu ®Æc trng nµy. B¶ng
ph©n lo¹i c¸c ph¬ng tiÖn x· héi theo hai chiÒu ®Æc trng nãi trªn ®· ®îc ®a ra
32 http://www.opendiary.com/
(H×nh 10.3). Theo Jure Leskovec [Lesk11], ph¬ng tiÖn x· héi ®îc thiÕt kÕ ®Ó
phæ biÕn th«ng qua t¬ng t¸c x· héi. Ph¬ng tiÖn x· héi ®îc thi hµnh b»ng c¸c
m¹ng x· héi trùc tuyÕn ®· t¹o nªn nguån d÷ liÖu vÒ ®êi sèng x· héi loµi ngêi.
Chóng ta dïng thuËt ng÷ khai ph¸ d÷ liÖu ph¬ng tiÖn x· héi ®Ó chØ c¸c
nghiªn cøu vµ triÓn khai khai ph¸ d÷ liÖu tõ ph¬ng tiÖn x· héi vµ tõ m¹ng x·
héi trùc tuyÕn, néi dung do ngêi dïng t¹o ra ... do mèi liªn quan chÆt chÏ cña
chóng víi ph¬ng tiÖn x· héi. D÷ liÖu ph¬ng tiÖn x· héi tr¶i trªn mét miÒn
réng lín c¸c lÜnh vùc trong ®êi sèng x· héi, ®Æc biÖt chóng ph¶n ¸nh tÝnh "hiÖn
thêi" cña ®êi sèng cho nªn khai ph¸ d÷ liÖu ph¬ng tiÖn x· héi cßn lµ néi dung
chñ yÕu cña "ph©n tÝch cuéc sèng" (living analytics33). Cã thÓ nãi khai ph¸ d÷
liÖu ph¬ng tiÖn x· héi héi tô nh÷ng néi dung thêi sù nhÊt vÒ m¹ng x· héi, vÒ
khai ph¸ d÷ liÖu, vÒ tiÕp thÞ vµ kinh doanh, vÒ hµnh vi con ngêi...
RÊt nhiÒu c«ng tr×nh nghiªn cøu vÒ khai ph¸ d÷ liÖu ph¬ng tiÖn x· héi ®·
vµ sÏ ®îc c«ng bè. David Easley vµ Jon Kleinberg [EK10], Jiawei Han vµ céng
sù [HSYY10], Jure Leskovec [Lesk11], David Easley vµ Jon Kleinberg [EK10]
cung cÊp c¸c khÝa c¹nh kh¸c nhau cña mét khung nh×n tæng thÓ vÒ khai ph¸ d÷
liÖu ph¬ng tiÖn x· héi bao gåm c¸c kh¸i niÖm vµ néi dung vÒ ph¬ng tiÖn x·
héi, ý nghÜa kinh tÕ vµ x· héi cña nghiªn cøu ph¬ng tiÖn x· héi.
Hai kiÓu ®èi tîng nghiªn cøu chÝnh trong khai ph¸ d÷ liÖu ph¬ng tiÖn x·
héi lµ néi dung ph¬ng tiÖn x· héi vµ cÊu tróc ph¬ng tiÖn x· héi (m¹ng x· héi).
Khai ph¸ d÷ liÖu néi dung ph¬ng tiÖn x· héi ®Ó chØ ho¹t ®éng khai ph¸ d÷ liÖu
néi dung v¨n b¶n mµ ngêi dïng t¹o ra trªn ph¬ng tiÖn x· héi. Thµnh phÇn nµy
t¹o thµnh mét miÒn øng dông rÊt réng lín. Khai ph¸ d÷ liÖu cÊu tróc ph¬ng tiÖn
x· héi ®Ó chØ ho¹t ®éng khai ph¸ d÷ liÖu vÒ cÊu tróc m¹ng x· héi t¬ng øng víi
ph¬ng tiÖn x· héi. H¬n n÷a, khai ph¸ d÷ liÖu còng ®îc tiÕn hµnh dùa trªn sù
kÕt hîp néi dung vµ cÊu tróc trong ph¬ng tiÖn x· héi. Ph¬ng tiÖn x· héi lµ mét
c¸ch thøc mµ ngêi dïng bÊt kú trong x· héi ®Òu cã thÎ chia sÎ vµ ®ãng gãp néi
dung, bµy tá quan ®iÓm vµ kÕt nèi víi nh÷ng ngêi kh¸c, v× vËy ph¬ng tiÖn x·
héi mang h¬i thë cña cuéc sèng ®êi thêng ®ang diÔn ra víi tÝnh ®éng cao.
33 http://www.larc.smu.edu.sg/
373 374
Khai ph¸ d÷ liÖu néi dung ph¬ng tiÖn x· héi ®Ò cËp tíi toµn bé néi dung
cña hai líp bµi to¸n khai ph¸ d÷ liÖu m« t¶ vµ dù b¸o; nã huy ®éng mét ph¹m vi
toµn diÖn c¸c thuËt to¸n khai ph¸ d÷ liÖu [HSYY10, Lesk11]. Khai ph¸ d÷ liÖu
néi dung ph¬ng tiÖn x· héi cã mét ph¹m vi øng dông rÊt réng lín trong qu¶n lý
danh tiÕng (reputation management), tiÕp thÞ ph¬ng tiÖn x· héi (Social media
marketing), ph¶n øng c«ng d©n (citizen response), ph©n tÝch hµnh vi con ngêi
(Human behavior analysic), phãng viªn c«ng d©n thêi gian thùc (Real time
citizen journalist) vµ rÊt nhiÒu øng dông kh¸c.
Ch¼ng h¹n, Craig Macdonald vµ céng sù [MSOS10] cho mét ph©n tÝch vÒ
c¸c nghiªn cøu khai ph¸ d÷ liÖu blogs trong khu«n khæ TREC giai ®o¹n 2006-
2009 ®èi víi ba bµi to¸n: ph¸t hiÖn quan ®iÓm (opinion-finding) ®èi víi mét ®èi
tîng ®· cho (Ngêi sö dông blogs nghÜ g× vÒ ®èi tîng X ®· cho?), chng cÊt
blog (blog distillation) ®Ó t×m ra c¸c blog quan t©m tíi ®èi tîng X (T×m blog
quan t©m chÝnh, ®Þnh kú tíi X ?) vµ ph¸t hiÖn tin næi bËt (top news) tõ blogs (t×m
c¸c tin cã gi¸ trÞ gÇn ®©y nhÊt ?). Hµng chôc c«ng tr×nh nghiªn cøu tham gia
TREC-Blogs Track cung cÊp mét phæ réng lín c¸c gi¶i ph¸p khai ph¸ d÷ liÖu ®Ó
gi¶i quyÕt ba bµi to¸n nãi trªn. Theo c¸c t¸c gi¶, bµi to¸n ph¸t hiÖn quan ®iÓm
(bµi to¸n ®Çu tiªn) tõ blogs kh«ng cã nhiÒu kh¸c biÖt so víi bµi to¸n khai ph¸
quan ®iÓm nãi chung.
Xem xÐt mét nghiªn cøu kh¸c vÒ khai ph¸ d÷ liÖu microblogs. §Æc thï vÒ
®é dµi th«ng ®iÖp ng¾n, vÒ cÊu tróc liªn kÕt thµnh viªn vµ th«ng ®iÖp t¹o ra mét
sè yÕu tè bæ sung cho khai ph¸ d÷ liÖu néi dung tõ microblogs. TÝnh cËp nhËt
th«ng tin nhanh trªn microblogs lµ tiÒn ®Ò cho c¸c gi¶i ph¸p dù b¸o ng¾n h¹n
trªn microblogs. Trong [MCB11], Huina Mao vµ céng sù cung cÊp mét kh¶o s¸t
c«ng phu vÒ c¸c chØ sè t©m tr¹ng cña nhµ ®Çu t chøng kho¸n gåm cã tû lÖ phÇn
tr¨m t¨ng gi¸ DSI (DSI bullish percentage: DSI), chØ sè th«ng minh cña nhµ ®Çu
t (Investor Intelligence: II), ®¸nh gi¸ nhµ ®Çu t Twitter (Twitter Investor
Sentiment: TIS), lîng thuËt ng÷ t×m kiÕm tµi chÝnh Twest (Tweet volumes of
financial search terms: TV-FST), ®¸nh gi¸ tin tøc tiªu cùc (Negative News
Sentiment: NNS), vµ lîng t×m kiÕm Google cña c¸c thuËt ng÷ tµi chÝnh (Google
search volumes of financial search terms: GIS). Qua thùc nghiÖm theo thêi gian
mét tuÇn, c¸c t¸c gi¶ ph¸t hiÖn r»ng GIS cã ®é liªn quan ®¸ng kÓ víi c¸c chØ sè
tµi chÝnh ph©n biÖt (different financial indexes: DJIA) vµ nh vËy GIS cã thÓ
thay thÕ c¸c chØ sè dù b¸o tµi chÝnh. Tuy nhiªn, ®èi víi chØ sè th«ng minh nhµ
®Çu t (II) th× kh«ng cã ®îc vai trß ®ã. §é chÝnh x¸c cña dù b¸o cã thÓ c¶i
thiÖn khi lµm giµu ®Æc trng. Thùc nghiÖm theo thêi gian ngµy cho thÊy TIS vµ
TV-FST cho phÐp dù b¸o tèt ®¸ng kÓ theo thèng kª vÒ hoµn vèn thÞ trêng hµng
ngµy trong khi DSI th× kh«ng cho phÐp. NNS còng cho kÕt qu¶ theo chiÒu híng
t¬ng tù nh TSI vµ TV-FST nhng kÐm h¬n vÒ ®é liªn quan.
Khai ph¸ d÷ liÖu cÊu tróc ph¬ng tiÖn x· héi ®Ò cËp tíi mÉu vµ tÝnh ®éng
cña cÊu tróc ph¬ng tiÖn x· héi. MÉu cÊu tróc cña mét ph¬ng tiÖn x· héi phï
hîp víi tÝnh chÊt chung cña m¹ng x· héi vµ ®Æc tÝnh riªng cña ph¬ng tiÖn x·
héi ®ã.
TÝnh chÊt chung cña m¹ng x· héi gåm tÝnh chÊt thÕ giíi nhá (small world),
liªn kÕt m¹nh – yÕu (strong – weak tie), ph©n bè luËt lòy thõa (power law
distribution, cÊu tróc céng ®ång (community). Tinh chÊt thÕ giíi nhá chØ ra r»ng
®é dµi ®êng ®i liªn kÕt hai ®Ønh bÊt kú trong m¹ng x· héi kh«ng vît qu¸ mét
sè nguyªn d¬ng nhá. TÝnh chÊt nµy ®îc Stanley Milgram ph¸t hiÖn tõ thùc
nghiÖm vµo n¨m 1969. TÝnh chÊt liªn kÕt m¹nh – yÕu chØ ra r»ng liªn kÕt gi÷a
hai nót trong m¹ng x· héi kh«ng gièng nhau vµ ®¬c chia thµnh hai líp liªn kÕt
m¹nh vµ liªn kÕt yÕu. VÒ mÆt x· héi, liªn kÕt m¹nh thÓ hiÖn mèi quan hÖ ngêi
th©n, cßn liªn kÕt yÕu thÓ hiÖn mèi quan hÖ míi tiÕp xóc. Trong nhiÒu trêng
hîp, liªn kÕt m¹nh - yÕu cßn ®îc chuyÓn ®æi thµnh liªn kÕt d¬ng - ©m ®Ó chØ
mèi liªn kÕt ®ång thuËn hoÆc tr¸i ngîc nhau. Ph©n bè luËt lòy thõa (power law
distribution): sè nót cã k liªn kÕt tíi b»ng kho¶ng 1/k2 víi sè k>2, cÊu tróc céng
®ång (community): tËp tÊt c¶ c¸c nót cã thÓ ®îc ph©n chia thµnh mét sè nhãm
c¸c nót cã tÝnh chÊt chung.
Dù b¸o liªn kÕt lµ mét bµi to¸n quan träng trong khai ph¸ d÷ liÖu cÊu tróc
ph¬ng tiÖn x· héi. L. Liu vµ T. Zhou [LZ10] cung cÊp mét tæng quan vÒ dù
b¸o liªn kÕt trong m¹ng x· héi. Cho ®å thÞ v« híng m¹ng x· héi G=(V,E) trong
®ã V lµ tËp n ®Ønh, E lµ tËp cung ®· cã trong tËp U gåm tÊt c¶ n*(n-1)/2 c¸c
cung cã thÓ cã. Bµi to¸n ®Æt ra lµ t×m ra c¸c cung cã thÓ cã trong t¬ng lai tõ tËp
375 376
U\E. C¸c t¸c gi¶ hÖ thèng hãa c¸c thuËt to¸n gi¶i quyÕt bµi to¸n dù b¸o liªn kÕt,
bao gåm c¸c thuËt to¸n dùa trªn ®é t¬ng tù, c¸c thuËt to¸n dùa theo cùc ®¹i kh¶
n¨ng, c¸c thuËt to¸n dùa trªn m« h×nh x¸c suÊt. J. Leskovec vµ céng sù [LHK10]
®Ò xuÊt ph¬ng ph¸p häc m¸y håi quy ®Ó dù b¸o liªn kÕt ©m – d¬ng trong m¹ng
x· héi. Sè lîng mÉu quan hÖ gi÷a c¸c liªn kÕt ®îc thu gän dùa trªn lý thuyÕt c©n
b»ng (balance theory) vµ lý thuyÕt tr¹ng th¸i (status theory) [EK10], v× vËy, m« h×nh
häc m¸y dù b¸o håi quy thi hµnh hiÖu qu¶ h¬n.
10.4.2..2 Häc m¸y kh«ng dõng
Kú väng vÒ mét hÖ thèng häc m¸y lµm ®îc nh con ngêi "häc suèt ®êi,
trë nªn häc tèt h¬n quan thêi gian" xuÊt hiÖn tõ nh÷ng n¨m 1980, tuy nhiªn, c¸c
kÕt qu¶ nghiªn cøu vÒ häc m¸y kh«ng dõng (never-ending learning) cha ®îc
nh kú väng. Thêi gian gÇn ®©y, mét vµi nhãm nghiªn cøu, trong ®ã cã nhãm
nghiªn cøu t¹i Canergie Mellon University (Tom M. Mitchell vµ céng sù) lµ mét
trong nh÷ng nhãm ®i tiªn phong vÒ chñ ®Ò vµ ®· c«ng bè mét sè kÕt qu¶ nghiªn
cøu ®¸ng chó ý.
Lý tëng hãa, häc m¸y kh«ng dõng lµ häc c¸ch häc ®Ó ®¸nh gi¸, chän
lùa... m« h×nh gi¶i quyÕt bµi to¸n, mµ kh«ng ph¶i vÒ häc trùc tiÕp m« h×nh gi¶i
quyÕt bµi to¸n. Vµ nh vËy cã sù kh¸c nhau vÒ b¶n chÊt gi÷a häc m¸y kh«ng
dõng víi häc m¸y c¶i tiÕn m« h×nh dùa trªn viÖc bæ sung d÷ liÖu hoÆc tri thøc
miÒn øng dông (häc t¨ng cêng: reinforcement learning, häc tÝch cùc: active
learning). Tuy nhiªn, trªn thùc tÕ, tiÕp cËn häc kh«ng dõng cha ®¹t ®îc møc lý
tëng mµ ë møc lµ bíc tiÕn míi cña häc t¨ng cêng, häc tÝch cùc [MCCC10].
H×nh 10.4. Kiªn tróc mét hÖ thèng häc kh«ng dõng [CBKSH10]
Andrew Carlson vµ céng sù [CBKSH10] cung cÊp luËn ®iÓm chung vÒ viÖc
x©y dùng c¸c hÖ thèng häc m¸y ng«n ng÷ kh«ng dõng (Never-Ending Language
Learner: NELL):
- ChØ sö dông c¸c thµnh phÇn con t¹o ra lçi kh«ng t¬ng quan. HÖ thèng
bao gåm c¸c thµnh phÇn con nh vËy sÏ cho tû lÖ lçi thÊp.
- NhiÒu kiÓu häc c¸c tri thøc cã liªn quan nhau. Víi c¸c bé häc nh vËy
cho phÐp t¹o c¸c nguån phøc, ®éc lËp nhau ®Ó t¹o ra cïng mét kiÓu tri thøc ch©n
lý,
- Dïng c¸c ph¬ng ph¸p häc m¸y b¸n gi¸m s¸t ghÐp cÆp ®Ó h¹n chÕ rµng
buéc gi÷a c¸c tõ vÞ ®îc häc. T¹o th môc ph©n cÊp (taxonomy) c¸c líp vµ c¸c
quan hÖ ®Ó x¸c ®Þnh ®îc quan hÖ cha-con, quan hÖ lo¹i trõ nhau gi÷a c¸c líp
(quan hÖ) ®Ó thuËn tiÖn trong viÖc lo¹i trõ rµng buéc gi÷a c¸c vÞ tõ häc ®îc.
- Ph©n biÖt ®îc ®èi tîng ch©n lý (belief) tin cËy cao trong c¬ së tri thøc
víi c¸c øng viªn tin cËy thÊp. Gi÷ l¹i gi¶i thÝch nguån cho mçi ch©n lý.
- Sö dông mét tr×nh diÔn c¬ së tri thøc thèng nhÊt ®Ó n¾m b¾t ®îc c¸c sù
kiÖn øng viªn vµ ch©n lý ®îc n©ng cÊp cña mäi kiÓu; dïng c¬ chÕ chØ dÉn vµ
häc phï hîp mµ cã thÓ thao t¸c ®îc trªn tr×nh diÔn dïng chung ®ã.
377 378
Dùa trªn luËn ®iÕm chung ®ã, c¸c t¸c gi¶ ®Ò xuÊt mét m« h×nh thi hµnh
NELL víi 4 hÖ thèng thµnh phÇn (H×nh 10.4):
- Bé häc mÉu ghÐp cÆp (Coupled Pattern Learner: CPL): Mét bé trÝch xuÊt
v¨n b¶n tiÕn hµnh häc vµ sö dông mÉu ng÷ c¶nh kiÓu "mayor of X" vµ "X plays
for Y" ®Ó trÝch xuÊt c¸c thÓ hiÖn cña c¸c líp vµ c¸c quan hÖ. CPL sö dông thèng
kª ®ång -xuÊt hiÖn côm danh tõ vµ mÉu ng÷ c¶nh (c¶ hai ®îc x¸c ®Þnh khi dïng
d·y thÎ POS) ®Ó häc trÝch xuÊt mÉu cho mçi vÞ tõ quan t©m vµ sau ®ã sö dông
c¸c mÉu nµy ®Ó t×m c¸c thÓ hiÖn bæ sung cña mçi vÞ tõ.
- Coupled SEAL (CSEAL: Coupled Set Expander for Any Language): Mét bé trÝch xuÊt b¸n cÊu tróc ®Æt truy vÊn Internet víi tËp ch©n lý cho mçi líp hoÆc quan hÖ, vµ sau ®ã khai ph¸ c¸c danh s¸ch vµ c¸c b¶ng ®Ó trÝch xuÊt ra c¸c thÓ hiÖn cho c¸c vÞ tõ t¬ng øng. CSEAL sö dông c¸c quan hÖ lo¹i trõ lÉn nhau ®Ó cung cÊp c¸c ph¶n vÝ dô, ®îc dïng ®Ó läc ra danh s¸ch vµ c¸c b¶ng qu¸ chung chung.
- C¸c bé ph©n líp h×nh th¸i ghÐp cÆp (Coupled Morphological Classifier: CMC): Mét tËp c¸c m« h×nh ph©n líp håi quy logistic nhÞ ph©n L2 (mét m« h×nh cho mét líp) tiÕn hµnh ph©n líp c¸c côm danh tõ dùa vµo c¸c ®Æc trng h×nh th¸i kh¸c nhau (tõ, viÕt hoa, phô tè, c¸c POS.... Ch©n lý tõ c¬ së tri thøc ®îc dïng lµm vÝ dô häc, nhng mçi CMC cÇn thùc hiÖn lÆp ®Ó cã Ýt nhÊt 100 thÓ hiÖn bæ sung.
- Bé häc luËt (Rule Learner: RL): Mét bé häc luËt theo thuËt to¸n häc quan hÖ cÊp 1 t¬ng tù nh thuËt to¸n FOIL häc luËt Horn x¸c suÊt ®Ó nhËn ®îc c¸c thÓ hiÖn míi cña c¸c quan hÖ tõ c¸c thÓ hiÖn quan hÖ cã trong c¬ së tri thøc.
C¸c t¸c gi¶ ®· tiÕn hµnh ch¹y thùc nghiÖm NELL vµ sau 67 ngµy thi hµnh ®îc 66 vßng lÆp. KÕt qu¶ nhËn ®îc 242,453 ch©n lý míi tÝnh theo mäi vÞ tõ, 95% trong dã lµ thÓ hiÖn cña líp vµ 5% lµ thÓ hiÖn cña quan hÖ. NELL cho thÊy sù tiÕn bé ®¸ng kÕ cña qu¸ tr×nh hiÖn thùc hãa c¸c hÖ thèng häc m¸y kh«ng dõng.
C©u hái vµ Bµi tËp
10.1. H·y nhËn diÖn trêng hîp cÇn thiÕt ph¶i triÓn khai dù ¸n khai ph¸ d÷ liÖu.
10.2. TÝnh chÊt cña d÷ liÖu cho bµi to¸n khai ph¸ d÷ liÖu.
10.3. TÝnh chÊt cña tri thøc kÕt qu¶ cña qu¸ tr×nh khai ph¸ d÷ liÖu.
10.4. §Æc trng cña chuyªn viªn khai ph¸ d÷ liÖu.
10.5. Khai ph¸ ph¬ng tiÖn x· héi.
10.6. Kh¸i niÖm häc kh«ng dõng vµ tiÕp cËn thi hµnh hÖ thèng häc kh«ng dõng.
Tµi liÖu tham kh¶o
[AGHHL07] Sarabjot Singh Anand, Marko Grobelnik, Frank Herrmann, Mark
Hornick and Christoph Lingenfelder, et al. (2007). Knowledge discovery standards, Artificial Intelligence Review (2007), 27 (1): 21-56.
[AGHLRW07] Sarabjot S. Anand, Marko Grobelnik, Frank Herrmann, Mark F. Hornick, Christoph Lingenfelder, Niall Rooney, Dietrich Wettschereck (2007). Knowledge discovery standards, Artif. Intell. Rev. 27(1): 21-56 (2007).
[ARA1] A.Rajaraman, J. D.Ullman, Mining of Massive Datasets, 2011, Cambridge University Press.
[AS00] Rakesh Agrawal, Ramakrishnan Srikant (2000). Privacy-Preserving Data Mining, SIGMOD Conference 2000: 439-450.
[BCGJ11] Francesco Bonchi, Carlos Castillo, Aristides Gionis, Alejandro Jaimes (2011). Social Network Analysis and Mining for Business Applications, ACM TIST 2(3): 22 (2011).
[BEF84] James C. Bezdek, Robert Ehrlich, William Full (1984). FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10 (2–3, 1984): 191–203.
[BLI1] B.Liu, Web data mining: exploring hyperlinks, contents, and usage data, 2nd Edition, Springer.
[Blum98] A. Blum vµ T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of the Workshop on Computational Learning Theory, pages 92-100, 1998.
[BNGC00] Jeff Bowes, Eric Neufeld, Jim E. Greer, John Cooke (2000). A Comparison of Association Rule Discovery and Bayesian Network Causal Inference Algorithms to Discover Relationships in Discrete Data, Canadian Conference on AI 2000: 326-336.
379 380
[Branson02] S. Branson vµ A. Greenberg, Clustering Web Search Results Using Suffix Tree Methods, Final project report, 2002.
[Bryn93] Brynjolfsson, Erik (1993). "The productivity paradox of information technology". Communications of the ACM 36 (12): 66–77.
[BS02] Julian Birkinshaw and Tony Sheehan (2002). Managing the Knowledge Life Cycle, Sloan Management Review, Fall 2002, 44 (3): 75-83.
[Carr03] Nicholas G. Carr. IT does'n matter! HBR at Large, May 2003: 41-49. [Carr05]Nicholas G. Carr. The end of corporate computing, MIT Sloan Management
Review, Spring 2005: 67-73. [CBKSH10] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam
R. Hruschka Jr., and Tom M. Mitchell (2010). Toward an Architecture for Never-Ending Language Learning, AAAI 2010.
[CBKSH10] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R. Hruschka Jr., Tom M. Mitchell (2010). Toward an Architecture for Never-Ending Language Learning, AAAI 2010: 1306-1313.
[CCG98] Kenneth Collier, Bernard Carey, Ellen Grusy, Curt Marjaniemi, Donald Sautter (1998). A Perspective on Data Mining, Technical Reporrt, Northern Arizona University
[CCGMS98]. Collier K., Carey B., Grusy E., Marjaniemi C., and Sautter D. (1998). A Perspective on Data Mining, Technical Report, Northern Arizona University.
[CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer and Rüdiger Wirth (2000). CRISP-DM 1.0: Step-by-step data mining guide, The CRISP-DM consortium, August 2000.
[CD05] Derek H. C. Chen and Carl J. Dahlman (2005). The Knowledge Economy, the KAM Methodology and World Bank Operations, The World Bank, October 19, 2005.
[CD10] Christophe Giraud Carrier, Margaret H. Dunham (2010). On the Importance of Sharing Negative Results, ACM SIGKDD Explorations newsletter, 12(2): 3-4.
[Chen07] Xiujuan Chen (2007). Computational Intelligence Based Classifier Fusion Models For Biomedical Classification Applications, PhD Thesis, Georgia Stage University, USA.
[Christopher08] C. D. Manning vµ P. Raghavan vµ H. Schutze, An Introduction to Information Retrieval, nhµ xuÊt b¶n Cambridge University Press, 2008.
[CKV04] Chris Clifton, Murat Kantarcioglu and Jaideep Vaidya (2004). Defining Privacy for Data Mining, Next Generation Data Mining (AAAI/MIT Press 2004).
[Cui] X. Cui, T. E. Potok vµ Paul Palathingal, Document Clustering using Particle Swarm Optimization, IEEE Swarm Intelligence Symposium, The Westin, 2005.
[Cutting93] Cutting, D. R., D. R. Karger, vµ J. O. Pedersen. Constant interaction-timescatter/gather browsing of very large document collections. In SIGIR '93: Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, 126-134. ACM Press, 1993.
[CYZZ10] Longbing Cao, Philip S. Yu, Chengqi Zhang, Yanchang Zhao (2010). Domain Driven Data Mining, Springer, 2010.
[Dempster77] A. Dempster, N. Laird, vµ D. Rubin, Likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977.
[Dempster77] A. P. Dempster, N. M. Laird, & D. B. Rubin, Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39 (1), 1-38, 1977.
[Deng10] Mina Deng (2010). Privacy Preserving Content Protection, PhD Thesis, Katholieke Universiteit Leuven.
[DHP06] D. Dubois, E. Hullermeier, H. Prade (2006). A systematic approach to the assessment of fuzzy association rules, Data Mining and Knowledge Discovery, 13(2): 1–26.
[DMSV03] Miguel Delgado, Nicolás Marín, Daniel Sánchez, and María-Amparo Vila (2003). Fuzzy Association Rules: General Model and Applications, IEEE Transactions On Fuzzy Systems, 11 (2): 214-225, April 2003.
[DP90] D. Dubois and H. Prade (1990). Rough fuzzy sets and fuzzy rough sets, International Journal of General Systems, 17:191-209.
[EK10] David Easley and Jon Kleinberg (2010). Networks, Crowds, and Markets: Reasoning about a Highly Connected World, Cambridge University Press, 2010.
[Elroy00] Mark W. McElroy (2000). The New Knowledge Management, Knowledge And Innovation, Journal of the KMCI, 1(1): 43-67, October 15, 2000.
[Elroy02] Mark W. McElroy (2002). Corporate Epistemology And The New Knowledge Management, Managing The Complex: IV Conference, 2002.
[EM03] L. Egghe, C. Michel (2003). Construction of weak and strong similarity measures for ordered sets of documents using fuzzy set techniques. Information Processing and Management 39 (2003), 771–807
[FPS96] Fayyad, Piatetsky-Shapiro, Smyth (1996). From Data Mining to Knowledge Discovery: An Overview. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy,
381 382
Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, 1-34.
[FPS96] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From Data Mining to Knowledge Discovery: An Overview. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, 1-34.
[Fried97] Jerome H. Friedman (1997). Data Mining and Statistics: What's the Connection? Technical report, Department of Statistics and Stanford Linear Accelerator Center, Stanford Linear Accelerator Center, Stanford University, 1997.
[Gar05] Ken McGarry (2005). A Survey of Interestingness Measures for Knowledge Discovery, The Knowledge Engineering Review, 20(1): 39–61, Cambridge University Press, 2005.
[Garry05] Ken McGarry (2005). A Survey of Interestingness Measures for Knowledge Discovery, The Knowledge Engineering Review, 20(1): 39-61, March 2005.
[GH06] Liqiang Geng and Howard J. Hamilton (2006). Interestingness Measures for Data Mining: A Survey, ACM Computing Surveys, 38 (3), Article 9.
[GH06] Liqiang Geng and Howard J. Hamilton (2006). Interestingness Measures for Data Mining: A Survey, ACM Computing Surveys, 38 (3), Article 9.
[Gold10] Andrew Brian Goldberg (2010). New directions in semi-supervised learning, PhD. Thesis, University of Wisconsin-Madison, 2010.
[Goldman00] S. Goldman vµ Y. Zhou, Enhancing Supuervised Learning with Unlabeled Data. Proceedings of ICML, pp. 327-334, 2000.
[GP10] Martin McGrane, Simon K. Poon (2010). Interaction as an Interestingness Measure, ICDM Workshops 2010: 726-731
[GR11] John Gantz and David Reinsel (2011). Extracting Value from Chaos, A Report Sponsored by EMC Corporation, June 2011.
[Grube09] C. Grube (2009). Measuring the Immeasurable (Part I: Knowledge as a valuable resource , Part III: Patent valuation), Springer, 2009.
[Guses10] Fahriye Seda Gurses (2010). Multilateral Privacy Requirements Analysis in Online Social Network Services, PhD Thesis, Katholieke Universiteit Leuven.
[Guses10] Fahriye Seda Gurses (2010). Multilateral Privacy Requirements Analysis in Online Social Network Services, PhD Thesis, Katholieke Universiteit Leuven.
[GZ11] Xinjing Ge and Jianming Zhu (2011). Privacy Preserving Data Mining (New Fundamental Technologies in Data Mining: Chapter 29), INTECH, 2011.
[Han06] J. Han and M. Kamber, Data Mining-Concepts and Techniques, Morgan Kaufmann, 2006 (t¸i b¶n n¨m 2006).
[Haw04] Brian L. Hawkins (2004). A Framework for the CIO Position, Educause Review, 39(6) : 94–103, November/December 2004.
[HF09] Yang Hang, Simon Fong (2009). A Framework of Business Intelligence-Driven Data Mining for E-business, NCM 2009: 1964-1970.
[HG09] Jiawei Han and Jing Gao (2009). Research Challenges for Data Mining in Science and Engineering (Chapter 1 in “Next Generation of Data Mining”, Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, Vipin Kumar, editors), Chapman & Hall, 2009.
[HGEK07] Xuan-Hiep Huynh, Fabrice Guillet, Julien Blanchard, Pascale Kuntz, Henri Briand, and Regis Gras (2007). A graph-based clustering approach to evaluate interestingness measures : a tool and a comparative study, in ("Quality Measures in Data Mining, Fabrice Guillet, Howard J. Hamilton (Ed.), 2007): 25-50.
[Hiro06] Takeuchi Hirotaka (2006). The New Dynamism of the Knowledge-Creating Company, In Japan Moving Toward a More Advanced Knowledge Economy: Advanced Knowledge: Creating Companies, by Takeuchi, Hirotaka and Tsutomu Shibata. Washington, D.C.: World Bank Institute (WBI), 2006.
[HK0106] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques, Morgan Kaufmann, 2006 (t¸i b¶n n¨m 2006)
[HKK97] Eui-Hong (Sam) Han, George Karypis, and Vipin Kumar. Scalable Parallel Data Mining for Association Rules. Department of Computer Science, University of Minnesota, 4-192 EECS Building, 200 Union St. SE, Minneapolis, MN 55455, USA.
[Hop10] John Hopcroft (2010). Computer Science Theory to support Research in the Information Age, Seminar Report, University of Southern California, April 6, 2010.
[Hop11] John Hopcroft (2011). Computing and the Future, Microsoft Latin American Faculty Summit, Catagena, May 18, 2011.
[HP03] Enrique Herrera-Viedma, Eduardo Peis (2003). Evaluating the informative quality of documents in SGML format from judgements by means of fuzzy linguistic techniques based on computing with words. Inf. Process. Manage, 39(2):233-249.
[Hsu02] C.W. Hsu and C.-J. Lin, A comparison of methods for multi-class support vector machines, IEEE transactions on Neural Networks, vol. 13, pp. 415-425, 2002.
[HSYY10] Jiawei Han, Yizhou Sun, Xifeng Yan, Philip S. Yu (2010). Mining Knowledge from Databases: An Information Network Analysis Approach, ACM SIGMOD Conference Tutorial, 2010.
383 384
[HTF09] Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Second Edition), Springer, 2009.
[Hul11] Eyke Hullermeier (2011). Fuzzy sets in machine learning and data mining, Appl. Soft Comput. 11(2): 1493-1505 (2011).
[Hunter10] Gordon Hunter (2010). The Chief Information Officer: A Review of the Role, Journal of Information, Information Technology, and Organizations, 5: 125-143, 2010.
[Hyll08] Eyke Hüllermeier (2008). Fuzzy Methods for Data Mining and Machine Learning: State ofthe Art and Prospects, Fuzzy Sets and Their Extensions: Representation, Aggregation and Models 2008: 357-375.
[HZ10] Mojdeh Jalali Heravi, Osmar R. Zaïane (2010). A study on interestingness measures for associative classifiers, SAC 2010: 1039-1046.
[IDC10] IDC Digital Universe Study, sponsored by EMC, May 2010 [Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition), Wiley
Computer Publishing, 2002. [JC10] Richard Jensen, Chris Cornelis (2010). Fuzzy-rough instance selection,
FUZZ-IEEE 2010: 1-7. [JC11] Richard Jensen, Chris Cornelis (2011). Fuzzy-Rough Nearest Neighbour
Classification, Transactions on Rough Sets XIII (J.F. Peters et al., Eds.): 56-72.
[Jen05] Richard Jensen (2005). Combining rough and fuzzy sets for feature selection, PhD Thesis, University of Edinburgh.
[Jen11] Richard Jensen (2011). Fuzzy-rough data mining (A tutorial), Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia, June 25 - June 27, 2011.
[Jensen05] Richard Jensen (2005). Combining rough and fuzzy sets for feature selection, PhD Thesis, University of Edinburgh, 2005.
[Jensen11] Richard Jensen (2011). Fuzzy-rough data mining, A Tutorial in Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia.
[JIA1] H.Jiawei, P. Jian, Y.Yiwen, Mining frequent patterns without candidate generation.
[JIA2] H. Jiawei, M.Kamber, and P.Jian, Data Mining: Concepts and Techniques, 3 edition, Morgan Kaufmann, 2011.
[JS09] Richard Jensen, Qiang Shen (2009). New Approaches to Fuzzy-Rough Feature Selection. IEEE T. Fuzzy Systems 17(4): 824-838 (2009).
[KFW98] Chan Man Kuok, Ada Wai-Chee Fu, Man Hon Wong (1998). Mining Fuzzy Association Rules in Databases, SIGMOD Record 27(1): 41-46 (1998).
[KH10] Andreas M Kaplan, Michael Haenlein (2010). Users of the world, unite! The challenges and opportunities of Social Media, Business horizons (2010), 53:59-68.
[Kim03] Won Kim (2003). “Data Mining” Is NOT Against Civil Liberties, ACM Special Interest Group on Knowledge Discovery and Data Mining, www.acm.org/sigkdd/, June 30, 2003.
[KV01] Boris Kovalerchuk and Evgenii Vityaev (2001). Data Mining in Finance: Advances in Relational and Hybrid Methods. Kluwer Academic Publishers, Boston, Dordrecht - London, 2001
[Lang95] K. Lang, Newsweeder: Learning to filter netnews. Proceedings of the Twelfth International Conference (ICML '95), pp. 331-339, 1995.
[Leary95] Daniel O'Leary (1995). Some Privacy Issues in Knowledge Discovery: OECD Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52.
[Lesk08] Jure Leskovec (2008). Dynamics of large networks, PhD Thesis, Carnegie Mellon University.
[Lesk11] Jure Leskovec (2011). Social Media Analytics, Tutorial at the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Part 1: Information flow, Part2: Rich Interactions), 2011.
[LH97] Lee J. H. and Hyung L. K. (1997). An Extension of Association Rules using Fuzzy Sets, Seventh IFSA World Congress: 399-402, Prague.
[LHK10] J. Leskovec, D. Huttenlocher, J. Kleinberg (2010). Predicting Positive and Negative Links in Online Social Networks, WWW, 2010, ACM Press, New York.
[Li07] Jiye Li (2007). Rough Set Based Rule Evaluations and Their Applications. PhD. Thesis, University of Waterloo, Ontario, Canada, 2007.
[Line07] Jeffrey P. Lineman (2007). The Corporate CIO Model and the Higher Education CIO, EQ, 30 (1): 4-5, 2007.
[LMFHL04] Nada Lavrac, Hiroshi Motoda, Tom Fawcett, Robert Holte, Pat Langley, Pieter W. Adriaans (2004). Introduction: Lessons Learned from Data Mining Applications and Collaborative Problem Solving, Machine Learning 57(1-2): 13-34 (2004).
[LZ10] L. Lu and T. Zhou (2010). Link prediction in complex networks: A survey, Physica A, 390:1150–1170, 2010.
[LZLCD12] Jiye Liang, Xingwang Zhao, Deyu Li, Fuyuan Cao, Chuangyin Dang (2012). Determining the number of clusters using information entropy for mixed data, Pattern Recognition 45(6): 2251-2265 (2012).
385 386
[MBCCC10] Tom M. Mitchell, Justin Betteridge, Jamie Callan, Andy Carlson, William Cohen, Estevam, Hruschka, Bryan Kisiel, Mahaveer Jain, Jayant Krishnamurthy, Edith Law, Thahir Mohamed, Mehdi Samadi, Burr Settles, Richard Wang, Derry Wijaya (2010). Never Ending Learning, ICML 2010 (Invited Talk), Haifa, Israel, June 21-24, 2010.
[MCB11] Huina Mao, Scott Counts, Johan Bollen (2011). Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data, CoRR abs/1112.1051: (2011).
[Milgram06] J. Milgram, M. Cheriet, R. Sabourin, One Against One or One Against All: Which One is Better for Handwriting Recognition with SVMs?, Tenth International Workshop on Frontiers in Handwriting Recognition, 2006.
[Mitch06] Tom M. Mitchell (2006). The Discipline of Machine Learning, CMU-ML-06-108, July 2006.
[Mitchell97] T. M. Mitchell, Machine Learning. nhµ xuÊt b¶n Mcgraw-Hill
International Edit, 1997.
[MKG04] Nigel Melville, Kenneth L. Kraemer, Vijay Gurbaxani (2004). Review: Information Technology and Organizational Performance: An Integrative Model of IT Business Value, MIS Quarterly, 28 (2): 283-322.
[Moore65] Gordon E. Moore (1965). Cramming more components onto integrated circuits, Electronics, 38 (8), April 19, 1965.
[MR11] Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data Mining and Knowledge Discovery 1(5): 431-443 (2011).
[MSOS10] Craig Macdonald, Rodrygo L.T. Santos, Iadh Ounis, Ian Soboroff (2010). Blog Track Research at TREC, SIGIR Forum 44(1): 58-75.
[Nauck00] Detlef D.Nauck (2000). Data Analysis with Neuro-Fuzzy Methods, Dr. of Science Thesis, der Otto-von-Guericke-Universit at Magdeburg, 2000.
[NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 2009.
[NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 2009
[Nguyen08] N. T. Thanh, N. L. Minh vµ A. Shimazu, Using Semi-supervised Learning for Question Classification, Journal of Natural Language Processing, 3(1):112-130, 2008.
[Nigam00] K. Nigam vµ R. Ghani. Analyzing the effectiveness and applicability of co-training. In Proceedings of Ninth International Conference on Information and Knowledge Management, pages 86-93, 2000.
[NS08] Hung Son Nguyen, Andrzej Skowron (2008). Rough Set Approach to KDD, http://sist.swjtu.edu.cn/imc/itw06/rskt2008/Skowron.pdf.
[NSF05] National Science Foundation (2005) Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century, Reporting of National Science Foundation, National Science Board, http://www.nsf.gov/pubs/2005/nsb0540/
[OESD96] OECD (1996). The knowledge-based economic, organisation for economic co-operation and development.
[Ohrn99] Aleksander Ohrn (1999). Discernibility and Rough Sets in Medicine: Tools and Applications, PhD. Thesis, Norwegian University of Science and Technology, Trondheim, Norway, 1999
[Pan10] Ding Pan (2010). An Integrative Framework for Continuous Knowledge Discovery, Journal of Convergence Information Technology (JCIT), 5 (3): 46-53, May 2010.
[Pawlak82] Pawlak Z. (1982). Rough set, International Journal of Computer and Information Sciences, 11 ( 5): 341-356.
[Pawlak85] Pawlak Z. (1985). Rough set and Decision Tables, ICS PAS Report, 540, 3-1984, Warsawa, Poland.
[PCVM10] Luis Portela, Roberto Carvalho, João Varajão, and Luis Magalhães (2010). A Review of Chief Information Officer’ Main Skills, M.D. Lytras et al. (Eds.): WSKS 2010, Part II, CCIS 112: 387–392, © Springer-Verlag Berlin Heidelberg 2010.
[Pia06] Gregory Piatetsky-Shapiro (2006). Data Mining Course (Power Point Version). http://www.kdnuggets.com/index.html.
[QLPD10] Yuhua Qian, Jiye Liang, Witold Pedrycz, Chuangyin Dang (2010). Positive approximation: An accelerator for attribute reduction in rough set theory, Artificial Intelligence 174 (2010): 597–618.
[RB10] Pascal Ravesteyn and Ronald Batenburg (2010). Cultural Differences in Implementing Business Process Management Systems, AMCIS 2010 Proceedings Americas Conference on Information Systems: Paper 340.
[RK02] A.M. Radzikowska, E.E. Kerre (2002). A comparative study of fuzzy rough sets, Fuzzy Sets and Systems, 126 (2): 137-155.
[RU11] Anand Rajaraman, Jeffrey D.Ullman (2011). Mining of Massive Datasets, http://i.stanford.edu/~ullman/mmds/book.pdf.
[SB08]. Swan, A and Brown, S (2008) The skills, role and career structure of data scientists and curators: An assessment of current practice and future needs, A report to JISC, http://eprints.ecs.soton.ac.uk/16675/
[Schapire99] R. E. Schapire vµ Y. Singer, Improved Boosting Algorithms Using Confidence-rated Predictions, Machine Learning, 37(3):297-336, 1999
387 388
[SG10] Sulabh Sharma, Jairo A. Gutiérrez: An evaluation framework for viable business models for m-commerce in the information technology sector. Electronic Markets 20(1): 33-52 (2010).
[Shap95] Gregory Piatetsky-Shapiro (1995). Guidelines for Eating of the Tree of Knowledge, or Knowledge Discovery in Databases vs. Personal Privacy, Experts Annual Index, 10(2): 46-47.
[Simon08] Mårten Simonsson (2008). Predicting It Governance Performance: A Method For Model-Based Decision Making, PhD Thesis, KTH-Royal Institute Of Technology, Stockholm, Sweden, April 2008
[Solow87] Robert M. Solow (1987). We'd Better Watch Out, The NewYork Time: Book Review, July 12, 1987, page 36.
[Spoh06] Jim Spohrer (2006). A Next Frontier in Education, Employment, Innovation, and Economic Growth, IBM Corporation, 2006 .
[STH06] Son Doan, Quang Thuy Ha, and Susumu Horiguchi (2006). A General Fuzzy-based Framework for Text Representation and its Application to Text Categorization, Lecture Notes on Artificial Intelligence (LNAI), 4423: 611-620, 2006.
[Strass07] Paul A. Strassmann (2007), Measuring and Communicating I.T. Value, http://www.strassmann.com/talks/one-talk.php?talk=123.
[SZ00] Andrzej Skowron, Ning Zhong (2000). Rough Sets in KDD, Tutorial Notes, PAKDD 2000.
[SZ00] Andrzey Skowron and Ning Zhong (2000). Rough Sets in KDD, Tutorrial Notes, PKDD 2000.
[SZ00] Skowron and Ning Zong (2000). [Szczu11] Marcin Szczuka (2011). The use of Rough Set methods in KDD, A
Tutorial in Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia.
[Szczu11] Marcin Szczuka (2011). The use of Rough Set methods in KDD (A tutorial), Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia, June 25 - June 27, 2011
[TSK05] Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2005). Introduction to Data Mining, Addison Wesley, 2005.
[Vaidya04] Jaideep Shrikant Vaidya (2004). Privacy Preserving Data Mining over Vertically Partitioned Data, PhD Thesis, Purdue University.
[VBFPS04] Verykios V. S., Bertino E., Fovino I. N., Provenza L. P., Saygin Y., Theodoridis Y. (2004). State-of-the-art in privacy preserving data mining, ACM SIGMOD Record, 33 (1):50-57, 2004.
[VCKP08] Vaidya, J., Clifton, C., Kantarcioglu, M., and Patterson, A. S. (2008). Privacy-preserving decision trees over vertically partitioned data. ACM Trans. Knowl. Discov. Data. 2, 3, Article 14 (October 2008), 27 pages.
[Vincent03] V. Ng vµ C. Cardie, Bootstrapping Coreference Classifiers with Multiple Machine Learning Algorithms. Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing (EMNLP), Sapporo, Japan. 2003.
[WB98] Christopher Westphal and Teresa Blaxton (1998). Data Mining Solutions Methods and Tools for Solving Real-World Problems, John Wiley & Sons, Inc., 1998.
[WFBHM10] Tim Weninger, Fabio Fumarola, Rick Barber, Jiawei Han, Donato Malerba (2010). Unexpected Results in Automatic List Extraction on the Web, ACM SIGKDD Explorations newsletter, 12(2): 26-30.
[WKQ08] Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu , Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2008). Top 10 algorithms in data mining, Knowl Inf Syst (2008) 14:1–37
[WW08] Wang, H. and S. Wang (2008). A knowledge management approach to data mining process for business intelligence, Industrial Management & Data Systems, 2008. 108(5): 622-634.
[Yao03] Yao Y.Y. (2003). Information-theoretic measures for knowledge discovery and data mining, in ("Entropy Measures, Maximum Entropy and Emerging Applications", Karmeshu (Ed.), Springer, Berlin,2003) : 115-136.
[Yarowsky95] D. Yarowsky. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods. In Proceedings of the 33rd Annual Meeting of the ACL, 1995.
[Yasien07] Ahmed HajYasien (2007). Preserving Privacy in Association Rule Mining, PhD Thesis, Griffith University (Australia), 2007.
[Your11]. E. Yourdon (2011), CIOs at Work, Springer, 2011. [YZ10] Yiyu Yao, Bing Zhou (2010). Naive Bayesian Rough Sets. RSKT 2010: 719-
726. [Zadeh65] Zadeh L.A. (1965). Fuzzy sets, Information and Control, 8: 338-353,
Academic Press, New York. [Zadeh75] Zadeh L.A. (1975). The concept of a linguistic variable and its
application to approximate reasoning (Parts I, II, and III), Information Sciences, 1975, 8:199-249; 8:301-357; 9: 43-80.
[Zadeh78] Zadeh L.A. (1978). Fuzzy sets as a basis for a theory of possibility, Fuzzy Sets and Systems, 1: 3-28.
389 390
[Zdarkov07] Z. Markov vµ D. T. Larose, Data mining the web, uncovering patterns in Web content, structure and usage, nhµ xuÊt b¶n John Wiley & Sons, 2007.
[ZHL98] Osmar R. Zaiane, Mohammad El-Hajj, and Paul Lu. Fast Parallel Association Rule Mining Without Candidacy Generation. University of Alberta, Edmonton, Alberta, Canada
[Zhou03] Zhi-Hua Zhou (2003). Three perspectives of data mining, Artif. Intell. 143(1): 139-146 (2003).
[Zhou05] Z. H. Zhou vµ M. Li, Tri-Training: Exploiting Unlabeled Data Using Three Classifiers, IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 11, pp. 1529-1541, 2005.
[Zhu05] X. Zhu. Semi-supervised learning with graphs. PhD. Thesis,
Carnegie Mellon University, CMU-LTI-05-192, 2005.
[Zhu08] Xiaojin Zhu (2008). Semi-supervised learning literature survey, Technical Report 1530, University of Wisconsin at Madison, July 19, 2008.
[Zia94] Wojciech P. Ziarko (Ed., 1994). Rough Sets, Fuzzy Sets and Knowledge Discovery. Proceedings of the International Workshop on Rough Sets and Knowledge Discovery (RSKD'93), Banff, Alberta, Canada, 12-15 October 1993. Springer-Verlag.
[ZPO01] Mohammed J. Zaki, Srinivasan Parthasarathy, and Mitsunori Ogihara. Parallel Data Mining for Association Rules on Shared-Memory Systems. In Knowledge and Information Systems,Vol. 3, Number 1, pages 1-29 February 2001.
[ZYC09] Sheng Zhong, Zhiqiang Yang, Tingting Chen (2009). k-Anonymous data collection, Information Sciences (ISCI), 179(17):2948-2963.
[ZZNS09] Yuejin Zhang, Lingling Zhang, Guangli Nie, Yong Shi (2009). A Survey of Interestingness Measures for Association Rules, 2009 International Conference on Business Intelligence and Financial Engineering: 460-463.
Zhu[07] X. Zhu. Semi-Supervised Learning Literature Survey, Mellon University, 1-2007.