160
1 2 Lêi giíi thiÖu 9 Ch¬ng 1. Giíi thiÖu chung vÒ khai ph¸ d÷ liÖu 15 1.1. Nhu cÇu ph¸t hiÖn tri thøc tõ d÷ liÖu 16 1.1.1. T×nh tr¹ng “bïng næ d÷ liÖu” 16 1.1.2. Ngµnh c«ng nghiÖp dùa trªn d÷ liÖu 24 1.2. Kh¸i niÖm Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu 29 1.2.1. Gi¶i thÝch mét sè thuËt ng÷ 31 1.2.2. Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu 37 1.2.3. Bíc khai ph¸ d÷ liÖu trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu 41 1.2.4. KiÕn tróc mét hÖ thèng khai ph¸ d÷ liÖu 42 1.3. Khai ph¸ d÷ liÖu vµ xö lý CSDL truyÒn thèng 43 1.4. Mét sè lÜnh vùc øng dông khai ph¸ d÷ liÖu ®iÓn h×nh 47 1.5. KiÓu d÷ liÖu trong khai ph¸ d÷ liÖu 50 1.5.1. C¬ së d÷ liÖu quan hÖ 50 1.5.2. Kho d÷ liÖu 51 1.5.3. C¬ së d÷ liÖu giao dÞch 53 1.5.4. C¸c hÖ thèng d÷ liÖu më réng 53 1.6. C¸c bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh 54 1.6.1. M« t¶ kh¸i niÖm 55 1.6.2. Quan hÖ kÕt hîp 56 1.6.3. Ph©n líp 57 1.6.4. Ph©n côm 58 1.6.5. Håi quy 59 1.6.6. M« h×nh phô thuéc 59 1.6.7. Ph¸t hiÖn biÕn ®æi vµ ®é lÖch 60 1.7. TÝnh liªn ngµnh cña khai ph¸ d÷ liÖu 60 C©u hái vµ Bµi tËp 66 Ch¬ng 2. C«ng nghÖ tri thøc vµ ph¸t hiÖn tri thøc tõ d÷ liÖu 68 2.1. Vai trß cña CNTT trong kinh tÕ tri thøc 69 2.1.1. NghÞch lý hiÖu qu¶ cña CNTT cña Robert Solow vµ luËn ®iÓm cña N. Carr 69 2.1.2. Vai trß cña CNTT trong nÒn Kinh tÕ tri thøc 75 2.1.2. Vai trß cña gi¸m ®èc th«ng tin trong doanh nghiÖp vµ tæ chøc 79 2.2. C«ng nghÖ tri thøc 83 2.2.1. Kh¸i niÖm tri thøc 84 2.2.2. Nguån tri thøc cho c¸ nh©n vµ tæ chøc 87 2.2.3. C«ng nghÖ tri thøc 91 2.3. Bµi to¸n ph¸t hiÖn tri thøc tõ d÷ liÖu 95 2.3.1. Sù tiÕn hãa cña m« h×nh ph¸t hiÖn tri thøc 95 2.3.2 VÒ bµi to¸n khai ph¸ d÷ liÖu 108 2.4. §é ®o hÊp dÉn trong khai ph¸ d÷ liÖu 110 C©u hái vµ Bµi tËp 118 Ch¬ng 3. ChuÈn bÞ d÷ liÖu 119 3.1. Giíi thiÖu 119 3.2. HiÓu d÷ liÖu 120 3.2.1. §o ®é tËp trung cña d÷ liÖu 120 3.2.2. §o ®é ph©n t¸n cña d÷ liÖu 123 3.2.3. HiÓn thÞ d÷ liÖu tãm t¾t 125 3.3. TiÒn xö lý d÷ liÖu 128 3.4. Lµm s¹ch d÷ liÖu 131 3.4.1. C¸c gi¸ trÞ bÞ thiÕu 133 3.4.2. D÷ liÖu bÞ nhiÔu 134

KPDL_C1-6 & C10

  • Upload
    kien-vu

  • View
    39

  • Download
    13

Embed Size (px)

DESCRIPTION

Giáo trình khai phá dữ liệu - Tiếng việt

Citation preview

Page 1: KPDL_C1-6 & C10

1 2

Lêi giíi thiÖu 9

Ch­¬ng 1. Giíi thiÖu chung vÒ khai ph¸ d÷ liÖu 15

1.1. Nhu cÇu ph¸t hiÖn tri thøc tõ d÷ liÖu 16

1.1.1. T×nh tr¹ng “bïng næ d÷ liÖu” 16

1.1.2. Ngµnh c«ng nghiÖp dùa trªn d÷ liÖu 24

1.2. Kh¸i niÖm Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu 29

1.2.1. Gi¶i thÝch mét sè thuËt ng÷ 31

1.2.2. Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu 37

1.2.3. B­íc khai ph¸ d÷ liÖu trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu 41

1.2.4. KiÕn tróc mét hÖ thèng khai ph¸ d÷ liÖu 42

1.3. Khai ph¸ d÷ liÖu vµ xö lý CSDL truyÒn thèng 43

1.4. Mét sè lÜnh vùc øng dông khai ph¸ d÷ liÖu ®iÓn h×nh 47

1.5. KiÓu d÷ liÖu trong khai ph¸ d÷ liÖu 50

1.5.1. C¬ së d÷ liÖu quan hÖ 50

1.5.2. Kho d÷ liÖu 51

1.5.3. C¬ së d÷ liÖu giao dÞch 53

1.5.4. C¸c hÖ thèng d÷ liÖu më réng 53

1.6. C¸c bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh 54

1.6.1. M« t¶ kh¸i niÖm 55

1.6.2. Quan hÖ kÕt hîp 56

1.6.3. Ph©n líp 57

1.6.4. Ph©n côm 58

1.6.5. Håi quy 59

1.6.6. M« h×nh phô thuéc 59

1.6.7. Ph¸t hiÖn biÕn ®æi vµ ®é lÖch 60

1.7. TÝnh liªn ngµnh cña khai ph¸ d÷ liÖu 60

C©u hái vµ Bµi tËp 66

Ch­¬ng 2. C«ng nghÖ tri thøc vµ ph¸t hiÖn tri thøc tõ d÷ liÖu 68

2.1. Vai trß cña CNTT trong kinh tÕ tri thøc 69

2.1.1. NghÞch lý hiÖu qu¶ cña CNTT cña Robert Solow vµ luËn ®iÓm cña N.

Carr 69

2.1.2. Vai trß cña CNTT trong nÒn Kinh tÕ tri thøc 75

2.1.2. Vai trß cña gi¸m ®èc th«ng tin trong doanh nghiÖp vµ tæ chøc 79

2.2. C«ng nghÖ tri thøc 83

2.2.1. Kh¸i niÖm tri thøc 84

2.2.2. Nguån tri thøc cho c¸ nh©n vµ tæ chøc 87

2.2.3. C«ng nghÖ tri thøc 91

2.3. Bµi to¸n ph¸t hiÖn tri thøc tõ d÷ liÖu 95

2.3.1. Sù tiÕn hãa cña m« h×nh ph¸t hiÖn tri thøc 95

2.3.2 VÒ bµi to¸n khai ph¸ d÷ liÖu 108

2.4. §é ®o hÊp dÉn trong khai ph¸ d÷ liÖu 110

C©u hái vµ Bµi tËp 118

Ch­¬ng 3. ChuÈn bÞ d÷ liÖu 119

3.1. Giíi thiÖu 119

3.2. HiÓu d÷ liÖu 120

3.2.1. §o ®é tËp trung cña d÷ liÖu 120

3.2.2. §o ®é ph©n t¸n cña d÷ liÖu 123

3.2.3. HiÓn thÞ d÷ liÖu tãm t¾t 125

3.3. TiÒn xö lý d÷ liÖu 128

3.4. Lµm s¹ch d÷ liÖu 131

3.4.1. C¸c gi¸ trÞ bÞ thiÕu 133

3.4.2. D÷ liÖu bÞ nhiÔu 134

Page 2: KPDL_C1-6 & C10

3 4

3.4.3. Lµm s¹ch d÷ liÖu ph¶i lµ mét quy tr×nh 136

3.4. TÝch hîp d÷ liÖu 139

3.4.1. NhËn diÖn thùc thÓ 140

3.4.2. Sù d­ thõa vµ ph©n tÝch ®é t­¬ng quan 141

3.4.3. Ph¸t hiÖn c¸c bé lÆp 145

3.4.4. Ph¸t hiÖn xung ®ét trong d÷ liÖu vµ møc ®é trõu t­îng. 145

3.5. ChuyÓn ®æi d÷ liÖu 146

3.5.1. C¸c chiÕn l­îc chuyÓn ®æi d÷ liÖu 146

3.5.2. ChuÈn hãa d÷ liÖu 147

3.6. Ph­¬ng ph¸p thu gän d÷ liÖu 149

3.6.1. Gi¶m chiÒu d÷ liÖu 150

3.6.2. Gi¶m sè l­îng d÷ liÖu 153

3.7. Rêi r¹c hãa d÷ liÖu vµ sinh c©y kh¸i niÖm ph©n cÊp 158

3.7.1. Ph­¬ng ph¸p ¸p dông cho d÷ liÖu sè 158

3.7.Ph­¬ng ph¸p ¸p dông cho d÷ liÖu ph©n lo¹i 160

3.8. Tæng kÕt 161

C©u hái vµ Bµi tËp 161

Ch­¬ng 4. Ph¸t hiÖn luËt kÕt hîp 164

4.1 Giíi thiÖu vÒ luËt kÕt hîp 164

4.2 Ph­¬ng ph¸p khai ph¸ tËp môc phæ biÕn 167

4.3. ThuËt to¸n FP-Growth 170

4.3.1. ý t­ëng thuËt to¸n 170

4.3.2. ThuËt to¸n FP-growth. 171

4.4 Mét sè thuËt to¸n song song 178

4.4.1. ThuËt to¸n ph©n phèi ®é hç trî 179

4.4.2. ThuËt to¸n ph©n phèi d÷ liÖu 180

4.4.3. ThuËt to¸n ph©n phèi tËp øng cö viªn 183

4.4.4. ThuËt to¸n sinh luËt song song 185

4.4.5. Mét sè thuËt to¸n kh¸c 187

4.5 Mét sè øng dông cña luËt kÕt hîp 188

C©u hái vµ Bµi tËp 189

Ch­¬ng 5. Ph©n côm d÷ liÖu 191

5.1. Giíi thiÖu 191

5.1.1. Bµi to¸n ph©n côm 191

5.1.2. C¸c ph­¬ng ph¸p ph©n côm 192

5.2. Mét sè ®é ®o c¬ b¶n dïng trong ph©n côm 196

5.2.1. §é ®o t­¬ng ®ång 196

5.2.2. §é ®o kh¸c biÖt 197

5.3. ThuËt to¸n ph©n côm ph¼ng 200

5.3.1. ThuËt to¸n k-means 200

5.3.2 ThuËt to¸n k-mediods 204

5.3.3. T×m sè l­îng côm thÝch hîp 206

5.4. ThuËt to¸n ph©n côm ph©n cÊp 208

5.4.1 Ph©n côm ph©n cÊp gép 208

5.4.2 C¸c thuËt ph©n côm ph©n cÊp BIRCH 215

5.4.3 ThuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng

DIANA 219

5.4.4 ThuËt to¸n ph©n côm ph©n cÊp ROCK 220

5.5. ThuËt to¸n ph©n côm dùa trªn mËt ®é 228

5.6. Gi¶i thuËt ph©n côm dùa trªn m« h×nh 231

5.7. NhËn xÐt s¬ bé c¸c thuËt to¸n ph©n côm 236

5.8. §¸nh gi¸ c¸c gi¶i thuËt ph©n côm 237

Page 3: KPDL_C1-6 & C10

5 6

5.8.1 §¸nh gi¸ dùa trªn ®é t­¬ng tù 237

5.8.2 §¸nh gi¸ dùa trªn d÷ liÖu g¸n nh·n 238

5.9. Mét sè øng dông cña ph©n côm 245

C©u hái vµ bµi tËp 248

Ch­¬ng 6. Ph©n líp d÷ liÖu 250

6.1. Giíi thiÖu 250

6.2. Ph©n líp b»ng c©y quyÕt ®Þnh 253

6.2.1 §é lîi th«ng tin 257

6.2.2 TØ sè ®é lîi 260

6.2.3 ChØ sè Gini 261

6.2.4 TØa c©y quyÕt ®Þnh 264

6.3. ThuËt to¸n ph©n líp Naive Bayes 264

6.2.1 §Þnh lý Bayes 264

6.2.2 Ph©n líp Naive Bayes 265

6.3. ThuËt to¸n ph©n líp m¸y vector hç trî SVM 269

6.3.1 Tr­êng hîp d÷ liÖu cã thÓ ph©n lo¹i tuyÕn tÝnh 270

6.3.2 Tr­êng hîp d÷ liÖu kh«ng thÓ ph©n t¸ch tuyÕn

tÝnh 274

6.3.3 Ph©n líp ®a líp víi SVM 278

6.4. ThuËt to¸n ph©n líp kNN 279

6.5. §¸nh gi¸ c¸c gi¶i thuËt ph©n líp 284

6.6. Mét sè øng dông cña c¸c gi¶i thuËt ph©n líp 288

C©u hái vµ bµi tËp 289

Ch­¬ng 7. Ph­¬ng ph¸p häc b¸n gi¸m s¸t 291

7.1. Giíi thiÖu 291

7.2 ThuËt to¸n cùc ®¹i kú väng EM 295

7.3. ThuËt to¸n häc céng t¸c (co-training) 300

7.3.1. ThuËt to¸n häc céng t¸c dùa trªn nhiÒu khung

nh×n 300

7.3.2. ThuËt to¸n häc céng t¸c co-EM 305

7.3.3. ThuËt to¸n häc céng t¸c dùa trªn nhiÒu gi¶i thuËt häc gi¸m s¸t 306

7.4. ThuËt to¸n Tri-training 308

7.5. ThuËt to¸n tù huÊn luyÖn (Shelf-training) 312

7.6 Mét sè øng dông cña c¸c gi¶i thuËt häc b¸n gi¸m

s¸t 314

C©u hái vµ bµi tËp 314

Ch­¬ng 8. Khai ph¸ d÷ liÖu b¶o vÖ tÝnh riªng t­ 316

8.1. KhÝa c¹nh ph¸p luËt b¶o vÖ tÝnh riªng t­ vµ khai ph¸ d÷ liÖu 317

8.1.1. H­íng dÉn cña OECD vÒ d÷ liÖu riªng t­ vµ t¸c

®éng tíi ho¹t ®éng ph¸t hiÖn tri thøc tõ d÷ liÖu 318

8.1.2. TiÕp cËn ph¸p luËt b¶o vÖ tÝnh riªng t­ t¹i n­íc

Mü vµ t¸c ®éng tíi khai ph¸ d÷ liÖu 320

8.2. Ph­¬ng ph¸p khai ph¸ d÷ liÖu b¶o vÖ tÝnh riªng

t­ 323

8.2.1. M« h×nh vµ ph­¬ng ph¸p khai ph¸ d÷ liÖu b¶o vÖ

tÝnh riªng t­ 323

8.2.2. Mét sè thuËt to¸n khai ph¸ d÷ liÖu b¶o vÖ tÝnh

riªng t­ 326

C©u hái vµ Bµi tËp 333

Ch­¬ng 9. TËp mê, tËp th« vµ tËp mê – th« trong khai

ph¸ d÷ liÖu 335

9.1. Ph­¬ng ph¸p tËp mê trong khai ph¸ d÷ liÖu 336

Page 4: KPDL_C1-6 & C10

7 8

9.1.1. Mét sè kiÕn thøc c¬ së cña lý thuyÕt tËp mê 336

9.1.2. Ph­¬ng ph¸p tËp mê trong khai ph¸ d÷ liÖu 343

9.2. Ph­¬ng ph¸p tËp th« trong khai ph¸ d÷ liÖu 350

9.2.1. Mét sè kiÕn thøc c¬ së vÒ lý thuyÕt tËp th« 352

9.2.2. Ph­¬ng ph¸p tËp th« rót gän thuéc tÝnh 358

9.2.3. Ph­¬ng ph¸p tËp th« rêi r¹c tËp gi¸ trÞ thuéc tÝnh 362

9.3. Ph­¬ng ph¸p tËp mê-th« trong khai ph¸ d÷ liÖu 365

9.3.1. Lùa chän thuéc tÝnh dùa trªn tËp mê - th« 367

9.3.2. Ph©n líp k-NN dùa trªn tËp mê - th« 367

C©u hái vµ Bµi tËp 368

Ch­¬ng 10. Mét sè bµi häc vµ khuynh h­íng ph¸t

triÓn trong khai ph¸ d÷ liÖu 369

10.1. Mét sè bµi häc trong khai ph¸ d÷ liÖu 370

10.1.1.Bµi häc vÒ kü thuËt 370

10.1.2. Bµi häc vÒ triÓn khai dù ¸n 376

10.1.3. §Æc tr­ng cña chuyªn viªn khai ph¸ d÷ liÖu 378

10.2. Mét sè lçi th­êng gÆp trong khai ph¸ d÷ liÖu 380

10.3. C«ng cô Khai ph¸ d÷ liÖu 390

10.3.1. Tiªu chÝ ph©n lo¹i c¸c c«ng cô khai ph¸ d÷ liÖu 391

10.3.2. C¸c kiÓu c«ng cô khai ph¸ d÷ liÖu 394

10.3.3. TËp vÝ dô ®¸nh gi¸ c«ng cô nghiªn cøu 399

10.4. Khuynh h­íng ph¸t triÓn cña khai ph¸ d÷ liÖu 401

10.4.1. Khuynh h­íng ph¸t triÓn cña khoa häc m¸y tÝnh 401

10.4.2. Khuynh h­íng ph¸t triÓn cña khai ph¸ d÷ liÖu 403

C©u hái vµ Bµi tËp 414

Tµi liÖu tham kh¶o 415

Page 5: KPDL_C1-6 & C10

9 10

Lêi giíi thiÖu

Trong thêi ®¹i ngµy nay, sö dông tri thøc ®· trë thµnh ®éng lùc chñ chèt

cho t¨ng tr­ëng kinh tÕ quèc gia, cho t¨ng c­êng n¨ng lùc c¹nh tranh cña doanh

nghiÖp. §ång thêi, dung l­îng d÷ liÖu sè t¨ng rÊt nhanh chãng, ®Æc biÖt lo¹i d÷

liÖu do ng­êi sö dông t¹o ra (User-Generated Content: UGC) chiÕm tû träng

ngµy cµng cao, ®· trë thµnh nguån tµi nguyªn tiÒm Èn th«ng tin vµ tri thøc cã

tiÒm n¨ng lín h÷u Ých cho ph¸t triÓn kinh tÕ vµ t¨ng c­êng n¨ng lùc c¹nh tranh.

Nghiªn cøu vµ triÓn khai c¸c ph­¬ng ph¸p tù ®éng ph¸t hiÖn c¸c mÉu míi, cã

gi¸ trÞ, h÷u Ých tiÒm n¨ng vµ hiÓu ®­îc trong khèi d÷ liÖu ®å sé, kh¾c phôc hiÖn

t­îng "giµu vÒ d÷ liÖu mµ nghÌo vÒ th«ng tin, h­íng tíi môc tiªu t¨ng c­êng tµi

nguyªn tri thøc lµ hÕt søc cÇn thiÕt vµ cã ý nghÜa. Khai ph¸ d÷ liÖu (Data

Mining) vµ Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (Knowledge Discovery in Data

Bases: KDD), thµnh phÇn quan träng cña c«ng nghÖ tri thøc (Knowledge

Technology), ®ang ph¸t triÓn rÊt m¹nh mÏ.

Khai ph¸ d÷ liÖu lµ m«n häc b¾t buéc trong ch­¬ng tr×nh ®µo t¹o ngµnh HÖ

thèng th«ng tin (HTTT) bËc cö nh©n vµ chuyªn ngµnh HTTT bËc th¹c sü t¹i

Khoa CNTT, Tr­êng §¹i häc C«ng nghÖ (§HCN), §¹i häc Quèc gia Hµ Néi

(§HQGHN). Nhu cÇu ®µo t¹o, nghiªn cøu vµ ph¸t triÓn lÜnh vùc khai ph¸ d÷ liÖu

tr­íc hÕt t¹i Tr­êng §HCN, vµ sau ®ã t¹i c¸c c¬ së ®µo t¹o vµ nghiªn cøu trong

n­íc ®ßi hái mét gi¸o tr×nh cã néi dung toµn diÖn vÒ lÜnh vùc nghiªn cøu vµ

triÓn khai quan träng nµy.

Tr­íc khi giíi thiÖu néi dung cña gi¸o tr×nh nµy, chóng t«i muèn nªu lªn

mét vµi ®iÓm vÒ c¸ch tiÕp cËn cña chóng t«i. Thø nhÊt, gi¸o tr×nh ®­îc viÕt ®Ó

phôc vô viÖc gi¶ng d¹y vµ häc tËp bËc ®¹i häc vµ bËc sau ®¹i häc t¹i Tr­êng

§HCN, §HQGHN. Néi dung trong gi¸o tr×nh ®­îc tæng hîp vµ tãm l­îc tõ mét

sè tµi liÖu næi tiÕng còng nh­ nh÷ng nghiªn cøu thêi sù nhÊt vÒ khai ph¸ d÷ liÖu.

Thø hai, néi dung vÒ kho d÷ liÖu ®­îc viÕt thµnh gi¸o tr×nh "Kho d÷ liÖu" cho

nªn sÏ kh«ng ®­îc ®­a vµo gi¸o tr×nh nµy. Thø ba, gi¸o tr×nh nµy cßn cã môc

tiªu ®Þnh h­íng cho c¸c nghiªn cøu chuyªn s©u vÒ khai ph¸ d÷ liÖu, v× vËy, gi¸o

tr×nh bæ sung thªm mét sè néi dung kh¸c víi nhiÒu cuèn s¸ch hiÖn cã vÒ khai

ph¸ d÷ liÖu. Néi dung ®Çu tiªn ®­îc bæ sung lµ mét sè kiÕn thøc vÒ tri thøc vµ

kinh tÕ tri thøc. Thªm n÷a, chóng t«i bæ sung mét sè néi dung vÒ khai ph¸ d÷

liÖu dùa trªn lý thuyÕt tËp mê, lý thuyÕt tËp th« vµ mét sè bµi häc thµnh c«ng

còng nh­ mét sè lçi th­êng gÆp trong khai ph¸ d÷ liÖu. Khuynh h­íng nghiªn

cøu vµ triÓn khai khai ph¸ d÷ liÖu ®­îc tr×nh bµy víi c¸c néi dung cËp nhËt nhÊt

cã thÓ ®­îc.

Gi¸o tr×nh gåm 10 ch­¬ng víi néi dung s¬ bé nh­ ®­îc tr×nh bµy d­íi ®©y.

Ch­¬ng 1. Giíi thiÖu chung vÒ khai ph¸ d÷ liÖu tr×nh bµy vÒ sù t¨ng tr­ëng

m¹nh mÏ vÒ dung l­îng d÷ liÖu (®Æc biÖt lµ d÷ liÖu néi dung do ng­êi dïng sinh

ra: gerenated user content – GUC), vÒ c«ng nghÖ dùa trªn d÷ liÖu, vÒ nhu cÇu

ph¸t hiÖn tri thøc tõ d÷ liÖu, vÒ c¸c kh¸i niÖm c¬ b¶n nhÊt cña khai ph¸ d÷ liÖu

vµ ph¸t hiÖn tri thøc tõ d÷ liÖu. TÝnh liªn ngµnh cña khai ph¸ d÷ liÖu vµ sù ph©n

biÖt gi÷a hÖ thèng khai ph¸ d÷ liÖu vµ hÖ thèng qu¶n lý c¬ së d÷ liÖu, gi÷a bµi

to¸n khai ph¸ d÷ liÖu vµ bµi to¸n thèng kª còng ®­îc ®Ò cËp.

Ch­¬ng 2. C«ng nghÖ tri thøc vµ ph¸t hiÖn tri thøc tõ d÷ liÖu cung cÊp

nh÷ng kiÕn thøc c¬ b¶n nhÊt vÒ tri thøc vµ kinh tÕ tri thøc, vai trß cña CNTT vµ

c«ng nghÖ tri thøc cho ph¸t triÓn kinh tÕ vµ t¹o lîi thÕ c¹nh tranh. Qu¸ tr×nh tiÕn

hãa cña m« h×nh ph¸t hiÖn tri thøc tõ d÷ liÖu ®­îc ph©n tÝch. Mét sè néi dung vÒ

®é ®o hÊp dÉn vµ tÝnh hÊp dÉn cña mÉu ®­îc tr×nh bµy.

Page 6: KPDL_C1-6 & C10

11 12

Ch­¬ng 3 ChuÈn bÞ d÷ liÖu vµ kho d÷ liÖu cung cÊp c¸c kiÕn thøc vµ kü

n¨ng vÒ hiÓu d÷ liÖu, tiÒn xö lý d÷ liÖu, chuyÓn d¹ng d÷ liÖu, lùa chän thuéc

tÝnh.

Ch­¬ng 4. Ph¸t hiÖn luËt kÕt hîp tr×nh bµy kh¸i niÖm luËt kÕt hîp, mét sè

thuËt to¸n khai ph¸ luËt kÕt hîp ®iÓn h×nh (thuËt to¸n Apriori, thuËt to¸n FP-

growth vµ vµ mét sè thuËt to¸n kh¸c), kh¸i niÖm luËt d·y vµ khai ph¸ luËt d·y.

Mét sè øng dông cña luËt kÕt hîp còng ®­îc giíi thiÖu.

Ch­¬ng 5. Ph©n côm d÷ liÖu vµ m« t¶ cung cÊp kiÕn thøc vÒ bµi to¸n ph©n

côm vµ mét sè thuËt to¸n ph©n côm ®iÓn h×nh (ph©n côm ph©n cÊp, ph©n côm

ph¨ng K-mean, ph©n côm EM, mét sè thuËt to¸n kh¸c). Ph­¬ng ph¸p ®¸nh gi¸

ph©n côm vµ mét sè øng dông ph©n côm còng ®­îc giíi thiÖu.

Ch­¬ng 6. Ph©n líp d÷ liÖu tr×nh bµy vÒ kh¸i niÖm bµi to¸n ph©n líp, mét

sè thuËt to¸n ph©n líp ®iÓn h×nh (C4.5, Naive Bayes, k-NN, SVM vµ mét sè

thuËt to¸n kh¸c). Ph­¬ng ph¸p ®¸nh gi¸ thuËt to¸n ph©n líp vµ mét sè øng dông

thuËt to¸n ph©n líp còng ®­îc giíi thiÖu.

Ch­¬ng 7. Ph­¬ng ph¸p häc b¸n gi¸m s¸t ®­îc b¾t ®Çu b»ng c¸c néi dung

c¬ b¶n cña ph­¬ng ph¸p häc b¸n gi¸m s¸t. Mét sè thuËt to¸n b¸n gi¸m s¸t ®iÓn

h×nh (Adaboost, Co-training, Shelf-training vµ mét sè thuËt to¸n häc b¸n gi¸m

s¸t kh¸c) ®­îc tr×nh bµy chi tiÕt. Mét sè øng dông häc b¸n gi¸m s¸t còng ®­îc

giíi thiÖu.

Ch­¬ng 8. Khai ph¸ d÷ liÖu b¶o vÖ tÝnh riªng t­ cung cÊp c¸c kiÕn thøc c¬

b¶n vÒ tÝnh riªng t­, mét sè m« h×nh vµ gi¶I ph¸p khai ph¸ d÷ liÖu b¶o vÖi tÝnh

riªng t­.

Ch­¬ng 9. TËp mê, tËp th« vµ tËp mê-th« trong khai ph¸ d÷ liÖu tr×nh bµy

mét sè kiÕn thøc c¬ b¶n vÒ tËp mê, tËp th«, tËp mê-th« vµ øng dông c¸c tËp nãi

trªn trong khai ph¸ d÷ liÖu.

Ch­¬ng 10. Mét sè bµi häc vµ khuynh h­íng ph¸t triÓn cña khai ph¸ d÷ liÖu tr×nh bµy mét sè bµi häc vµ lçi th­êng gÆp trong khai ph¸ d÷ liÖu. PhÇn cuèi

cña ch­¬ng ®Ò cËp tíi khung h­íng ph¸t triÓn khai ph¸ d÷ liÖu, tËp trung vµo,

khai ph¸ d÷ liÖu ph­¬ng tiÖn x· héi, häc m¸y h­íng miÒn øng dôngvµ häc m¸y

kh«ng dõng ®­îc chän lùa ®Ó giíi thiÖu chi tiÕt h¬n.

Gi¸o tr×nh nµy ®­îc sö dông cho c¶ bËc ®¹i häc vµ bËc cao häc. Mét

ph­¬ng ¸n ®Ò nghÞ cho ®µo t¹o bËc ®¹i häc lµ gãi néi dung bao gåm ch­¬ng 1,

ch­¬ng 2 (kh«ng kÓ môc 2.4), ch­¬ng 3 (kh«ng kÓ môc 3.4), ch­¬ng 4, ch­¬ng

5, ch­¬ng 6, ch­¬ng 10 (hai môc 10.1, 10.2). ¤n l¹i néi dung dµnh cho bËc ®¹i

häc vµ nghiªn cøu c¸c néi dung cßn l¹i trong gi¸o tr×nh lµ ph­¬ng ¸n néi dung

d¹y-häc cho bËc sau ®¹i häc.

§èi víi lÜnh vùc khai ph¸ d÷ liÖu, viÖc dïng thuËt ng÷ tiÕng ViÖt lµ rÊt khã

kh¨n v× ®©y lµ lÜnh vùc nghiªn cøu cßn rÊt míi kh«ng chØ ë ViÖt Nam mµ cßn

trªn thÕ giíi. Víi mçi thuËt ng÷ tiÕng Anh, thuËt ng÷ tiÕng ViÖt t­¬ng øng ®­¬c

coi lµ phæ biÕn ®­îc chän lùa.

Nhãm t¸c gi¶ xin bµy tá lêi c¶m ¬n ch©n thµnh tíi TS. NguyÔn Lª Minh,

TS. §oµn S¬n, TS. Phan Xu©n HiÕu, TS. NguyÔn CÈm Tó, TS. NguyÔn ViÖt

C­êng, TS. §Æng Thanh H¶i ®· nhiÖt t×nh céng t¸c. Nhãm t¸c gi¶ ®¸nh gi¸ cao

vµ ch©n thµnh c¸m ¬n tËp thÓ c¸n bé, sinh viªn thuéc Phßng ThÝ nghiÖm C«ng

nghÖ tri thøc vµ Bé m«n HTTT, Khoa CNTT. Gi¸o tr×nh nµy còng lµ mét s¶n

phÈm cña qu¸ tr×nh céng t¸c nghiªn cøu cña chóng t«i víi Cè Gi¸o s­ Susumu

Horiguchi t¹i ViÖn Khoa häc & C«ng nghÖ tiªn tiÕn vµ §¹i häc Tohoku NhËt

B¶n, GS. Akira Shimazu t¹i ViÖn Khoa häc & C«ng nghÖ tiªn tiÕn NhËt B¶n,

TSKH NguyÔn Hïng S¬n t¹i §¹i häc Vasava Ba Lan.

Dï nhãm t¸c gi¶ ®· cè g¾ng thu thËp, nghiªn cøu vµ tæng hîp song gi¸o

tr×nh ch¾c ch¾n cßn kh«ng Ýt khiÕm khuyÕt. Chóng t«i mong muèn nhËn ®­îc sù

c¶m th«ng còng nh­ c¸c ý kiÕn ®ãng gãp tõ c¸c nhµ khoa häc, c¸c gi¶ng viªn vµ

ng­êi häc ®Ó gi¸o tr×nh ngµy cµng thªm hoµn thiÖn.

Nhãm t¸c gi¶ xin ch©n thµnh c¸m ¬n c¸c c¬ quan h÷u quan ®· tÝch cùc hç

trî ®Ó xuÊt b¶n gi¸o tr×nh.

Page 7: KPDL_C1-6 & C10

13 14

Ch­¬ng 1. Giíi thiÖu chung vÒ khai ph¸ d÷ liÖu

Ch­¬ng më ®Çu cña gi¸o tr×nh tr×nh bµy mét sè nÐt kh¸i qu¸t nhÊt vÒ khai

ph¸ d÷ liÖu. Môc ®Çu tiªn giíi thiÖu vÒ tÝnh tù nhiªn cña t×nh tr¹ng bïng næ d÷

liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu nh­ mét thµnh phÇn nÒn t¶ng c«ng nghÖ cña

ngµnh kinh tÕ ®Þnh h­íng d÷ liÖu. Môc thø hai giíi thiÖu kh¸i niÖm ph¸t hiÖn tri

thøc trong c¬ së d÷ liÖu, kh¸i niÖm khai ph¸ d÷ liÖu. Ph¸t hiÖn tri thøc trong c¬

së d÷ liÖu lµ mét qu¸ tr×nh gåm nhiÒu b­íc t×m ra nh÷ng mÉu cã gi¸ trÞ, míi,

h÷u Ých tiÒm n¨ng vµ hiÓu ®­îc trong mét tËp d÷ liÖu lín. Khai ph¸ d÷ liÖu lµ

b­íc xö lý ®Æc thï nhÊt cña qu¸ tr×nh nµy, v× vËy, trong kh«ng Ýt tr­êng hîp hai

kh¸i niÖm ph¸t hiÖn tri thøc tõ d÷ liÖu vµ khai ph¸ d÷ liÖu ®­îc dïng thay thÕ

nhau. Môc tiÕp theo tr×nh bµy mét sè khÝa c¹nh ph©n biÖt hÖ thèng khai ph¸ d÷

liÖu (cung cÊp th«ng tin hç trî quyÕt ®Þnh) víi hÖ thèng c¬ së d÷ liÖu ®iÒu hµnh

t¸c nghiÖp truyÒn thèng (phôc vô xö lý giao dÞch t¸c nghiÖp). Môc thø t­ giíi

thiÖu mét sè lÜnh vùc øng dông khai ph¸ ®iÓn h×nh, trong ®ã kinh doanh lµ mét

trong nh÷ng lÜnh vùc øng dông phæ biÕn nhÊt. Môc thø n¨m cung cÊp mét sè

th«ng tin cho biÕt tÝnh ®a d¹ng cña kiÓu d÷ liÖu ®Çu vµo cña bµi to¸n khai ph¸ d÷

liÖu. Môc thø s¸u giíi thiÖu c¸c bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh thuéc vµo

hai líp bµi to¸n dù b¸o vµ m« t¶. Môc cuèi cïng cña ch­¬ng nµy tr×nh bµy tÝnh

®a ngµnh cña lÜnh vùc khai ph¸ d÷ liÖu.

1.1. Nhu cÇu ph¸t hiÖn tri thøc tõ d÷ liÖu

1.1.1. T×nh tr¹ng “bïng næ d÷ liÖu”

Thêi ®¹i ngµy nay, mçi ng­êi chóng ta ®· tõng nghe nãi vµ chøng kiÕn vÒ

sù t¨ng tr­ëng liªn tôc víi tèc ®é v­ît bËc vÒ dung l­îng d÷ liÖu do con ng­êi

khëi t¹o, l­u gi÷ vµ truyÒn dÉn; sù t¨ng tr­ëng nµy cßn ®­îc gäi lµ “hiÖn t­îng

bïng næ th«ng tin”. Tr­íc khi xem xÐt mèi liªn hÖ gi÷a hiÖn t­îng bïng næ

th«ng tin víi nhu cÇu khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu, chóng ta

t×m hiÓu vÒ c¸c nguyªn nh©n t¹o nªn hiÖn t­îng bïng næ th«ng tin ®ã. Nãi mét

c¸ch kh¸i qu¸t, hiÖn t­îng bïng næ th«ng tin cã nguyªn nh©n tõ nhu cÇu ho¹t

®éng mäi mÆt cña ®êi sèng x· héi, tuy nhiªn, nh÷ng néi dung tr×nh bµy d­íi ®©y

sÏ lµm chi tiÕt h¬n vÒ c¸c khÝa c¹nh c«ng nghÖ vµ x· héi ®· gãp phÇn thóc ®Èy

sù t¨ng tr­ëng d÷ liÖu v­ît bËc ®ã.

H×nh 1.1. Xu thÕ tèi ­u chi phÝ s¶n xuÊt m¹ch b¸n dÉn: Sè l­îng thµnh phÇn b¸n dÉn trong mét m¹ch tÝch hîp t¨ng vµ chi phÝ s¶n xuÊt mét thµnh phÇn b¸n dÉn gi¶m (G.E. Moore, 1965

[Moore65]).

Page 8: KPDL_C1-6 & C10

15 16

1.1.1.1. VÒ mÆt c«ng nghÖ

B¶ng 1.1. Tæng giao vËn IP n¨m 2009 vµ dù b¸o c¸c n¨m 2010-2014. Chó thÝch: Consumer: L­u l­îng IP cè ®Þnh do hé gia ®×nh, c­ d©n tr­êng ®¹i häc, vµ cµ phª Internet t¹o ra; Business: L­u l­îng IP hoÆc WAN cè ®Þnh (kh«ng bao gåm l­u l­îng sao l­u) do doanh nghiÖp vµ chÝnh quyÒn t¹o ra; Mobility: L­u l­îng d÷ liÖu di ®éng vµ truy cËp Internet tõ thiÕt bÞ cÇm tay, thÎ m¸y tÝnh x¸ch tay, WiMAX; Internet: toµn bé l­u l­îng IP ®i qua ®­êng trôc Internet. Nguån: S¸ch tr¾ng CISCO 2010

Sù t¨ng tr­ëng d÷ liÖu víi tèc ®é cao nh­ ®­îc ®Ò cËp ®­îc dÉn xuÊt tõ c¸c

nguyªn nh©n c«ng nghÖ sau ®©y:

+ C«ng nghÖ chÕ t¹o c¸c thiÕt bÞ xö lý, l­u gi÷ vµ truyÒn dÉn d÷ liÖu ®· vµ

®ang ph¸t triÓn kh«ng ngõng, t¹o ra c¸c s¶n phÈm thiÕt bÞ cã tèc ®é ho¹t ®éng

ngµy cµng cao vµ gi¸ thµnh ngµy cµng h¹. Sù ph¸t triÓn c«ng nghÖ nµy ®­îc dÉn

d¾t bëi ®Þnh luËt Moore, mét ®Þnh luËt cã xuÊt ph¸t ®iÓm tõ néi dung mét bµi

b¸o ®­îc Gordon E. Moore, mét ®ång s¸ng lËp c«ng ty Intel (INTegrated

ELectronics) c«ng bè vµo n¨m 1965 [Moore65]. Néi dung ®­îc coi lµ quan

träng nhÊt trong bµi b¸o nµy cña G. E. Moore lµ dù b¸o vÒ xu thÕ t¨ng sè l­îng

thµnh phÇn b¸n dÉn ®Ó ®¹t ®­îc chi phÝ s¶n xuÊt hiÖu qu¶ nhÊt (H×nh 1.1).

Sau nµy, dù b¸o nãi trªn cña G.E. Moore ®­îc ph¸t biÓu d­íi d¹ng

“ph­¬ng ng«n 2x” nh­ sau “Sè l­îng b¸n dÉn tÝch hîp trong mét chÝp sÏ t¨ng

gÊp ®«i sau mét chu kú kho¶ng hai n¨m”. Mét d¹ng ph¸t biÓu kh¸c cña ®Þnh luËt

Moore lµ “chi phÝ s¶n xuÊt m¹ch b¸n dÉn víi cïng tÝnh n¨ng gi¶m mét nöa sau

kho¶ng hai n¨m”. Phiªn b¶n “18 th¸ng” cña ph­¬ng ng«n 2x rót ng¾n chu kú

thêi gian tõ hai n¨m xuèng cßn 18 th¸ng.

§Þnh luËt Moore ®· vµ ®ang dÉn d¾t ngµnh c«ng nghiÖp m¹ch b¸n dÉn mµ

“vÒ b¶n chÊt, nã lµ m« h×nh c¬ b¶n cho ngµnh c«ng nghiÖp b¸n dÉn”. Theo Paul

S. Otellini, Chñ tÞch vµ Gi¸m ®èc ®iÒu hµnh TËp ®oµn Intel, th× “§Þnh luËt

Moore vÉn t¹o kh¶ n¨ng c¬ b¶n cho sù ph¸t triÓn cña chóng t«i, vµ nã vÉn cßn

hiÖu lùc tèt t¹i Intel. Nh­ng c¸ch chóng t«i vµ kh¸ch hµng xem xÐt ®Þnh luËt Moore ®· cã sù thay ®æi. §Þnh luËt Moore kh«ng chØ lµ m¹ch b¸n dÉn. Nã còng

lµ c¸ch sö dông s¸ng t¹o m¹ch b¸n dÉn”1. Theo Daniel Grupp, Gi¸m ®èc ph¸t

triÓn c«ng nghÖ tiªn tiÕn cña Acorn Technologies, Inc. (http://acorntech.com/)

th× “toµn bé chu tr×nh thiÕt kÕ, ph¸t triÓn, s¶n xuÊt, ph©n phèi vµ b¸n hµng ®­îc

coi lµ cã tÝnh bÒn v÷ng khi tu©n theo ®Þnh luËt Moore... NÕu ®¸nh b¹i ®Þnh luËt

Moore, thÞ tr­êng kh«ng thÓ hÊp thô hÕt c¸c s¶n phÈm míi, vµ kü s­ bÞ mÊt viÖc lµm. NÕu bÞ tôt sau ®Þnh luËt Moore, kh«ng cã g× ®Ó mua, vµ g¸nh nÆng ®Ì lªn

®«i vai cña chuçi nhµ ph©n phèi s¶n phÈm”2.

Cuéc c¸ch m¹ng trong c«ng nghiÖp m¹ch b¸n dÉn (nÒn t¶ng cña c«ng

nghiÖp ®iÖn tö) t¸c ®éng m¹nh mÏ ®èi víi c«ng nghiÖp phÇn cøng m¸y tÝnh, t¹o

ra sù bïng næ vÒ n¨ng lùc xö lý tÝnh to¸n vµ dung l­îng l­u tr÷ d÷ liÖu; kÕt qu¶

lµ c¸c thiÕt bÞ t¹o lËp vµ l­u tr÷ d÷ liÖu mang theo sù tiÕn bé c«ng nghÖ kh«ng

ngõng ®­îc s¶n xuÊt vµ ®­a vµo sö dông.

Lich sö ph¸t triÓn c¸c bé xö lý Intel lµ mét minh häa ®iÓn h×nh, thÓ hiÖn sù

ph¸t triÓn c«ng nghÖ bé xö lý ®­îc dÉn d¾t bëi ®Þnh luËt Moore3. Mét vÝ dô

1 “Intel Silicon Innovation”. http://download.intel.com/museum/Moores_Law/ Printed_Materials/Intel_Silicon_Brochure.pdf 2 http://www.edavision.com/200111/feature.pdf 3 “Intel 40th Anniversary backgrounder”.

http://www.intel.com/pressroom/enhanced/40th_Anniversary/

40th_anniversary_backgrounder.pdf?iid=pr_smrelease_40th_addlmat1

Page 9: KPDL_C1-6 & C10

17 18

kh¸c, ho¹t ®éng thu thËp d÷ liÖu cña Sloan Digital Sky Survey (SDSS) - tæ chøc

hîp t¸c quèc tÕ lín nhÊt vÒ kh¶o s¸t thiªn v¨n b¾t ®Çu lµm viÖc tõ n¨m 2000 –

lµ mét minh chøng ®iÓn h×nh vÒ sù ph¸t triÓn cña c«ng nghÖ thu thËp d÷ liÖu.

Trong vµi tuÇn ho¹t ®éng ®Çu tiªn, kÝnh viÔn väng ®Çu tiªn cña SDSS t¹i New

Mexico ®· thu thËp ®­îc l­îng d÷ liÖu nhiÒu h¬n dung l­îng d÷ liÖu ®­îc tÝch

lòy trong toµn bé lÞch sö thiªn v¨n häc tr­íc ®ã. HiÖn t¹i, sau mét thËp kû, kho

tµi nguyªn d÷ liÖu cña SDSS lªn tíi 140 TB. KÝnh viÔn väng kÕ tiÕp cña SDSS

(Large Synoptic Survey Telescope) ®Æt t¹i Chile, ®­îc b¾t ®Çu ho¹t ®éng vµo

n¨m 2016, sÏ thu nhËn ®­îc khèi l­îng d÷ liÖu nh­ vËy (140 TB) chØ trong n¨m

ngµy.

C¸c kÕt qu¶ cña sù ph¸t triÓn c«ng nghÖ phÇn cøng m¸y tÝnh ®· t¹o ®iÒu

kiÖn thuËn lîi cho sù ph¸t triÓn c«ng nghÖ c¬ së d÷ liÖu (liªn quan tíi ho¹t ®éng

tæ chøc vµ qu¶n lý d÷ liÖu) vµ c«ng nghÖ m¹ng (liªn quan tíi ho¹t ®éng truyÒn

dÉn d÷ liÖu), hîp thµnh mét nÒn t¶ng kü thuËt tæng hîp cho sù bïng næ th«ng

tin.

+ C«ng nghÖ CSDL ®· vµ ®ang ph¸t triÓn kh«ng ngõng nh»m ®¸p øng nhu

cÇu qu¶n lý d÷ liÖu ngµy cµng n©ng cao cña x· héi loµi ng­êi (nãi chung) vµ

trong ho¹t ®éng qu¶n lý (nãi riªng). H×nh 1.2 tr×nh bµy qu¸ tr×nh tiÕn hãa c«ng

nghÖ CSDL theo quan ®iÓm cña J. Han vµ M. Kamber [HK0106].

Trong qu¸ tr×nh tiÕn hãa cña c«ng nghÖ CSDL, nhiÒu hÖ qu¶n trÞ c¬ së d÷

liÖu ®­îc ph¸t triÓn vµ n¨ng lùc cña hÖ qu¶n trÞ c¬ së d÷ liÖu còng ngµy ®­îc

n©ng cao. Sù t¨ng tr­ëng næi bËt vÒ kÝch th­íc cña c¬ së d÷ liÖu qu¶n lý ®· dÉn

®Õn cã nhiÒu c¬ së d÷ liÖu víi kÝch th­íc hµng tr¨m TB (1TB = 1000 GB) xuÊt

hiÖn. Ch¼ng h¹n, c¬ së d÷ liÖu cña Trung t©m tÝnh to¸n khoa häc nghiªn cøu

n¨ng l­îng quèc gia Mü (National Energy Research Scientific Computing

Center: NERSC) tíi th¸ng 3/2010 ®· ®¹t kho¶ng 460 TB4. C¬ së d÷ liÖu cña

YouTube sau hai n¨m ho¹t ®éng ®· cã tíi hµng tr¨m triÖu video, dung l­îng c¬

së d÷ liÖu cña YouTube t¨ng gÊp ®«i sau mçi chu kú 5 th¸ng. HÖ thèng siªu thÞ

4 http://www.nersc.gov/news/annual_reports/annrep0809/annrep0809.pdf

b¸n lÎ Wal-Mart, mçi giê cã h¬n 1 M giao dÞch kh¸ch hµng, cung cÊp c¸c c¬ së

d÷ liÖu mµ dung l­îng chung ­íc tÝnh lªn tíi h¬n 2,5 PB (1 PB = 1000 TB5).

+ Sù ph¸t triÓn c«ng nghÖ m¹ng c¶ vÒ quy m« vµ tèc ®é ®· t¹o ra sù t¨ng

tr­ëng m¹nh mÏ vÒ n¨ng lùc truyÒn dÉn th«ng tin. Theo b¸o c¸o tæng hîp cña

CISCO, tæng dung l­îng d÷ liÖu th«ng qua giao vËn IP trong mét th¸ng ®· t¨ng

tõ 14.686 PB vµo n¨m 2009 lªn 20.396 PB vµo n¨m 2010 vµ dù b¸o lªn tíi

63.463 PB vµo n¨m 2014. Theo dù b¸o, ®é t¨ng trung b×nh hµng n¨m vÒ dung

l­îng d÷ liÖu qua giao vËn IP trong giai ®o¹n 2009-2014 ®¹t kho¶ng 34% (B¶ng

1.1).

§Æc biÖt, World Wide Web ®· trë thµnh m¹ng th«ng tin khæng lå, trong ®ã

sè l­îng trang Web ®­îc ®¸nh chØ sè ®· lªn tíi con sè hµng chôc tû (theo sè liÖu

c«ng bè vµo ngµy 23/01/2011 cña WorldWideWeb.com, ®· cã h¬n 13 tû r­ìi

trang Web ®­îc ®¸nh chØ sè)6.

H×nh 1.3. Dung l­îng d÷ liÖu tæng thÓ n¨m 2010 ®¹t kho¶ng 1.260 EB (1EB = 1tû GB) [IDC10]. Chó thÝch: (1) Ng­êi dïng vµ nh©n viªn t¹o, l­u gi÷, hoÆc sao chÐp th«ng tin c¸ nh©n; (2) Doanh nghiÖp t¹o, vËn chuyÓn, l­u tr÷, qu¶n lý, hoÆc b¶o mËt.

5 D·y ®¬n vÞ ®o dung l-îng nhí ®-îc xÕp theo chiÒu t¨ng 1000 lÇn: Byte (B), Kilo bytes (KB), Mega B (MB), Giga B (GB), Texa B (TB), Peta B (PB), Exa B (EB), Zetta B (ZB), Yotta B (YB). Nh- vËy, 1 EB = 1 tû GB vµ 1 ZB = 1 ngh×n tû GB. 6 http://www.worldwidewebsize.com/

Page 10: KPDL_C1-6 & C10

19 20

1.1.1.2. VÒ mÆt x· héi

Xu thÕ ph¸t triÓn x· héi th«ng tin ®· më réng ®éi ngò t¸c nh©n t¹o lËp vµ

sö dông d÷ liÖu. Nguån d÷ liÖu ®­îc t¹o lËp, khai th¸c vµ truyÒn dÉn kh«ng chØ

cã trong ho¹t ®éng t¸c nghiÖp t¹i c¸c c«ng ty, mµ mét l­îng d÷ liÖu khæng lå

kh¸c ®· ®­îc mét lùc l­îng hïng hËu c¸c c¸ nh©n t¹o lËp vµ phæ biÕn trªn

Internet trªn c¸c trang web c¸ nh©n, c¸c m¹ng x· héi... Tíi th¸ng 2/2011, m¹ng

x· héi Facebook ®· bao gåm kho¶ng 40 tû ¶nh7.

T¹i H×nh 1.3, vµo n¨m 2010, dung l­îng d÷ liÖu tæng thÓ toµn thÕ giíi ®·

®¹t kho¶ng 1.260 EB, trong ®ã cã tíi 900 EB d÷ liÖu do ng­êi sö dông t¹o ra

(UGC: User-Genegated Content); dung l­îng d÷ liÖu lo¹i nµy ®· gÊp gÇn 4 lÇn

dung l­îng d÷ liÖu ®­îc c¸c doanh nghiÖp t¹o lËp ra (kho¶ng 240 EB).

1.1.1.3. Chi phÝ t¹o lËp d÷ liÖu míi ngµy cµng gi¶m

Theo tÝnh to¸n dù b¸o cña IDC ®­îc c«ng bè vµo th¸ng 5/2010, gi¸ thµnh

t¹o míi 1 GB d÷ liÖu lµ gÇn 0,5 xu Mü vµo n¨m 2009; gi¸ thµnh nµy sÏ tiÕp tôc

gi¶m trong c¸c n¨m tiÕp theo vµ dù kiÕn gi¸ t¹o míi mét GB d÷ liÖu sÏ vµo

kho¶ng 0,02 xu Mü vµo n¨m 2020 (H×nh 1.4). §iÒu cã lîi nµy võa lµ kÕt qu¶ cña

cuéc c¸ch m¹ng c«ng nghÖ võa lµ mét nguyªn nh©n gãp phÇn t¨ng tr­ëng dung

l­îng d÷ liÖu.

7 http://www.economist.com/node/15557443?story_id=15557443, ®¨ng ngµy 25/2/2010.

H×nh 1.4. Dung l­îng d÷ liÖu tæng thÓ vµ gi¸ thµnh t¹o lËp d÷ liÖu giai ®o¹n 2009-2020 [IDC10].

Sau ®©y lµ mét sè vÝ dô minh häa vÒ tÝnh phong phó cña hiÖn t­îng “bïng

næ d÷ liÖu”. D÷ liÖu tæng thÓ tiÕp tôc ph¸t sinh, l­u tr÷ bao gåm giao dÞch

th­¬ng m¹i, cuéc gäi diÖn tho¹i, d÷ liÖu khoa häc: thiªn v¨n, sinh häc, Web, v¨n

b¶n, ¶nh,... Theo tæng hîp cña IDC, tuy cã bÞ ¶nh h­ëng cña khñng ho¶ng kinh

tÕ trong c¸c n¨m 2008-2009 song dung l­îng d÷ liÖu tæng thÓ vµo n¨m 2010 ®·

t¨ng 62% so víi gÇn 0,8 ZB (800 EB) vµo n¨m 2009 ®Ó ®¹t tíi 1,26 ZB (1260

EB).

Còng theo IDC, nguån d÷ liÖu tæng thÓ ®­îc dù b¸o lªn tíi 35 ZB vµo n¨m

2020. §é dèc cña ®­êng biÓu diÔn dung l­îng nguån d÷ liÖu tæng thÓ trong

H×nh 1.4 ngµy cµng lín, chøng tá ®é t¨ng tr­ëng d÷ liÖu ngµy cµng cao.

1.1.2. Ngµnh c«ng nghiÖp dùa trªn d÷ liÖu

ViÖc t¹o lËp, thu thËp vµ l­u tr÷ d÷ liÖu víi kÕt qu¶ lµ xuÊt hiÖn c¸c kho

chøa d÷ liÖu khæng lå ®­îc liÖt kª trªn ®©y kh«ng ngoµi môc ®Ých khai ph¸ d÷

liÖu nh»m ph¸t hiÖn c¸c tri thøc míi gióp Ých cho ho¹t ®éng cña con ng­êi trong

tËp hîp d÷ liÖu.

Theo Jim Gray, chuyªn gia cña Microsoft, ng­êi ®­îc nhËn gi¶i th­ëng

Turing n¨m 1998, th× “Chóng ta ®ang ngËp trong d÷ liÖu khoa häc, d÷ liÖu y tÕ,

d÷ liÖu nh©n khÈu häc, d÷ liÖu tµi chÝnh, vµ c¸c d÷ liÖu tiÕp thÞ. Con ng­êi kh«ng

cã ®ñ thêi gian ®Ó xem xÐt d÷ liÖu nh­ vËy… V× vËy, chóng ta ph¶i t×m c¸ch tù

®éng ph©n tÝch d÷ liÖu, tù ®éng ph©n lo¹i nã, tù ®éng tãm t¾t nã, tù ®éng ph¸t

hiÖn vµ m« t¶ c¸c xu h­íng trong nã, vµ tù ®éng chØ dÉn c¸c dÞ th­êng. §©y lµ

mét trong nh÷ng lÜnh vùc n¨ng ®éng vµ thó vÞ nhÊt cña céng ®ång nghiªn cøu c¬

së d÷ liÖu. C¸c nhµ nghiªn cøu vÒ thèng kª, trùc quan hãa, trÝ tuÖ nh©n t¹o, vµ

häc m¸y ®ang ®ãng gãp cho lÜnh vùc nµy. TÝnh réng lín cña lÜnh vùc ®· lµm cho

nã trë nªn khã kh¨n ®Ó n¾m b¾t nh÷ng tiÕn bé phi th­êng trong vµi thËp kû gÇn

®©y” [HK0106].

Page 11: KPDL_C1-6 & C10

21 22

Kenneth Cukier ®­a ra nhËn ®Þnh t­¬ng tù “Th«ng tin tõ khan hiÕm tíi d­

dËt. §iÒu ®ã mang l¹i lîi Ých míi to lín... t¹o nªn kh¶ n¨ng lµm ®­îc nhiÒu viÖc

mµ tr­íc ®©y kh«ng thÓ thùc hiÖn ®­îc: nhËn ra c¸c xu h­íng kinh doanh, ng¨n ngõa bÖnh tËt, chèng téi ph¹m...§­îc qu¶n lý tèt, d÷ liÖu nh­ vËy cã thÓ ®­îc sö

dông ®Ó më khãa c¸c nguån míi cã gi¸ trÞ kinh tÕ, cung cÊp nh÷ng hiÓu biÕt míi

vµo khoa häc vµ t¹o ra lîi Ých tõ qu¶n lý..."7.

Nh­ ®· ®­îc tr×nh bµy, nhiÒu tri thøc cã Ých ®ang tiÒm Èn trong tËp d÷ liÖu

®å sé ®­îc thu thËp vµ l­u gi÷. Tuy nhiªn, dung l­îng khæng læ cña d÷ liÖu ®­îc

t¹o lËp, thu thËp vµ l­u tr÷ l¹i t¹o nªn c¸c th¸ch thøc míi cho con ng­êi trong

viÖc hiÓu vµ xö lý d÷ liÖu, dÉn ®Õn t×nh tr¹ng con ng­êi “ngËp trong d÷ liÖu”.

Còng theo Kenneth Cukier7 th× th«ng tin tõ khan hiÕm tíi d­ dËt “còng lµ mét

nçi ®au ®Çu lín... Con ng­êi ®· tõ l©u phµn nµn r»ng hä ®· ph¶i b¬i trong th«ng tin (d÷ liÖu)”. “Nçi ®au ®Çu” mµ Kenneth Cukier muèn nãi ®Õn lµ hiÖn t­îng

con ng­êi ngµy cµng khã tiÕp cËn ®­îc nguån d÷ liÖu to lín ®ang ngµy cµng gia

t¨ng còng nh­ khã tiÕp cËn ®­îc c¸ch thøc ®Ó qu¶n lý tèt ®­îc nguån d÷ liÖu

khæng lå ®ã nh»m mang l¹i lîi Ých to lín trong viÖc nhËn ra c¸c xu h­íng kinh

doanh, ng¨n ngõa bÖnh tËt, chèng téi ph¹m…

H×nh 1.5 cung cÊp mét dù b¸o IDC Digital Universe Study vÒ ®é t¨ng d÷

liÖu tæng thÓ trong “vò trô sè” giai ®o¹n 2009-2020. So víi n¨m 2009, vµo n¨m

2020, sè l­îng ®èi t­îng chøa tin t¨ng 67 lÇn, dung l­îng d÷ liÖu ­íc ®¹t 35 ZB

t¨ng 44 lÇn, tuy nhiªn lùc l­îng lao ®éng vÒ CNTT chØ t¨ng 1,4 lÇn. Sù chªnh

lÖch gi÷a tèc ®é t¨ng dung l­îng d÷ liÖu so víi tèc ®é t¨ng lùc l­îng lao ®éng

CNTT còng trë thµnh mét th¸ch thøc lín trong xö lý vµ sö dông d÷ liÖu.

H¬n n÷a, thÕ giíi ngµy nay ®ang trong thêi kú qu¸ ®é chuyÓn tõ kinh tÕ

hµng hãa (good economy, hay kinh tÕ h­íng hµng hãa: good-dominant

economy) sang kinh tÕ dÞch vô (service economy, hay kinh tÕ h­íng dÞch vô:

service-dominant economy), mµ tri thøc ®· trë thµnh ®éng lùc chñ chèt cho t¨ng

tr­ëng kinh tÕ (Ch­¬ng 2). Trong xu thÕ chuyÓn sang nÒn kinh tÕ h­íng dÞch vô,

yªu cÇu qu¶n lý tèt d÷ liÖu lín cµng trë nªn cÊp b¸ch ®èi víi con ng­êi trong

viÖc gi¶i quyÕt t×nh tr¹ng “ngËp trong d÷ liÖu mµ kh¸t tri thøc”.

Nh­ vËy, mét yªu cÇu cÊp thiÕt ®Æt ra lµ ph¶i x©y dùng ®­îc c¸c ph­¬ng

ph¸p míi xö lý (tù ®éng) d÷ liÖu ®Ó phï hîp víi hoµn c¶nh khèi l­îng d÷ liÖu ®·

rÊt lín vµ ®ang t¨ng tr­ëng víi tèc ®é ngµy cµng cao. C¸c nhµ nghiªn cøu vµ

triÓn khai ®· ®Ò cËp tíi cuéc c¸ch m¹ng c«ng nghiÖp d÷ liÖu (“the industrial

revolution of data”). Mét lÜnh vùc khoa häc míi mang tªn “khoa häc d÷ liÖu

lín”7 (science of big data) ®· ®­îc h×nh thµnh. Tõ nguån d÷ liÖu khæng lå ®­îc

qu¶n lý tèt, chóng ta sÏ thu nhËn ®­îc c¸c tri thøc vÒ xu h­íng kinh doanh, vÒ

ng¨n ngõa bÖnh tËt, vÒ chèng téi ph¹m.

H×nh 1.5. §é t¨ng cña d÷ liÖu tæng thÓ vµ lùc l­îng lao ®éng CNTT giai ®o¹n 2009-2020 [IDC10].

Còng theo Kenneth Cukier, c«ng nghiÖp qu¶n lý vµ ph©n tÝch d÷ liÖu ®Ó

nhËn ®­îc tri thøc tiÒm Èn tõ d÷ liÖu (c«ng nghiÖp dùa trªn d÷ liÖu) ®­îc ®Þnh

gi¸ lªn tíi h¬n 100 tû ®« la Mü t¹i thêi ®iÓm n¨m 2010 vµ cã tèc ®é t¨ng tr­ëng

kho¶ng 10% hµng n¨m (gÇn gÊp ®«i so víi tèc ®é t¨ng tr­ëng cña kinh doanh

phÇn mÒm nãi chung). Trong mét vµi n¨m cuèi cña thËp niªn 2000, c¸c tËp ®oµn

CNTT hµng ®Çu thÕ giíi nh­ Oracle, IBM, Microsoft vµ SAP ®· chi tíi h¬n 15 tû

®« la Mü ®Ó mua l¹i c¸c c«ng ty phÇn mÒm chuyªn vÒ qu¶n lý vµ ph©n tÝch d÷

liÖu.

Page 12: KPDL_C1-6 & C10

23 24

§Þnh nghÜa c«ng nghÖ d÷ liÖu lín cña IDC vµo n¨m 2011 [GR11] cung cÊp

mét c¸ch hiÓu vÒ néi dung cña c«ng nghÖ míi nµy: C«ng nghÖ d÷ liÖu lín m« t¶

mét thÕ hÖ míi cña c«ng nghÖ vµ kiÕn tróc h¹ tÇng, ®­îc thiÕt kÕ tiÕt kiÖm nhÊt

®Ó thu ®­îc gi¸ trÞ tõ khèi l­îng rÊt lín cña d÷ liÖu ®a d¹ng, b»ng c¸ch cho phÐp

chôp tèc ®é cao, ph¸t hiÖn vµ/hoÆc ph©n tÝch8.

Song hµnh víi xu h­íng ho¹t ®éng qu¶n lý, ph¸t hiÖn vµ ph©n tÝch d÷ liÖu

ngµy cµng ®­îc t¨ng c­êng, ng­êi gi¸m ®èc th«ng tin (Chief information

officer: CIO) cã vai trß ngµy cµng næi bËt trong bé m¸y ®iÒu hµnh cña tæ chøc.

Hä lµ c¸c nhµ khoa häc d÷ liÖu (data scientist), nh÷ng ng­êi tÝch hîp ®­îc c¸c

kü n¨ng cña lËp tr×nh viªn, nhµ thèng kª vµ nghÖ nh©n nh»m “®µo ®­îc vµng

cèm Èn trong nói d÷ liÖu”. §Æc ®iÓm “nghÖ nh©n” cña nhµ khoa häc d÷ liÖu cßn

®­îc chØ dÉn nh­ lµ “ng­êi kÓ chuyÖn” (storyteller). §iÒu nµy cã thÓ ®­îc gi¶i

thÝch lµ nhµ khoa häc d÷ liÖu cã n¨ng lùc “kÓ l¹i ®­îc c©u chuyÖn cña d÷ liÖu”,

®Ó tõ ®ã cho phÐp nhËn ra ®­îc c¸c tri thøc h÷u Ých, cÇn thiÕt tõ “nói d÷ liÖu ®å

sé”. Theo Quü khoa häc quèc gia Mü (NSF), nhµ khoa häc d÷ liÖu cã c¸c chøc

n¨ng sau ®©y “thi hµnh s¸ng t¹o ho¹t ®éng kh¶o s¸t vµ ph©n tÝch, t¨ng c­êng t­

vÊn, hîp t¸c, vµ phèi hîp n¨ng lùc cña nh÷ng ng­êi kh¸c ®Ó tiÕn hµnh nghiªn

cøu vµ gi¸o dôc b»ng c¸c bé d÷ liÖu sè; ®i tiªn phong trong viÖc ph¸t triÓn s¸ng

t¹o trong lÜnh vùc c«ng nghÖ c¬ së d÷ liÖu vµ khoa häc th«ng tin, bao gåm

ph­¬ng ph¸p trùc quan hãa d÷ liÖu vµ ph¸t hiÖn tri thøc ®Ó ¸p dông vµo c¸c lÜnh

vùc khoa häc vµ gi¸o dôc liªn quan ®Õn c¸c bé d÷ liÖu; thi hµnh mét c¸ch tèt

nhÊt c¶ theo khÝa c¹nh thùc tiÔn lÉn khÝa c¹nh c«ng nghÖ; ®ãng vai trß cè vÊn ®Ó

khëi t¹o hoÆc chuyÓn ®æi d÷ liÖu cho c¸c nhµ ®iÒu tra, sinh viªn vµ nh÷ng ng­êi

kh¸c cã quan t©m tíi khoa häc d÷ liÖu; thiÕt kÕ vµ thi hµnh c¸c ch­¬ng tr×nh gi¸o

dôc vµ tiÕp cËn céng ®ång lµm cho lîi Ých cña c¸c bé d÷ liÖu vµ th«ng tin khoa

häc kü thuËt sè tíi c¸c nghiªn cøu viªn, gi¶ng viªn, sinh viªn vµ c«ng chóng

trong mét ph¹m vi réng nhÊt cã thÓ ®­îc” [NSF05]. A. Swan vµ S. Brown [SB08]

quan niÖm r»ng nhµ khoa häc d÷ liÖu lµ nh÷ng ng­êi nghiªn cøu vµ thùc hiÖn

8 Nguyªn v¨n: "Big data technologies describe a new generation of technologies and

architectures, designed to economically extract value from very large volumes of a wide

variety of data, by enabling high-velocity capture, discovery, and/or analysis".

toµn bé hoÆc bé phËn tËp hîp c¸c chøc n¨ng nh­ ®Þnh nghÜa trªn ®©y cña NSF.

Hai t¸c gi¶ ph©n biÖt nhµ khoa häc d÷ liÖu víi nhµ t¹o lËp d÷ liÖu (t¸c gi¶ d÷

liÖu), ng­êi qu¶n lý d÷ liÖu, vµ chuyªn viªn th­ viÖn. Mét nhµ khoa häc d÷ liÖu

hoÆc lµ nhµ khoa häc m¸y tÝnh cã kü n¨ng ®¸ng kÓ miÒn øng dông hoÆc lµ nhµ

khoa häc miÒn øng dông cã kü n¨ng ®¸ng kÓ vÒ tÝnh to¸n.

ThÝch øng víi hoµn c¶nh d÷ liÖu lín, hç trî ®¾c lùc cho nhµ khoa häc d÷

liÖu lµ c¸c ph­¬ng ph¸p xö lý d÷ liÖu míi vµ c¸c bé c«ng cô tiÖn Ých thi hµnh víi

c¸c ph­¬ng ph¸p nµy ®Ó ph¸t hiÖn ra c¸c tri thøc míi, cã gi¸ trÞ, h÷u dông ®ang

tiÒm Èn trong d÷ liÖu lín ®ã. X©y dùng vµ ph¸t triÓn ph­¬ng ph¸p vµ c«ng cô xö

lý d÷ liÖu lín nh»m môc ®Ých ph¸t hiÖn tri thøc tiÒm Èn lµ néi dung cña lÜnh vùc

ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (Knowledge Discovery in Databases:

KDD). Khai ph¸ d÷ liÖu (Data Mining) lµ bµi to¸n xö lý d÷ liÖu c¬ b¶n nhÊt

trong qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu. Trong nhiÒu tr­êng hîp,

hai kh¸i niÖm Khai ph¸ d÷ liÖu vµ Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu cßn

mang cïng mét néi dung.

Nh­ ®­îc m« t¶ trong H×nh 1.2, J. Han vµ M. Kamber [HK0106] cho r»ng

qu¸ tr×nh tiÕn hãa cña lÜnh vùc c«ng nghÖ c¬ së d÷ liÖu (CSDL), trong ®ã c«ng

nghÖ khai ph¸ d÷ liÖu (Data Mining) ®­îc coi lµ giai ®o¹n tiÕn hãa míi cña c«ng

nghÖ CSDL. Qu¸ tr×nh tiÕn hãa nµy ®­îc b¾t ®Çu tõ cuèi nh÷ng n¨m 1980 vµ

kh«ng ngõng ®­îc ph¸t triÓn vÒ bÒ réng vµ chiÒu s©u.

1.2. Kh¸i niÖm Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu

LÜnh vùc khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL lµ mét lÜnh vùc

réng lín, ®· cuèn hót c¸c ph­¬ng ph¸p, thuËt to¸n vµ kü thuËt tõ nhiÒu chuyªn

ngµnh nghiªn cøu kh¸c nhau nh­ häc m¸y, thu nhËn mÉu, CSDL, thèng kª, trÝ

tuÖ nh©n t¹o, thu nhËn tri thøc trong hÖ chuyªn gia cïng h­íng tíi mét môc tiªu

thèng nhÊt lµ trÝch läc ra ®­îc c¸c "tri thøc" tõ d÷ liÖu trong c¸c kho chøa khæng

lå. TÝnh phong phó vµ ®a d¹ng cña lÜnh vùc khai ph¸ d÷ liÖu dÉn ®Õn mét thùc

Page 13: KPDL_C1-6 & C10

25 26

tr¹ng lµ tån t¹i c¸c quan niÖm kh¸c nhau vÒ c¸c chuyªn ngµnh khoa häc - c«ng

nghÖ gÇn gòi nhÊt víi lÜnh vùc ®ã.

H×nh 1.6. Ng­ìng ®¬n T theo thu nhËp ®Ó ph©n líp cho vay: Vïng bÞ phñ bëi ng­ìng T (vïng c¸c dÊu chÊm) t­¬ng øng quyÕt ®Þnh kh«ng cho vay (FPS96] (L­u ý, vïng phÝa trªn ®­êng

nghiªng rêi nÐt cho quyÕt ®Þnh tèt h¬n).

Gi¸o tr×nh nµy t¸n thµnh quan niÖm cña J. Han vµ M. Kamber coi lÜnh vùc

khai ph¸ d÷ liÖu lµ giai ®o¹n ph¸t triÓn míi cña c«ng nghÖ CSDL vµ cã liªn quan

mËt thiÕt víi nhiÒu ngµnh. Nh­ vËy, cã thÓ g¾n lÜnh vùc nµy víi chuyªn ngµnh

hÖ thèng th«ng tin.

VÝ dô 1.1. (Frawley, Piatetski-Shapiro vµ Matheus [FPS96])

H×nh 1.6. tr×nh bµy mét tËp d÷ liÖu gi¶ ®Þnh vÒ vay nî ng©n hµng gåm 23

tr­êng hîp ®­îc biÓu diÔn trong kh«ng gian hai chiÒu. Mçi ®iÓm trªn ®å thÞ biÓu

diÔn mét tr­êng hîp vay nî ë ng©n hµng trong qu¸ khø. Trôc hoµnh biÓu diÔn

thu nhËp cßn trôc tung biÓu diÔn tæng nî c¸ nh©n cña ng­êi ®i vay (tiÒn thÕ

chÊp, tiÒn chi tr¶ « t«...). D÷ liÖu ®­îc ph©n thµnh hai líp: líp gåm nh÷ng

ng­êi thiÕu kh¶ n¨ng tr¶ nî ng©n hµng vµ líp o gåm nh÷ng ng­êi cã t×nh tr¹ng

tèt.

H×nh 1.7. Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu [FPS96]

Kh¸i niÖm 1.1. [FPS96]

Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (®«i khi cßn ®­îc gäi lµ khai ph¸ d÷

liÖu) lµ mét qu¸ tr×nh kh«ng tÇm th­êng t×m ra nh÷ng mÉu cã gi¸ trÞ, míi, h÷u

Ých tiÒm n¨ng vµ hiÓu ®­îc trong d÷ liÖu.

Lµ lÜnh vùc nghiªn cøu vµ triÓn khai ®­îc ph¸t triÓn rÊt nhanh chãng vµ cã

ph¹m vi rÊt réng lín, l¹i ®­îc rÊt nhiÒu nhãm nghiªn cøu t¹i nhiÒu tr­êng ®¹i

häc, viÖn nghiªn cøu, c«ng ty ë nhiÒu quèc gia trªn thÕ giíi quan t©m, cho nªn

tån t¹i rÊt nhiÒu c¸ch tiÕp cËn kh¸c nhau ®èi víi lÜnh vùc ph¸t hiÖn tri thøc trong

CSDL. ChÝnh v× lý do ®ã mµ trong nhiÒu tµi liÖu, nh­ ®· nãi ë trªn, c¸c nhµ khoa

häc trªn thÕ giíi ®· dïng nhiÒu thuËt ng÷ kh¸c nhau, mµ c¸c thuËt ng÷ nµy ®­îc

coi lµ mang cïng nghÜa víi KDD nh­ chiÕt läc tri thøc (knowledge extraction),

ph¸t hiÖn th«ng tin (information discovery), thu ho¹ch th«ng tin (information

harvesting), khai quËt d÷ liÖu (data archaeology), xö lý mÉu d÷ liÖu (data pattern

processing)... H¬n n÷a, trong nhiÒu tr­êng hîp, hai kh¸i niÖm "Ph¸t hiÖn tri thøc

trong c¬ së d÷ liÖu" vµ "khai ph¸ d÷ liÖu" cßn ®­îc dïng thay thÕ nhau [FPS96].

Hai kh¸i niÖm khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¸c CSDL th­êng cÆp

®«i víi nhau.

1.2.1. Gi¶i thÝch mét sè thuËt ng÷

Mét sè thuËt ng÷ cã trong ®Þnh nghÜa 1.1 trªn ®©y cÇn ®­îc gi¶i thÝch lµ

"mÉu", "cã gi¸ trÞ", "míi", "h÷u Ých" vµ "hiÓu ®­îc". D­íi ®©y tr×nh bµy mét sè

gi¶i thÝch s¬ bé vÒ c¸c kh¸i niÖm nµy nh»m lµm t­êng minh thªm ng÷ nghÜa cña

kh¸i niÖm KDD trong ®Þnh nghÜa 1.1.

D÷ liÖu (chÝnh x¸c h¬n lµ tËp d÷ liÖu) ®­îc hiÓu nh­ lµ mét tËp F gåm

h÷u h¹n c¸c tr­êng hîp (sù kiÖn). Theo néi dung cña ph¸t hiÖn tri thøc trong c¸c

CSDL, d÷ liÖu ph¶i bao gåm nhiÒu tr­êng hîp. Trong vÝ dô 1.1, F lµ tËp hîp

gåm 23 tr­êng hîp (b¶n ghi) víi 3 tr­êng th«ng tin (thuéc tÝnh) t­¬ng øng chøa

c¸c gi¸ trÞ vÒ sè nî, thu nhËp vµ t×nh tr¹ng vay nî. Trong bµi to¸n khai ph¸ v¨n

Page 14: KPDL_C1-6 & C10

27 28

b¶n, tËp d÷ liÖu F chÝnh tËp hîp c¸c v¨n b¶n cã thÓ cã trong miÒn øng dông.

Trong bµi to¸n khai ph¸ luËt kÕt hîp giao dÞch, tËp F bao gåm tÊt c¶ c¸c giao

dÞch cã thÓ cã ®­îc xem xÐt trong miÒn ¸p dông cña bµi to¸n.

MÉu: Trong qu¸ tr×nh KDD, ng­êi ta sö dông mét ng«n ng÷ L ®Ó biÓu

diÔn c¸c tËp con c¸c sù kiÖn (d÷ liÖu) thuéc vµo tËp sù kiÖn F, theo ®ã mçi biÓu

thøc E trong ng«n ng÷ L sÏ biÓu diÔn mét tËp con FE t­¬ng øng c¸c sù kiÖn trong

F. E ®­îc gäi lµ mÉu nÕu nã ®¬n gi¶n h¬n (theo mét ng÷ c¶nh nµo ®ã) so víi

viÖc liÖt kª c¸c sù kiÖn thuéc FE. Ch¼ng h¹n, biÓu thøc "THUNHËP < $t" (m«

h×nh chøa mét biÕn THUNHËP) trong mÖnh ®Ò "NÕu THUNHËP < $t th× ng­êi

vay nî r¬i vµo t×nh tr¹ng kh«ng thÓ chi tr¶" sÏ lµ mét mÉu khi cho biÕn t nhËn

mét gi¸ trÞ thÝch hîp. Nh­ tr×nh bµy b»ng ®å thÞ t¹i H×nh 1.6, khi biÕn t nhËn mét

gi¸ trÞ cô thÓ T mÉu nµy (biÓu diÔn mäi tr­êng hîp cã THUNHËP < T) hiÓn

nhiªn lµ gän h¬n so víi viÖc liÖt kª 14 tr­êng hîp cô thÓ. T­¬ng tù, nÕu F lµ tËp

c¸c trang Web trong kho l­u tr÷ cña mét m¸y t×m kiÕm (ch¼ng h¹n Google) th×

mÉu "tµi liÖu cã chøa tõ côm tõ "Search Engine" sÏ biÓu diÔn mét tËp bao gåm

mét sè l­îng rÊt lín c¸c tµi liÖu Web cã chøa côm tõ "Search Engine" ®ã.

Qu¸ tr×nh KDD th­êng bao gåm nhiÒu b­íc lµ chuÈn bÞ d÷ liÖu, t×m kiÕm

mÉu, ­íc l­îng tri thøc, tinh chÕ sù t­¬ng t¸c néi t¹i sau khi chuyÓn d¹ng d÷

liÖu. Qu¸ tr×nh ®­îc thõa nhËn lµ kh«ng tÇm th­êng theo nghÜa lµ qu¸ tr×nh ®ã

kh«ng chØ nhiÒu b­íc mµ cßn ®­îc thùc hiÖn lÆp ®i lÆp l¹i, vµ quan träng h¬n,

qu¸ tr×nh ®ã bao hµm mét møc ®é t×m kiÕm tù ®éng. Ch¼ng h¹n trong VÝ dô 1.1,

khi tÝnh to¸n ý nghÜa vÒ thu nhËp cña mét ng­êi, nÕu chØ th«ng qua c¸c t¸c ®éng

®¬n gi¶n mµ chóng ta thu nhËn ®­îc mét kÕt luËn nµo ®ã cã thÓ lµ h÷u Ých vÒ

mèi quan hÖ gi÷a thu nhËp vµ t×nh trang vay ng©n hµng, ch¼ng h¹n nh­ “ng­êi

cã thu nhËp cao th× kh¶ n¨ng th× cã t×nh tr¹ng vay nî tèt”, th× ®õng véi cho r»ng

®ã ®· lµ mét kh¸m ph¸ (hoÆc ®õng cho r»ng mét tri thøc ®· ®­îc ph¸t hiÖn).

Cã gi¸ trÞ: MÉu ®­îc ph¸t hiÖn cÇn ph¶i cã gi¸ trÞ ®èi víi c¸c d÷ liÖu míi

(xuÊt hiÖn trong t­¬ng lai) theo mét møc ®é ch©n thùc nµo ®Êy. TÝnh chÊt "cã

gi¸ trÞ" ®­îc hiÓu theo nghÜa liªn quan tíi mét ®é ®o tÝnh cã gi¸ trÞ (ch©n thùc) lµ

mét hµm C ¸nh x¹ mét biÓu thøc thuéc ng«n ng÷ biÓu diÔn mÉu L tíi mét kh«ng

gian ®o ®­îc (bé phËn hoÆc toµn bé) MC. Mét biÓu thøc E trong L biÓu diÔn mét

tËp con FE F cã thÓ ®­îc g¸n mét ®é ®o ch©n thùc c = C(E,F).

Ch¼ng h¹n, nÕu ®­êng biªn x¸c ®Þnh mÉu "THUNHËP < $t" nh­ chØ dÉn

trong H×nh 1.6 ®­îc dÞch sang ph¶i (biÕn THUNHËP nhËn gi¸ trÞ lín h¬n) th× ®é

ch©n thùc cña mÉu míi sÏ bÞ gi¶m xuèng bëi v× nã ®· bao gãi thªm c¸c t×nh

huèng vay tèt l¹i bÞ ®­a vµo vïng kh«ng cho vay nî.

T­¬ng tù, mÉu "NÕu a*THUNHËP + b*Nî < 0 (thuéc m« h×nh tuyÕn tÝnh

hai biÕn THUNHËP vµ Nî trong a*THUNHËP + b*Nî) th× ng­êi vay nî r¬i vµo

t×nh tr¹ng kh«ng thÓ chi tr¶" biÓu diÔn mét nöa mÆt ph¼ng phÝa trªn cña ®­êng

rêi nÐt trong H×nh 1.6 sÏ cho ®é ch©n thùc cao h¬n (hay ®­îc coi lµ "cã gi¸ trÞ

h¬n") so víi mäi mÉu thuéc m« h×nh mét biÕn "THUNHËP < $t".

TÝnh míi: MÉu ph¶i lµ míi trong mét miÒn xem xÐt nµo ®ã, Ýt nhÊt lµ hÖ

thèng ®ang ®­îc xem xÐt. TÝnh míi cã thÓ ®o ®­îc khi quan t©m tíi sù thay ®æi

trong d÷ liÖu (b»ng viÖc so s¸nh gi¸ trÞ hiÖn t¹i víi gi¸ trÞ qu¸ khø hoÆc gi¸ trÞ kú

väng) hoÆc tri thøc (tri thøc míi quan hÖ nh­ thÕ nµo víi c¸c tri thøc ®· cã).

Tæng qu¸t, ®iÒu nµy cã thÓ ®­îc ®o b»ng mét hµm N(E,F) hoÆc lµ ®é ®o vÒ tÝnh

míi hoÆc lµ ®é ®o kú väng.

H÷u Ých tiÒm n¨ng: MÉu cÇn cã kh¶ n¨ng chØ dÉn tíi c¸c t¸c ®éng h÷u

dông vµ ®­îc ®o bëi mét hµm tiÖn Ých. Ch¼ng h¹n, hµm U ¸nh x¹ c¸c biÓu thøc

trong L tíi mét kh«ng gian ®o cã thø tù (bé phËn hoÆc toµn bé) MU, theo ®ã u =

U (E,F). VÝ dô, trong tËp d÷ liÖu vay nî, hµm nµy cã thÓ lµ sù t¨ng hy väng theo sù t¨ng l·i cña nhµ b¨ng (tÝnh theo ®¬n vÞ tiÒn tÖ) kÕt hîp víi quy t¾c quyÕt ®Þnh

®­îc tr×nh bµy trong H×nh 1.6.

Cã thÓ hiÓu ®­îc: Mét môc tiªu cña KDD lµ t¹o ra c¸c mÉu mµ con ng­êi hiÓu chóng dÔ dµng h¬n c¸c d÷ liÖu nÒn (d÷ liÖu s½n cã trong hÖ thèng). ChÝnh v×

lý do tiªu chÝ nµy lµ khã mµ ®o ®­îc mét c¸ch chÝnh x¸c cho nªn th­êng tÝnh

chÊt "cã thÓ hiÓu ®­îc" ®­îc thay b»ng mét ®é ®o vÒ sù dÔ hiÓu. Tån t¹i mét sè

®é ®o vÒ sù dÔ hiÓu, c¸c ®é ®o nh­ vËy ®­îc s¾p xÕp tõ có ph¸p (tøc lµ cì cña

mÉu theo bit) tíi ng÷ nghÜa (tøc lµ dÔ dµng ®Ó con ng­êi nhËn thøc ®­îc theo

mét t¸c ®éng nµo ®ã). Bëi lý do ®ã, chóng ta gi¶ ®Þnh r»ng tÝnh hiÓu ®­îc lµ ®o

Page 15: KPDL_C1-6 & C10

29 30

®­îc b»ng mét hµm S ¸nh x¹ biÓu thøc E trong L tíi mét kh«ng gian ®o ®­îc cã

thø tù (bé phËn hoÆc toµn bé) MS; theo ®ã, s = S(E,F).

§é hÊp dÉn: Mét tiªu chÝ quan träng, ®­îc gäi lµ ®é hÊp dÉn (interestingness), th­êng ®­îc coi nh­ mét ®é ®o tæng thÓ vÒ mÉu lµ sù kÕt hîp

cña c¸c tiªu chÝ gi¸ trÞ, míi, h÷u Ých vµ cã thÓ hiÓu ®­îc. Mét sè hÖ thèng KDD

th­êng sö dông mét hµm hÊp dÉn d­íi d¹ng hiÓn i = I (E, F, C, N, U, S) thùc

hiÖn ¸nh x¹ mét biÓu thøc trong L vµo mét kh«ng gian ®o ®­îc Mi. Mét sè hÖ

thèng KDD kh¸c l¹i cã thÓ x¸c ®Þnh gi¸ trÞ hÊp dÉn cña mÉu mét c¸ch trùc tiÕp

th«ng qua thø tù cña c¸c mÉu ®­îc ph¸t hiÖn.

Trong thùc tiÔn gi¶i quyÕt c¸c bµi to¸n khai ph¸ d÷ liÖu, ng­êi ta th­êng

chØ quan t©m ®Õn ®é hÊp dÉn, cßn c¸c ®é ®o kh¸c ®­îc mÆc ®Þnh coi lµ thµnh

phÇn cña ®é hÊp dÉn. Cô thÓ lµ, khi thi hµnh mét lo¹i bµi to¸n ph¸t hiÖn tri thøc

cô thÓ, mét sè ®é ®o t­¬ng øng ®­îc tÝnh to¸n nh»m x¸c ®Þnh ®é hÊp dÉn cña tri

thøc ("mÉu", "luËt") ®ang ®­îc xem xÐt. Ch¼ng h¹n, trong bµi to¸n khai ph¸ luËt

kÕt hîp, hai ®é ®o ®­îc xem xÐt, ®ã lµ ®é hç trî (x¸c ®Þnh ph¹m vi ¶nh h­ëng

cña luËt) vµ ®é tin cËy (x¸c ®Þnh tÝnh tin cËy cña luËt) hîp thµnh ®é hÊp dÉn cña

luËt kÕt hîp ®· ®­îc khai ph¸. T­¬ng tù, trong bµi to¸n ph©n líp, ng­êi ta sö

dông hai ®é ®o c¬ b¶n lµ ®é håi t­ëng (recall - kh¶ n¨ng bao gãi vÝ dô ®óng) vµ

®é chÝnh x¸c (precision - kh¶ n¨ng chÝnh x¸c khi x¸c ®Þnh vÝ dô ®óng); ®ång

thêi, mét sè ®é ®o mang ý nghÜa kÕt hîp tõ hai ®é ®o nµy còng ®­îc sö dông.

Tri thøc: Mét mÉu E L ®­îc gäi lµ tri thøc nÕu nh­ ®èi víi mét líp

ng­êi sö dông nµo ®ã, chØ ra ®­îc mét ng­ìng i Mi mµ ®é hÊp dÉn

I(E,F,C,N,U,S) > i.

Chó ý r»ng ®Þnh nghÜa trªn ®©y vÒ kh¸i niÖm "tri thøc" kh«ng mang mét

nghÜa tuyÖt ®èi mµ phô thuéc vµo quan ®iÓm cña ng­êi sö dông hÖ thèng KDD

("mét líp ng­êi sö dông nµo ®ã"). Nh­ mét néi dung cña sù kiÖn, nã chØ lµ mét

®Þnh h­íng cho ng­êi sö dông vµ ®­îc x¸c ®Þnh b»ng bÊt kú hµm vµ ng­ìng nµo

®­îc ng­êi sö dông chän. Ch¼ng h¹n, trong bµi to¸n khai ph¸ luËt kÕt hîp,

chóng ta chØ quan t©m tíi c¸c "tËp phæ biÕn" lµ nh÷ng tËp cã ®é hç trî v­ît qua

mét ng­ìng minsup nµo ®ã. H¬n n÷a, chØ c¸c luËt kÕt hîp cã ®é tin cËy v­ît qu¸

ng­ìng minconf míi ®­îc khai ph¸ ®Ó cung cÊp tri thøc tíi ng­êi sö dông. C¸c

ng­ìng minsup vµ minconf cã thÓ ®­îc thay ®æi theo lùa chän cña ng­êi sö

dông.

Theo c¸ch h×nh thøc hãa, thuyÕt minh chÝnh x¸c cho ®Þnh nghÜa trªn ®©y vÒ

"tri thøc" lµ chän ng­ìng nµo ®ã c MC (vÒ tÝnh "cã gi¸ trÞ"), s MS (vÒ tÝnh

"cã thÓ hiÓu ®­îc") vµ u MU (vÒ tÝnh "h÷u Ých") vµ khi ®ã gäi mÉu E lµ tri thøc

nÕu vµ chØ nÕu:

C(E,F) > c vµ S(E,F) > s vµ U(E,F) >u

Th«ng qua viÖc ®Æt c¸c ng­ìng thÝch hîp víi môc ®Ých ph¸t hiÖn tri thøc,

ng­êi sö dông cã thÓ nhÊn m¹nh mét dù b¸o chÝnh x¸c hoÆc c¸c mÉu h÷u Ých

(v­ît qua mét ng­ìng ®é ®o ®¸nh gi¸ nµo ®ã) qua nh÷ng ®é ®o liªn quan. Râ

rµng lµ tån t¹i mét kh«ng gian v« h¹n cho phÐp ¸nh x¹ I x¸c ®Þnh "tri thøc cÇn

ph¸t hiÖn". QuyÕt ®Þnh nh­ vËy lµ tù do ®èi víi ng­êi sö dông vµ ®­îc ®Æc tr­ng

®èi víi tõng miÒn øng dông.

Nghiªn cøu vÒ tÝnh hÊp dÉn cña mÉu vµ tri thøc (®­îc gäi lµ ®é ®o hÊp dÉn:

interestingness measures) lµ mét néi dung nghiªn cøu quan träng trong khai ph¸

d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu. NhiÒu c«ng tr×nh nghiªn cøu kh¸i qu¸t vµ

chuyªn s©u vÒ néi dung nµy ®· ®­îc c«ng bè, ch¼ng h¹n [Garry05, Grube09,

HGEK07, Yao03, HZ10, GH06, ZZNS09]. Ch­¬ng 2 sÏ giíi thiÖu chi tiÕt h¬n

vÒ ®é ®o hÊp dÉn.

Nh÷ng ®iÒu tr×nh bµy trªn ®©y cho thÊy vai trß cña hÖ thèng KDD còng

nh­ vai trß cña ng­êi sö dông trong mét phiªn lµm viÖc cña m×nh, t¹o nªn sù

céng t¸c gi÷a ng­êi sö dông vµ hÖ thèng KDD. Trong sù céng t¸c ®ã, hÖ thèng

KDD t¹o thuËn tiÖn cho ng­êi sö dông cã c¸ch thøc linh ho¹t dïng c¸c ng­ìng

®Ó ®­îc cung cÊp "tri thøc" tõ hÖ thèng phï hîp víi nh÷ng dù ®o¸n chñ quan

cña m×nh. Nh­ vËy, cã thÓ thÊy r»ng, cïng dïng mét phÇn mÒm KDD song mçi

ng­êi sö dông l¹i cã thÓ khai th¸c nã theo c¸ch thøc riªng cña m×nh.

Khi ph©n tÝch néi dung ba cuèn s¸ch hµng ®Çu vÒ khai ph¸ d÷ liÖu vµo n¨m

2003, Z.H Zhou [Zhou03] cho biÕt sù kh¸c biÖt kh«ng nhá vÒ néi dung kh¸i

niÖm ph¸t hiÖn tri thøc tõ d÷ liÖu cña ba nhãm t¸c gi¶ (J. Han vµ M. Kamber; IH

Witten vµ E. Frank; D. Hand, H. Mannila vµ P. Smyth) ®Òu lµ c¸c chuyªn gia

Page 16: KPDL_C1-6 & C10

31 32

hµng ®Çu vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL. Tµi liÖu nµy tiÕp

nhËn quan niÖm cña Fayyad, Piatetsky-Shapiro, Smyth (®­îc Z.H Zhou gäi lµ

quan niÖm truyÒn thèng) coi KDD lµ mét qu¸ tr×nh bao gåm nhiÒu b­íc thùc

hiÖn (xem Kh¸i niÖm 1.1,), trong ®ã, khai ph¸ d÷ liÖu lµ mét b­íc thùc hiÖn

chÝnh yÕu. C¸ch hiÓu nh­ vËy ®· quy ®Þnh cã sù ph©n biÖt gi÷a hai kh¸i niÖm

khai ph¸ d÷ liÖu vµ KDD.

Kh¸i niÖm 1.2. (Frawley, Piatetski-Shapiro vµ Matheus [FPS96])

Khai ph¸ d÷ liÖu lµ mét b­íc trong qu¸ tr×nh Ph¸t hiÖn tri thøc trong c¬ së

d÷ liÖu, thi hµnh mét thuËt to¸n khai ph¸ d÷ liÖu ®Ó t×m ra c¸c mÉu tõ d÷ liÖu

theo khu«n d¹ng thÝch hîp.

Còng vÒ kh¸i niÖm khai ph¸ d÷ liÖu, theo B.Kovalerchuk vµ E.Vityaev

[KV01], Friedman ®· tæng hîp mét sè quan niÖm liªn quan sau ®©y:

- Qu¸ tr×nh kh«ng tÇm th­êng ®Ó nhËn biÕt tõ d÷ liÖu ra c¸c mÉu cã gi¸ trÞ,

míi, h÷u dông vµ hiÓu ®­îc (Fayyad),

- Qu¸ tr×nh trÝch läc c¸c th«ng tin ch­a biÕt tr­íc, cã thÓ nhËn thøc ®­îc,

cã thÓ t¸c ®éng ®­îc tõ CSDL lín vµ sö dông chóng ®Ó t¹o ra quyÕt ®Þnh c«ng

t¸c (Zekulin),

- TËp c¸c ph­¬ng ph¸p ®­îc dïng trong qu¸ tr×nh ph¸t hiÖn tri thøc nh»m

t­êng minh c¸c quan hÖ vµ c¸c mÉu ch­a biÕt tr­íc chøa trong d÷ liÖu

(Ferruzza),

- Qu¸ tr×nh hç trî quyÕt ®Þnh khi t×m kiÕm nh÷ng mÉu th«ng tin ch­a biÕt

vµ h÷u Ých tõ CSDL lín (Parsaye).

Z.H Zhou [Zhou03] giíi thiÖu ba tiÕp cËn sau ®©y vÒ néi dung kh¸i niÖm

khai ph¸ d÷ liÖu qua ph©n tÝch néi dung ba cuèn s¸ch nªu trªn:

- Qu¸ tr×nh kh¸m ph¸ tri thøc thó vÞ tõ l­îng lín d÷ liÖu ®­îc l­u tr÷

trong CSDL, hoÆc kho d÷ liÖu, hoÆc c¸c kho th«ng tin kh¸c (J. Han vµ M.

Kamber),

- Sù khai th¸c th«ng tin tiÒm Èn, tr­íc ®ã ch­a biÕt, vµ cã kh¶ n¨ng h÷u

Ých tõ d÷ liÖu (IH Witten vµ E. Frank),

- Ph©n tÝch tËp d÷ liÖu quan s¸t (th­êng lín) ®Ó t×m ra c¸c mèi quan hÖ

t­êng minh vµ tãm t¾t d÷ liÖu theo c¸ch míi ®Ó chóng võa dÔ hiÓu võa h÷u Ých

cho chñ së hữu d÷ liÖu (D. Hand, H. Mannila, P. Smyth).

1.2.2. Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu

Qu¸ tr×nh ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ®­îc m« t¶ trong H×nh 1.7

vµ tr×nh bµy chi tiÕt h¬n trong H×nh 1.8. T­¬ng øng víi s¬ ®å m« t¶ chi tiÕt qu¸

tr×nh KDD (H×nh 1.8), c¸c nhãm b­íc thùc hiÖn sau ®©y ®­îc tiÕn hµnh trong

qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL:

H×nh 1.8. Mét m« t¶ chi tiÕt qu¸ tr×nh KDD

(1) Më réng hiÓu biÕt vÒ miÒn øng dông, vÒ c¸c tri thøc víi ®é ­u tiªn thÝch

hîp vµ vÒ môc ®Ých cña ng­êi dïng cuèi. Cã thÓ coi néi dung c«ng viÖc nµy

t­¬ng øng víi néi dung kh¶o s¸t bµi to¸n trong qu¸ tr×nh x©y dùng mét hÖ thèng

th«ng tin nãi chung.

Page 17: KPDL_C1-6 & C10

33 34

Mét nhiÖm vô quan träng cña b­íc nµy lµ x¸c ®Þnh bµi to¸n khai ph¸ d÷

liÖu. Môc 1.6 sÏ giíi thiÖu hai líp bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh nhÊt lµ m«

t¶ vµ dù b¸o vµ c¸c bµi toµn khai ph¸ d÷ liÖu ®iÓn h×nh thuéc vµo hai líp nµy.

Khëi t¹o tËp d÷ liÖu ®Ých, t¹o kho d÷ liÖu: chän tËp d÷ liÖu vµ/hoÆc h­íng

träng t©m tíi tËp con c¸c biÕn hoÆc mÉu d÷ liÖu mµ trªn ®ã c«ng viÖc ph¸t hiÖn

tri thøc ®­îc tiÕn hµnh. Tri thøc miÒn øng dông cã ®­îc th«ng qua viÖc më réng

hiÓu biÕt vÒ miÒn øng dông nãi trªn ®ãng vai trß lµ nÒn t¶ng tri thøc ®Ó khëi t¹o

tËp d÷ liÖu ®Ých, kho d÷ liÖu.

Ch­¬ng 2 sÏ th¶o luËn chi tiÕt vÒ vai trß cña tri thøc vµ bµi to¸n ph¸t hiÖn

tri thøc trong mét miÒn øng dông.

(2) TiÒn xö lý d÷ liÖu: thùc hiÖn c¸c thao t¸c c¬ së nh­ gi¶i quyÕt thiÕu

v¾ng gi¸ trÞ, lo¹i bá nhiÔu hoÆc yÕu tè ngo¹i lai, kÕt nèi c¸c th«ng tin cÇn thiÕt

tíi m« h×nh hoÆc lo¹i bá nhiÔu, quyÕt ®Þnh chiÕn l­îc nh»m n¾m b¾t c¸c tr­êng

d÷ liÖu (c¸c thuéc tÝnh), tÝnh to¸n d·y th«ng tin thêi gian vµ sù biÕn ®æi ®­îc

®Þnh tr­íc.

ChÊt l­îng cña hÖ thèng khai ph¸ d÷ liÖu phô thuéc vµo chÊt l­îng cña

d÷ liÖu ®Çu vµo. Môc tiªu cña lµm s¹ch d÷ liÖu nh»m ®¶m b¶o d÷ liÖu ®Çu vµo cã

chÊt l­îng tèt.

Thu gän vµ tr×nh diÔn d÷ liÖu cã môc tiªu t×m ®­îc c¸c ®Æc tr­ng h÷u

Ých nh»m tr×nh bµy mèi phô thuéc d÷ liÖu theo môc ®Ých cña bµi to¸n. Thu gän

d÷ liÖu ®­îc thi hµnh vÒ chiÒu ngang (gi¶m sè l­îng ®èi t­îng), chiÒu däc

(gi¶m sè l­îng tr­êng d÷ liÖu) hoÆc c¶ hai nh»m lµm cho kÝch th­íc d÷ liÖu

®­îc xö lý, t¨ng tèc ®é ho¹t ®éng cña hÖ thèng. Sö dông c¸c ph­¬ng ph¸p thu

gän hoÆc biÕn ®æi chiÒu nh»m rót gän sè l­îng c¸c biÕn cÇn quan t©m hoÆc ®Ó

t×m ra c¸c m« t¶ bÊt biÕn ®èi víi d÷ liÖu nh»m tr×nh diÔn d÷ liÖu phï hîp nhÊt.

Do khèi l­îng d÷ liÖu trong bµi to¸n KDD lµ rÊt lín cho nªn viÖc thi hµnh b­íc

nµy lµ rÊt cÇn thiÕt. Khi thu gän theo chiÒu ngang cÇn l­u ý lµ tËp d÷ liÖu ®­îc

chän lùa sau khi thu gän ph¶i cã tÝnh ®¹i diÖn cho tËp toµn bé d÷ liÖu cña miÒn

øng dông. ViÖc chän lùa d÷ liÖu vµo x©y dùng m« h×nh khai ph¸ d÷ liÖu (x©y

dùng nhµ kho d÷ liÖu) th«ng th­êng cÇn ®­îc tiÕn hµnh theo mét ph­¬ng ph¸p

®¶m b¶o tÝnh "ngÉu nhiªn" khi chän lùa d÷ liÖu trong miÒn øng dông. T­¬ng tù,

khi thu gän theo chiÒu däc cÇn l­u ý c¸c thuéc tÝnh cßn l¹i ®¶m b¶o tÝnh ®¹i diÖn

cho ®èi t­îng trong bµi to¸n khai ph¸ d÷ liÖu ®ang xem xÐt. Trong kh«ng Ýt bµi

to¸n khai ph¸ d÷ liÖu, khi thu gän theo chiÒu däc l¹i nhËn ®­îc kÕt qu¶ tèt h¬n

kh«ng chØ vÒ thêi gian vµ kh«ng gian mµ cßn c¶ vÒ chÊt l­îng cña bµi to¸n khai

ph¸ d÷ liÖu khi ®¹t ®­îc ®é chÝnh x¸c cao h¬n v× ®· lo¹i bá ®­îc mét sè thuéc

tÝnh g©y nhiÔu. Ph­¬ng ph¸p phÇn tö chÝnh (Principal Component Analysis:

PCA, xem ch­¬ng 3) th­êng ®­îc sö dông trong bµi to¸n thu gän theo chiÒu

däc.

Ch­¬ng 3 sÏ th¶o luËn c¸c néi dung chi tiÕt vÒ c¸c bµi to¸n tiÒn xö lý d÷

liÖu vµ mét sè ph­¬ng ph¸p ®iÓn h×nh gi¶i quyÕt c¸c bµi to¸n nµy.

(3) Khai ph¸ d÷ liÖu bao gåm ba néi dung lµ lùa chän bµi to¸n vµ ph­¬ng

ph¸p khai ph¸ d÷ liÖu thÝch hîp vµ thi hµnh thuËt to¸n khai ph¸ d÷ liÖu.

Lùa chän bµi to¸n khai ph¸ d÷ liÖu quyÕt ®Þnh môc tiªu cña qu¸ tr×nh

KDD lµ lo¹i bµi to¸n khai ph¸ d÷ liÖu cô thÓ nµo, ch¼ng h¹n nh­ bµi to¸n ph©n

líp, håi quy, ph©n ®o¹n... Tri thøc miÒn øng dông thu nhËn thªm ®­îc tõ b­íc

më réng hiÓu biÕt vÒ miÒn øng dông rÊt cÇn thiÕt cho viÖc lùa chän bµi to¸n khai

ph¸ d÷ liÖu.

Chän lùa thuËt to¸n khai ph¸ d÷ liÖu: lùa chän ph­¬ng ph¸p vµ thuËt to¸n

®­îc dïng ®Ó t×m mÉu trong d÷ liÖu. Néi dung nµy bao gåm c¶ viÖc quyÕt ®Þnh

c¸c m« h×nh vµ tham sè cã thÓ ®­îc chÊp nhËn vµ thuËt to¸n khai ph¸ d÷ liÖu

phï hîp víi tiªu chuÈn tæng thÓ cña qu¸ tr×nh KDD.

Thi hµnh thuËt to¸n khai ph¸ d÷ liÖu: tiÕn hµnh viÖc dß t×m c¸c mÉu cÇn

quan t©m d­íi d¹ng tr×nh bµy riªng biÖt hoÆc mét tËp c¸c tr×nh bµy nh­ quy t¾c

ph©n líp, c©y, håi quy, ph©n ®o¹n... Trong b­íc nµy, sù hç trî cña ng­êi dïng

vÉn ®ãng mét vai trß quan träng. C¸c ch­¬ng 4-7 cña gi¸o tr×nh nµy tr×nh bµy

c¸c ph­¬ng ph¸p cho c¸c khai ph¸ d÷ liÖu c¬ b¶n nhÊt.

Môc 1.2.3 tr×nh bµy mét sè néi dung chi tiÕt h¬n vÒ b­íc khai ph¸ d÷ liÖu

trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu.

Page 18: KPDL_C1-6 & C10

35 36

(4) Gi¶i thÝch mÉu ®èi víi c¸c mÉu ®­îc kh¸m ph¸, cã thÓ quay vÒ mét

c¸ch hîp lý tíi bÊt kú b­íc nµo tõ b­íc ®Çu tiªn tíi b­íc thi hµnh thuËt to¸n

khai ph¸ d÷ liÖu ®Ó thùc hiÖn lÆp.

(5) Hîp nhÊt c¸c tri thøc ®· ®­îc kh¸m ph¸, kÕt hîp c¸c tri thøc nµy thµnh

mét hÖ thèng tr×nh diÔn hoÆc ®­îc biªn so¹n dÔ dµng vµ kÕt xuÊt thµnh nh÷ng

thµnh phÇn hÊp dÉn. KiÓm tra vµ gi¶i quyÕt xung ®ét ®èi víi tri thøc ®­îc trÝch

chän.

Trong qu¸ tr×nh ph¸t hiÖn tri thøc trong c¸c CSDL nh­ ®­äc m« t¶ ë trªn,

chóng ta nhËn thÊy cã sù tham gia cña c¸c kho d÷ liÖu (Data Warehouse).

M« h×nh khai ph¸ d÷ liÖu ngµy cµng ®­îc tiÕn hãa theo ®Þnh h­íng hç trî

chiÕn l­îc ph¸t triÓn cña tæ chøc, nãi riªng trong c¸c doanh nghiÖp, m« h×nh

khai ph¸ d÷ liÖu ®­îc tÝch hîp víi m« h×nh kinh doanh. Ch­¬ng 2 sÏ tr×nh bµy

qu¸ tr×nh tiÕn hãa cña m« h×nh khai ph¸ d÷ liÖu.

1.2.3. B­íc khai ph¸ d÷ liÖu trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu

Trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu, khai ph¸ d÷ liÖu lµ b­íc thùc

hiÖn chÝnh yÕu cã nhiÖm vô t¹o ra c¸c mÉu míi tõ d÷ liÖu ®· ®­îc tiÒn xö lý vµ

chuyÓn d¹ng.

ViÖc chän lùa bµi to¸n khai ph¸ d÷ liÖu nµo ®· ®­îc x¸c ®Þnh chñ yÕu tõ

b­íc më réng hiÓu biÕt vÒ miÒn øng dông. KÕt qu¶ tiÒn xö lý d÷ liÖu cung cÊp

thªm th«ng tin ®Ó lµm râ vÒ bµi to¸n khai ph¸ d÷ liÖu ®· ®­îc x¸c ®Þnh.

§èi víi bµi to¸n khai ph¸ d÷ liÖu ®· ®­îc chän, tån t¹i nhiÒu thuËt to¸n

gi¶i quyÕt. VÒ c¬ b¶n, hiÓu biÕt miÒn øng dông vµ tiÒn xö lý d÷ liÖu ®· c¬ b¶n

®Þnh h×nh ®­îc thuËt to¸n (hoÆc sù kÕt hîp cña mét nhãm thuËt to¸n) ®­îc tiÕn

hµnh, trong ®ã viÖc chuyÓn d¹ng d÷ liÖu lµ h­íng tíi thuËt to¸n hay nhãm thuËt

to¸n nµy. C¸c ch­¬ng 5-8 sÏ tr×nh bµy mét sè thuËt to¸n ®iÓn h×nh cho tõng lo¹i

bµi to¸n khai ph¸ d÷ liÖu. Ch­¬ng 10 giíi thiÖu mét vµi chØ dÉn liªn quan tíi

c¸ch sö dông c¸c thuËt to¸n trong bµi to¸n khai ph¸ d÷ liÖu.

1.2.4. KiÕn tróc mét hÖ thèng khai ph¸ d÷ liÖu

KiÕn tróc ®iÓn h×nh cña mét hÖ thèng khai ph¸ d÷ liÖu ®­îc tr×nh bµy trong

H×nh 1.9 [HK0106]. Trong kiÕn tróc hÖ thèng nµy, c¸c nguån d÷ liÖu cho c¸c hÖ

thèng khai ph¸ d÷ liÖu bao gåm hoÆc C¬ së d÷ liÖu, hoÆc Kho d÷ liÖu, hoÆc

World Wide Web, hoÆc kho chøa d÷ liÖu kiÓu bÊt kú kh¸c, hoÆc tæ hîp c¸c kiÓu

®· liÖt kª nãi trªn.

H×nh 1.9. KiÕn tróc ®iÓn h×nh hÖ thèng khai ph¸ d÷ liÖu [HK0106]

C¬ së tri thøc, bao chøa c¸c tri thøc miÒn øng dông hiÖn cã, ®­îc sö dông

trong thµnh phÇn hÖ thèng khai ph¸ d÷ liÖu ®Ó lµm t¨ng tÝnh hiÖu qu¶ cña thµnh

phÇn nµy. Mét sè tham sè cña thuËt to¸n khai ph¸ d÷ liÖu t­¬ng øng sÏ ®­îc tinh

chØnh theo tri thøc miÒn s½n cã tõ c¬ së tri thøc trong hÖ thèng. C¬ së tri thøc

cßn ®­îc sö dông trong viÖc ®¸nh gi¸ c¸c mÉu ®· khai ph¸ ®­îc xem chóng cã

thùc sù hÊp dÉn hay kh«ng, trong ®ã cã viÖc ®èi chøng mÉu míi víi c¸c tri thøc

Page 19: KPDL_C1-6 & C10

37 38

®· cã trong c¬ së tri thøc. NÕu mÉu khai ph¸ ®­îc lµ thùc sù hÊp dÉn th× chóng

®­îc bæ sung vµo c¬ së tri thøc ®Ó phôc vô cho ho¹t ®éng tiÕp theo cña hÖ thèng.

Nh­ vËy, nguån tri thøc bæ sung vµo c¬ së tri thøc ë ®©y kh«ng chØ tõ lËp luËn

l«gic theo c¸c hÖ to¸n l«gic ®Ó cã tri thøc míi, kh«ng chØ do con ng­êi hiÓu biÕt

thªm vÒ thÕ giíi kh¸ch quan ®Ó bæ sung vµo mµ cßn lµ tri thøc ®­îc ph¸t hiÖn

mét c¸ch tù ®éng tõ nguån d÷ liÖu.

1.3. Khai ph¸ d÷ liÖu vµ xö lý CSDL truyÒn thèng

Nh­ ®· giíi thiÖu, khai ph¸ d÷ liÖu lµ mét thÕ hÖ ph¸t triÓn míi trong thêi

gian gÇn ®©y cña c«ng nghÖ CSDL. §iÒu ®ã cã nghÜa lµ cã mèi quan hÖ gÇn gòi

gi÷a bµi to¸n khai ph¸ d÷ liÖu vµ bµi to¸n xö lý (t¸c nghiÖp) CSDL truyÒn thèng

trong mèi liªn quan tíi mét ®èi t­îng chung lµ CSDL. Tuy nhiªn, hai bµi to¸n

nµy còng cã sù ph©n biÖt. DÊu hiÖu ph©n biÖt ®Çu tiªn gi÷a khai ph¸ d÷ liÖu vµ

xö lý CSDL truyÒn thèng lµ ®èi t­îng t¸c ®éng cña bµi to¸n khai ph¸ d÷ liÖu

ph¶i lµ c¸c CSDL, c¸c kho d÷ liÖu cã dung l­îng rÊt lín, trong khi ®ã bµi to¸n

t¸c nghiÖp CSDL truyÒn thèng liªn quan tíi c¸c CSDL víi mäi kÝch th­íc. Thªm

n÷a, nh÷ng néi dung d­íi ®©y cung cÊp thªm c¸c th«ng tin bæ sung vÒ bµi to¸n

khai ph¸ d÷ liÖu [KV01]. Mèi quan hÖ gi÷a hÖ thèng qu¶n trÞ CSDL víi hÖ thèng

khai ph¸ d÷ liÖu ®­îc m« t¶ trong H×nh 1.10 [KV01].

H×nh 1.10. Mçi quan hÖ gi÷a hÖ thèng CSDL vµ hÖ thèng khai ph¸ d÷ liÖu [KV01]

HÖ qu¶n trÞ CSDL truyÒn thèng ®­îc ®Þnh h­íng viÖc t×m kiÕm tíi:

- Ghi nhËn riªng lÎ, ch¼ng h¹n nh­ cÇn t×m kiÕm c©u tr¶ lêi cho truy vÊn

"H·y hiÓn thÞ sè tiÒn cña ¤ng NguyÔn V¨n A cã trong ngµy 5 th¸ng Giªng n¨m

nay". ViÖc t×m kiÕm c¸c ghi nhËn riªng lÎ th­êng ®­îc chØ dÉn lµ xö lý giao dÞch

trùc tuyÕn (on-line transaction processing - OLTP).

- Ghi nhËn thèng kª, ch¼ng h¹n nh­ ®Ó tr¶ lêi c©u hái "Cã bao nhiªu nhµ

®Çu t­ n­íc ngoµi mua cæ phiÕu X trong th¸ng tr­íc ?". ViÖc t×m kiÕm ghi nhËn

thèng kª th­êng ®­îc chØ dÉn lµ hÖ thèng hç trî quyÕt ®Þnh thèng kª (stastical

decision suppport system - DSS).

- Ghi nhËn vÒ d÷ liÖu ®a chiÒu, ch¼ng h¹n nh­ ®Ó ®¸p øng yªu cÇu "HiÓn

thÞ mäi cæ phiÕu trong CSDL víi mÖnh gi¸ t¨ng". ViÖc t×m kiÕm c¸c ghi nhËn d÷

Page 20: KPDL_C1-6 & C10

39 40

liÖu ®a chiÒu th­êng ®­îc hiÓu lµ cung cÊp xö lý ph©n tÝch trùc tuyÕn (on-line

analytic processing - OLAP) vµ xö lý ph©n tÝch trùc tuyÕn quan hÖ (relational

OLAP - ROLAP).

§Ó c¸c lo¹i truy vÊn (nh­ nh÷ng truy vÊn nãi trªn) ®Æt ra ®­îc vÊn ®Ò cÇn

gi¶i quyÕt mét c¸ch ®óng ®¾n, vµ qua ®ã t¹o ra ®­îc c¸c quyÕt ®Þnh h÷u Ých th×

cÇn ph¶i c«ng nhËn ®· tån t¹i mét gi¶ thiÕt vÒ tri thøc miÒn phøc hîp "®Çy ®ñ"

(sophisticated domain knowledge) mµ c¸c lo¹i truy vÊn nãi trªn ®­îc ®­a ra dùa

trªn c¬ së tri thøc miÒn ®ã. Trong CSDL quan hÖ th× tËp rµng buéc, ®iÓn h×nh lµ

tËp phô thuéc hµm cïng c¸c luËt suy diÔn Armstrong lµ mét bé phËn cña tri thøc

miÒn øng dông nãi trªn. Tuy nhiªn, víi c¸c CSDL lín cã dung l­îng tíi hµng

tr¨m Gigabytes (GB) th× rÊt khã kh¨n ®Ó c«ng nhËn mét tri thøc miÒn phøc hîp

®Çy ®ñ.

VÒ môc tiªu cña hÖ thèng, ph­¬ng ph¸p khai ph¸ d÷ liÖu hç trî viÖc më

réng môc tiªu cña CSDL truyÒn thèng b»ng c¸ch cho phÐp t×m kiÕm c¸c c©u tr¶

lêi cho c¸c truy vÊn tuy th« s¬ song l¹i quan träng, cã t¸c dông c¶i tiÕn miÒn tri

thøc (trong tr­êng hîp nµy tri thøc miÒn phøc hîp ®­îc coi lµ ch­a ®Çy ®ñ) nh­:

- C¸c cæ phiÕu t¨ng gi¸ cã ®Æc tr­ng g× ?

- Tû gi¸ US$ - DMark cã ®Æc tr­ng g× ?

- Hy väng g× vÒ cæ phiÕu X trong tuÇn tiÕp theo ?

- Trong th¸ng tiÕp theo, sÏ cã bao nhiªu ®oµn viªn c«ng ®oµn kh«ng

tr¶ ®­îc nî cña hä ?

- Nh÷ng ng­êi mua s¶n phÈm Y cã ®Æc tr­ng g× ?

- T«i nªn mua lo¹i « t« nµo ?

- T«i nªn vµo tr­êng ®¹i häc nµo ?

- Nh÷ng bµi b¸o nÒn t¶ng vÒ chñ ®Ò nghiªn cøu sinh cña t«i lµ

nh÷ng bµi b¸o nµo ?

- v.v.

Tr¶ lêi c¸c truy vÊn nµy d­êng nh­ lµ chóng ta ®· kh¸m ph¸ ra ®­îc c¸c

quy t¾c (luËt) tiÒm Èn trong d÷ liÖu vµ trªn c¬ së c¸c quy t¾c ®ã mµ ®­a ra ®­îc

c¸c dù b¸o. Nh­ vËy môc tiªu cña khai ph¸ d÷ liÖu lµ cung cÊp th«ng tin, tri thøc

hç trî quyÕt ®Þnh th«ng qua c¸c mÉu, c¸c luËt ®­îc kh¸m ph¸. C¸c mÉu (luËt)

®­îc kh¸m ph¸ lµ kh«ng tuyÖt ®èi, kh«ng mang tÝnh "bÊt di bÊt dÞch" mµ cã tÝnh

chÊt "®a sè tr­êng hîp lµ ®óng" vµ cã thÓ thay ®æi tõ thêi ®iÓm nµy ®Õn thêi

®iÓm kh¸c. Ch¼ng h¹n nh­ luËt kÕt hîp "cã ®Õn 80% ng­êi nÕu ®· mua bia th×

còng mua thªm t· trÎ em" ®­îc ph¸t hiÖn cho thÊy t¹i thêi ®iÓm ®ang xem xÐt

phÇn ®«ng ng­êi mua bia th× còng mua thªm t· trÎ em. Ph¸t hiÖn nµy ®­îc gi¶i

thÝch nh­ sau. T¹i mét sè vïng ë ph­¬ng T©y, ng­êi chång th­êng ®­îc “ph©n

c«ng” tr«ng con nhá trong khi ng­êi vî lµm viÖc gia ®×nh. §Ó ng­êi chång

“thuËn tiÖn nhÊt” khi tr«ng con trÎ th× bÐ ®­îc ®ãng bØm trÎ em cßn ng­êi chång

ngåi uèng bia vµ ch¬i víi con. Cã thÓ ®Õn thêi ®iÓm nµo ®ã kh¸c trong t­¬ng lai

cña c¸c vïng d©n c­ nãi trªn hoÆc t¹i c¸c vïng d©n c­ kh¸c, khi mµ thÞ hiÕu cña

ng­êi ®µn «ng tr«ng trÎ cã sù thay ®æi, theo ®ã hä sÏ kh«ng mua bia n÷a th×

trong c¬ së d÷ liÖu giao dÞch sÏ kh«ng tiÒm Èn "luËt" nãi trªn n÷a.

Nh­ vËy, trong khai ph¸ d÷ liÖu th× gi¶ thiÕt ®· biÕt vÒ mét tri thøc miÒn

phøc t¹p "®Çy ®ñ"lµ kh«ng cßn lµ yÕu tè cèt lâi, vµ qu¸ tr×nh ph¸t hiÖn tri thøc cã

t¸c dông bæ sung thªm c¸c tri thøc "míi" vµo miÒn tri thøc ®ã. TÝnh chÊt kh«ng

®Çy ®ñ cña tri thøc miÒn cho phÐp tri thøc miÒn cã thÓ cã s¾n, cã thÓ ®­îc bæ

sung, thay ®æi nhê qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu.

1.4. Mét sè lÜnh vùc øng dông khai ph¸ d÷ liÖu ®iÓn h×nh

Theo J. Han vµ M. Kamber [HK0106], øng dông cña KDD ®­îc chia thµnh

hai líp chÝnh bao gåm líp c¸c øng dông ph©n tÝch d÷ liÖu - hç trî quyÕt ®Þnh vµ

líp c¸c lÜnh vùc øng dông kh¸c.

Líp c¸c øng dông trong ph©n tÝch d÷ liÖu vµ hç trî quyÕt ®Þnh bao gåm c¸c

øng dông trong ph©n tÝch vµ qu¶n lý thÞ tr­êng, ph©n tÝch vµ qu¶n lý rñi ro,

kh¸m ph¸ ngo¹i lai vµ c¸c mÉu kh«ng h÷u Ých. D÷ liÖu trong c¸c øng dông nµy

lµ kh¸ phong phó cã ®­îc tõ c¸c giao dÞch thÎ tÝn dông, nghiªn cøu ®êi sèng

c«ng ®ång...

Page 21: KPDL_C1-6 & C10

41 42

Mét sè môc tiªu khai ph¸ d÷ liÖu lµ nh­ t×m ra c¸c nhãm kh¸ch hµng ®Þnh

h­íng tiÕp thÞ dùa trªn c¸c ®Æc tr­ng vÒ niÒm høng thó, møc thu nhËp… còng

nh­ ph©n tÝch thÞ tr­êng chÐo nh­ t×m ra c¸c mèi liªn kÕt, ®ång quan hÖ trong

viÖc b¸n hµng ®Ó dù b¸o theo c¸c kÕt hîp ®ã.

Mét sè øng dông ®iÓn h×nh nhÊt lµ ph©n tÝch h­íng kh¸ch hµng theo tõng

lo¹i s¶n phÈm ®Ó ®Þnh h­íng tiÕp thÞ phï hîp, ph©n tÝch nhu cÇu kh¸ch hµng,

®Þnh danh lo¹i s¶n phÈm thÝch hîp cho tõng líp kh¸c hµng ®Ó ®­a ra chiÕn l­îc

kinh doanh ®èi víi nhãm kh¸ch hµng míi, ®­a ra c¸c b¸o c¸o tãm t¾t ®a chiÒu

còng nh­ nh÷ng th«ng tin tãm t¾t vÒ mÆt thèng kª...

Ngoµi ra, øng dông trong lËp kÕ ho¹ch tµi chÝnh vµ ®¸nh gi¸ l­u l­îng tiÒn

tÖ… trong tµi chÝnh – ng©n hµng còng ®­îc ph¸t triÓn. Trong c«ng t¸c lËp kÕ

ho¹ch tµi nguyªn còng ®· xuÊt hiÖn nhiÒu øng dông cña KDD. H¬n n÷a, ®· cã

nhiÒu c¸ch tiÕp cËn kh¸c nhau nh»m ph¸t hiÖn tri thøc ®· ®­îc sö dông trong c¸c

øng dông nh­ vËy.

Trong nhãm ph©n tÝch d÷ liÖu vµ hç trî quyÕt ®Þnh, KDD cßn ®­îc øng

dông kh¸ réng r·i trong lÜnh vùc b¶o hiÓm y tÕ, phôc vô thÎ tÝn dông, viÔn th«ng,

thÓ thao, chinh phôc vò trô.

Líp c¸c lÜnh vùc øng dông ®iÓn h×nh kh¸c bao gåm khai ph¸ Text, khai

ph¸ Web, khai ph¸ d÷ liÖu dßng, khai ph¸ d÷ liÖu sinh häc… Mét sè s¶n phÈm

®iÓn h×nh vÒ khai ph¸ Text vµ khai ph¸ Web ®· ®­îc kh¼ng ®Þnh ®­îc tÝnh hiÖu

qu¶, ch¼ng h¹n c¸c s¶n phÈm TextAnalyst*, TextracterTM, WebAnalyst vµ

PolyAnalyst... cña c«ng ty Megaputer9, hoÆc WebFountain cña IBM…

Sù ph¸t triÓn nhanh chãng cña khai ph¸ d÷ liÖu lµm cho miÒn øng dông

lÜnh vùc ngµy cµng thªm phong phó vµ ®a d¹ng, ch¼ng h¹n quan niÖm cña J. Han

vµ M. Kamber vÒ c¸c khu vùc øng dông khai ph¸ d÷ liÖu ®· cã sù thay ®æi tõ

phiªn b¶n 2001 tíi phiªn b¶n 2006 [HK0106]. Trong phiªn b¶n 2006, J. Han vµ

M. Kamber coi r»ng c¸c lÜnh vùc ®iÓn h×nh cña khai ph¸ d÷ liÖu lµ ph©n tÝch d÷

9 http://www.megaputer.com/

liÖu tµi chÝnh, c«ng nghiÖp b¶n lÎ, c«ng nghiÖp truyÒn th«ng, ph©n tÝch d÷ liÖu

sinh häc, øng dông c¸c ngµnh khoa häc kh¸c, sù x©m nhËp sai tr¸i...

Cßn theo Gregory Piatetsky-Shapiro [Pia06], c¸c miÒn øng dông ®iÓn h×nh

cña khai ph¸ d÷ liÖu lµ:

- øng dông trong khoa häc nh­ thiªn v¨n häc, tin sinh häc, y häc (s¸ng chÕ

c¸c d­îc phÈm)...

- øng dông trong th­¬ng m¹i nh­ qu¶n lý quan hÖ kh¸ch hµng (Customer

Relationship Management: CRM), ph¸t hiÖn gian lËn, th­¬ng m¹i ®iÖn tö, s¶n

xuÊt, thÓ thao/gi¶i trÝ, dÞch vô viÔn th«ng, tiÕp thÞ ®Þnh h­íng, b¶o hiÓm y tÕ...

- øng dông trong World Wide Web nh­ m¸y t×m kiÕm, qu¶ng c¸o trùc

tuyÕn, khai ph¸ web vµ khai ph¸ text...

- øng dông trong ho¹t ®éng chÝnh quyÒn nh­ ph¸t hiÖn téi ph¹m, ph¸t hiÖn

lõa ®¶o thuÕ thu nhËp c¸ nh©n...

Page 22: KPDL_C1-6 & C10

43 44

B¶ng 1.2. C¸c øng dông khai ph¸ d÷ liÖu næi bËt (Sè trong ngoÆc lµ sè ng­êi bá phiÕu tõng n¨m: mét ng­êi cã thÓ lµm nhiÒu øngdông)

Khai ph¸ d÷ liÖu lµ lÜnh vùc øng dông cã sù ph¸t triÓn nhanh, thÝch hîp víi

sù ph¸t triÓn xu thÕ "bïng næ d÷ liÖu" vµ xu thÕ biÕn ®éng cña nhu cÇu x· héi.

Ch¼ng h¹n, trong thêi gian gÇn ®©y, m¹ng x· héi (social network) vµ ph­¬ng

tiÖn x· héi (social media) ®· trë thµnh mét trong nh÷ng lÜnh vùc øng dông næi

bËt cña khai ph¸ d÷ liÖu. B¶ng 1.2 cho biÕt t×nh h×nh vÒ c¸c øng dông khai ph¸

d÷ liÖu næi bËt qua th¨m dß t¹i trang web KDnuggets10. Khuynh h­íng ph¸t

triÓn øng dông cña khai ph¸ d÷ liÖu sÏ ®­îc tr×nh bµy t¹i Ch­¬ng 10.

1.5. KiÓu d÷ liÖu trong khai ph¸ d÷ liÖu

B¶ng 1.3 cho biÕt t×nh h×nh vÒ c¸c kiÓu d÷ liÖu ®­îc khai ph¸ qua th¨m dß

t¹i trang web KDnuggets 11. VÒ nguyªn lý chung, nguån d÷ liÖu ®­îc sö dông ®Ó

tiÕn hµnh khai ph¸ d÷ liÖu nh»m ph¸t hiÖn tri thøc lµ rÊt phong phó vµ ®a d¹ng,

trong ®ã ®iÓn h×nh nhÊt lµ CSDL quan hÖ, kho d÷ liÖu, CSDL giao dÞch, c¸c hÖ

thèng d÷ liÖu vµ th«ng tin më réng kh¸c.

1.5.1. C¬ së d÷ liÖu quan hÖ

Thø nhÊt, tÝnh phæ biÕn cña hÖ thèng CSDL quan hÖ hiÖn nay t¹o ra mét hÖ

qu¶ tù nhiªn quy ®Þnh CSDL quan hÖ lµ mét nguån ®Çu vµo ®iÓn h×nh nhÊt, ®­îc

quan t©m tr­íc hÕt cña khai ph¸ d÷ liÖu. Thø hai, mét trong nh÷ng mÉu ®­îc

quan t©m lµ mÉu vÒ c¸c lo¹i "quan hÖ" mµ víi b¶n chÊt cña m×nh, hÖ thèng

CSDL quan hÖ tiÒm Èn c¸c mÉu d¹ng nh­ thÕ. Nh­ ®· biÕt trong lý thuyÕt CSDL,

hÖ thèng CSDL quan hÖ th­êng bao gåm mét tËp c¸c b¶ng (hai chiÒu däc vµ

ngang). Theo chiÒu däc, b¶ng gåm mét sè cét (cßn ®­îc gäi lµ thuéc tÝnh,

tr­êng hay ®Æc tr­ng) vµ theo chiÒu ngang b¶ng chøa mét tËp rÊt lín c¸c dßng

(cßn ®­îc gäi là b¶n ghi hay bé). Sè l­îng cét cña b¶ng cßn ®­îc gäi lµ sè

10 http://www.kdnuggets.com/polls/ 11 http://www.kdnuggets.com/polls/

Page 23: KPDL_C1-6 & C10

45 46

chiÒu. HÖ thèng CSDL quan hÖ cßn bao gåm mét m« h×nh ng÷ nghÜa mµ th«ng

th­êng lµ m« h×nh thùc thÓ - quan hÖ.

B¶ng 1.3. KiÓu d÷ liÖu ®­îc khai ph¸ (Sè trong ngoÆc lµ sè ng­êi bá phiÕu tõng n¨m: mét ng­êi cã thÓ dïng nhiÒu kiÓu d÷ liÖu)

1.5.2. Kho d÷ liÖu

Theo J. Han vµ M. Kamber, tån t¹i nhiÒu c¸ch hiÓu vÒ kho d÷ liÖu, nh­ng

c¸ch hiÓu phæ dông nhÊt lµ theo ®Þnh nghÜa cña W.H. Inmon, mét chuyªn gia

hµng ®Çu vÒ kho d÷ liÖu. Theo W.H. Inmon [Inm02], "kho d÷ liÖu lµ tËp hîp c¸c

d÷ liÖu ®Þnh h­íng theo chñ ®Ò, ®­îc tÝch hîp l¹i, cã tÝnh phiªn b¶n theo thêi

gian vµ kiªn ®Þnh ®­îc dïng ®Ó hç trî viÖc t¹o quyÕt ®Þnh qu¶n lý". Tªn gäi cña

bèn thuéc tÝnh "®Þnh h­íng theo chñ ®Ò", "®­îc tÝch hîp l¹i", "cã tÝnh phiªn b¶n theo thêi gian" vµ "kiªn ®Þnh" trªn ®©y cña kho d÷ liÖu míi chØ cung cÊp mét sè

nÐt c¬ b¶n nhÊt vÒ c¸c ®Æc tr­ng cña kho d÷ liÖu. W.H. Inmon (còng nh­ J. Han

vµ M. Kamber) ®· gi¶i thÝch néi dung chi tiÕt vÒ bèn thuéc tÝnh nµy.

Kho d÷ liÖu lµ mét kÕt qu¶ xuÊt hiÖn trong qu¸ tr×nh tiÕn hãa c¸c hÖ hç trî

quyÕt ®Þnh. ThuËt ng÷ "t¹o kho d÷ liÖu" (Data warehousing) ®­îc dïng ®Ó chØ

qu¸ tr×nh x©y dùng vµ sö dông kho d÷ liÖu. Nh­ vËy, qu¸ tr×nh ph¸t hiÖn tri thøc

trong CSDL tiÕp nhËn ®Çu vµo lµ c¸c hÖ thèng CSDL, c¸c nhµ kho tæ chøc d÷

liÖu tõ c¸c nguån vµ c¸c d÷ liÖu m« t¶. CÇn chó ý r»ng, ®Ó ®¸p øng bèn thuéc

tÝnh trªn ®©y kho d÷ liÖu ®­îc coi chØ bao gåm c¸c d÷ liÖu ®­îc coi lµ "cã chÊt

l­îng" th«ng qua c¸c kh©u chän lùa, tiÒn xö lý vµ cã thÓ bao gåm c¶ kh©u

chuyÓn d¹ng trong qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL (H×nh 1.4).

C¸c nghiªn cøu vµ triÓn khai liªn quan tíi kho d÷ liÖu chØ dÉn khuynh

h­íng hiÖn t¹i cña c¸c hÖ thèng th«ng tin qu¶n lý (MIS: Managment

Information Systems) phæ biÕn lµ nh»m vµo viÖc thu thËp, lµm s¹ch d÷ liÖu giao

dÞch vµ t¹o cho chóng ®é linh ho¹t khi t×m kiÕm trùc tuyÕn. Mét tiÖm cËn phæ

biÕn ®èi víi ph©n tÝch kho d÷ liÖu gäi lµ OLAP (On-Line Analytical Processing),

th«ng qua mét tËp c¸c nguyªn lý ®­îc Codd ®Ò xuÊt vµo n¨m 1993. C¸c bé c«ng

cô OLAP chó träng tíi viÖc cung cÊp tíi SQL c¸c tiÖn Ých ph©n tÝch d÷ liÖu ®a

chiÒu chÊt l­îng cao b»ng c¸c tÝnh to¸n gi¶n l­îc vµ ph©n t¸ch nhiÒu chiÒu. C¶

ph¸t hiÖn tri thøc lÉn OLAP ®­îc coi lµ hai khÝa c¹nh quan hÖ mËt thiÕt nhau

®­îc tÝch hîp trong mét thÕ hÖ míi c¸c bé c«ng cô trÝch läc vµ qu¶n lý th«ng

tin.

§ång thêi víi sù ph¸t triÓn cña c«ng nghÖ kho d÷ liÖu, c¸c hÖ thèng tÝch

hîp c¸c nguån d÷ liÖu c¶ d÷ liÖu trong qu¸ khø lÉn d÷ liÖu t¸c nghiÖp ®· ®­îc

x©y dùng. NhiÒu hÖ thèng khai ph¸ d÷ liÖu cã ®Çu vµo tõ siªu d÷ liÖu (metadata)

cïng c¸c d÷ liÖu nguån trong c¸c kho d÷ liÖu.

1.5.3. C¬ së d÷ liÖu giao dÞch

Mét líp bµi to¸n khai ph¸ d÷ liÖu phè biÕn lµ khai ph¸ quan hÖ kÕt hîp,

trong ®ã ®iÓn h×nh lµ bµi to¸n khai ph¸ luËt kÕt hîp, ®­îc xuÊt ph¸t tõ viÖc xem

xÐt c¸c CSDL giao dÞch (b¸n hµng). D÷ liÖu giao dÞch chÝnh lµ d÷ liÖu nguyªn

thñy xuÊt hiÖn trong ®Þnh nghÜa vÒ luËt kÕt hîp cïng víi c¸c ®é ®o cña luËt nh­

®é hç trî vµ ®é tin cËy. Khi më réng d÷ liÖu tõ d÷ liÖu giao dÞch sang d÷ liÖu v«

h­íng hoÆc d÷ liÖu phøc t¹p h¬n cã trong c¸c CSDL quan hÖ, c¸c gi¶i ph¸p khai

ph¸ luËt kÕt hîp ®­îc c¶i tiÕn ®Ó thÝch øng víi sù biÕn ®æi nµy (bao gãi b­íc

chuyÓn d¹ng d÷ liÖu trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¸c CSDL).

Page 24: KPDL_C1-6 & C10

47 48

1.5.4. C¸c hÖ thèng d÷ liÖu më réng

Trong qu¸ tr×nh ph¸t triÓn, c¸c ph­¬ng ph¸p vµ thuËt to¸n khai ph¸ d÷ liÖu

thÝch hîp ®èi víi c¸c CSDL më réng vµ c¸c kiÓu kho chøa d÷ liÖu ®­îc ®Ò xuÊt.

C¸c ph­¬ng ph¸p vµ thuËt to¸n nµy ®­îc phï hîp víi d÷ liÖu trong CSDL h­íng

®èi t­îng, CSDL kh«ng gian-thêi gian, CSDL t¹m thêi, d÷ liÖu chuçi thêi gian

(bao gåm d÷ liÖu tµi chÝnh), d÷ liÖu dßng, CSDL Text vµ CSDL ®a ph­¬ng tiÖn,

CSDL hçn t¹p vµ CSDL thõa kÕ, vµ World Wide Web.

HÖ thèng CSDL quan hÖ - ®èi t­îng cã thÓ ®­îc coi lµ sù bæ sung theo tiÕp

cËn h­íng ®èi t­îng tíi c¸c hÖ thèng CSDL quan hÖ. M« h×nh d÷ liÖu quan hÖ -

®èi t­îng m« t¶ ng÷ nghÜa cña hÖ thèng CSDL quan hÖ - ®èi t­îng, ®­îc ph¸t

triÓn tõ m« h×nh quan hÖ víi viÖc bæ sung c¸c kiÓu d÷ liÖu giµu ng÷ nghÜa. Thùc

thÓ tõ m« h×nh quan hÖ thùc thÓ ®­îc ph¸t triÓn thµnh ®èi t­îng trong m« h×nh

quan hÖ ®èi t­îng. §Ó khai ph¸ d÷ liÖu ®èi víi CSDL quan hÖ - ®èi t­îng.

1.6. C¸c bµi to¸n khai ph¸ d÷ liÖu ®iÓn h×nh

Khai ph¸ d÷ liÖu lµ lÜnh vùc nghiªn cøu mang tÝnh thùc tiÔn cao, ®ång thêi

l¹i ®ßi hái mét nÒn t¶ng to¸n häc m¹nh trong viÖc x©y dùng c¸c m« h×nh to¸n

häc phï hîp nhÊt cho miÒn d÷ liÖu cña bµi to¸n ®ang ®­îc quan t©m. B­íc khai

ph¸ d÷ liÖu trong qu¸ tr×nh KDD th­êng ¸p dông mét ph­¬ng ph¸p khai ph¸ d÷

liÖu cô thÓ, liªn quan ®Õn c¸c kh¸i niÖm mÉu vµ m« h×nh. Nh­ ®· ®­îc giíi thiÖu

trong môc 1.1, mÉu lµ mét biÓu thøc trong mét ng«n ng÷ m« t¶ L nµo ®ã ®­îc

chän. M« h×nh ®­îc coi lµ mét biÓu thøc tæng qu¸t trong ng«n ng÷ m« t¶ L nãi

trªn; tÝnh tæng qu¸t cña m« h×nh ®­îc thÓ hiÖn th«ng qua c¸c tham sè m« h×nh,

trong tr­êng hîp ®ã, mét mÉu lµ mét thÓ hiÖn cña m« h×nh. Ch¼ng h¹n, biÓu

thøc ax2 + bx (víi hai tham sè a vµ b) lµ m« h×nh cßn 3x2 + x lµ mét mÉu trong

m« h×nh ®ã (®èi víi mÉu nµy th× c¸c tham sè m« h×nh a vµ b ®· ®­îc cho gi¸ trÞ

cô thÓ, a=3 vµ b= 1).

NhiÖm vô cña bµi to¸n khai ph¸ d÷ liÖu tõ mét tËp d÷ liÖu quan s¸t (tËp c¸c

sù kiÖn) ®· cã th× hoÆc cÇn ph¶i x¸c ®Þnh m« h×nh phï hîp víi tËp d÷ liÖu quan

s¸t ®ã, hoÆc cÇn t×m ra c¸c mÉu tõ tËp d÷ liÖu ®ã.

Bµi to¸n khai ph¸ d÷ liÖu th­êng h­íng tíi mét trong hai lo¹i m« h×nh ®ã

lµ m« h×nh theo tiÕp cËn thèng kª (m« h×nh thèng kª) hoÆc m« h×nh l«gic. M«

h×nh thèng kª ®­îc ®Þnh h­íng tíi lo¹i m« h×nh bao hµm c¸c yÕu tè ch­a x¸c

®Þnh, ch¼ng h¹n nh­ m« h×nh ax + e, trong m« h×nh nµy th× x lµ biÕn trong ng«n

ng÷ m« t¶ L, cßn e cã thÓ lµ biÕn ngÉu nhiªn Gauss (thÓ hiÖn tÝnh ch­a x¸c ®Þnh

cña m« h×nh). Ng­îc l¹i, m« h×nh l«gic ®Þnh h­íng tíi lo¹i m« h×nh x¸c ®Þnh

hoµn toµn, ch¼ng h¹n ax, trong ®ã kh«ng thõa nhËn yÕu tè kh«ng râ rµng khi m«

h×nh hãa. M« h×nh thèng kª ®­îc dïng hÇu kh¾p ®èi víi c¸c øng dông khai ph¸

d÷ liÖu thùc tÕ.

HÇu hÕt c¸c ph­¬ng ph¸p khai ph¸ d÷ liÖu ®· ®­îc x©y dùng cã néi dung tõ

c¸c ph­¬ng ph¸p häc m¸y, thiÕt kÕ mÉu vµ thèng kª (ph©n líp, ph©n ®o¹n, m«

h×nh ®å thÞ…). ThuËt to¸n gi¶i quyÕt mçi bµi to¸n nãi trªn cuèn hót mét ph¹m vi

ng­êi quan t©m ®a d¹ng bao gåm c¶ c¸c chuyªn gia ph©n tÝch d÷ liÖu lÉn nh÷ng

ng­êi ch­a hÒ cã kinh nghiÖm.

ë møc cao - tæng qu¸t, hai môc tiªu chñ yÕu cña khai ph¸ d÷ liÖu lµ dù b¸o

vµ m« t¶, mµ chóng ta coi hai môc tiªu nµy t­¬ng øng víi hai bµi to¸n tæng qu¸t

cña khai ph¸ d÷ liÖu. Bµi to¸n dù b¸o sö dông mét sè biÕn (hoÆc tr­êng) trong

CSDL ®Ó dù ®o¸n vÒ hoÆc gi¸ trÞ ch­a biÕt (®ï ®· cã) hoÆc gi¸ trÞ sÏ cã trong

t­¬ng lai cña c¸c biÕn. Bµi to¸n m« t¶ h­íng tíi viÖc t×m ra c¸c mÉu m« t¶ d÷

liÖu. Dù ®o¸n vµ m« t¶ cã tÇm quan träng kh¸c nhau ®èi víi c¸c thuËt to¸n khai

ph¸ d÷ liÖu riªng. Trong ng÷ c¶nh KDD th× vÊn ®Ò m« t¶ cã khuynh h­íng quan

träng h¬n vÊn ®Ò dù b¸o, vµ ®iÒu nµy lµ tr¸i ng­îc víi néi dung chñ yÕu cña c¸c

øng dông nhËn d¹ng mÉu vµ häc m¸y th× vÊn ®Ò dù b¸o lµ quan träng h¬n. §iÒu

cã vÎ tr¸i ng­îc ®ã cã thÓ ®­îc gi¶i thÝch khi xem xÐt, ph©n tÝch néi dung cña

chÝnh kh¸i niÖm "ph¸t hiÖn tri thøc trong CSDL"; kh¸i niÖm nµy ®· bao hµm t×nh

huèng s½n cã d÷ liÖu ®Ó ph¸t hiÖn c¸c mÉu tiÒm Èn trong d÷ liÖu ®ã, c¸c mÉu

tiÒm Èn ®ã liªn quan tíi bµi to¸n m« t¶ d÷ liÖu. MÆt kh¸c, m« t¶ ®­îc m« h×nh

d÷ liÖu th× còng rÊt thuËn tiÖn cho dù b¸o.

Page 25: KPDL_C1-6 & C10

49 50

ë møc chi tiÕt - cô thÓ, dù b¸o vµ m« t¶ ®­îc thÓ hiÖn th«ng qua c¸c bµi

to¸n cô thÓ nh­ m« t¶ kh¸i niÖm, quan hÖ kÕt hîp, ph©n côm, ph©n líp, håi quy,

m« h×nh phô thuéc, ph¸t hiÖn biÕn ®æi vµ ®é lÖch, vµ mét sè bµi to¸n cô thÓ kh¸c

nh­ tr×nh bµy d­íi ®©y.

1.6.1. M« t¶ kh¸i niÖm

Néi dung cña bµi to¸n m« t¶ kh¸i niÖm (concept description) lµ t×m ra c¸c

®Æc tr­ng vµ tÝnh chÊt cña kh¸i niÖm ®Ó "m« t¶" kh¸i niÖm ®ã. §iÓn H×nh nhÊt

trong líp bµi to¸n nµy lµ c¸c bµi to¸n nh­ tæng qu¸t hãa, tãm t¾t, ph¸t hiÖn c¸c

®Æc tr­ng d÷ liÖu rµng buéc.

Bµi to¸n tãm t¾t lµ mét bµi to¸n m« t¶ ®iÓn h×nh, ¸p dông c¸c ph­¬ng ph¸p

®Ó t×m ra mét m« t¶ c« ®äng ®èi víi mét tËp con d÷ liÖu. Mét vÝ dô ®iÓn h×nh vÒ

bµi to¸n tãm t¾t lµ bµi to¸n tÝnh kú väng vµ ®é lÖch chuÈn cña mét tËp d÷ liÖu

trong thèng kª x¸c suÊt; hai gi¸ trÞ nµy chÝnh lµ hai ®Æc tr­ng ®iÓn h×nh nhÊt vÒ

mét hiÖn t­îng cã d·y gi¸ trÞ thÓ hiÖn mµ chóng ta ®· quan s¸t ®­îc.

NhiÒu ph­¬ng ph¸p ®· ®­îc biÖn luËn ®ßi hái viÖc thu nhËn ®­îc c¸c quy

t¾c tãm t¾t, kü thuËt hiÓn thÞ ®a biÕn, ph¸t hiÖn quan hÖ hµm gi÷a c¸c biÕn. Kü

thuËt tãm t¾t th­êng ®­îc ¸p dông trong ph©n tÝch d÷ liÖu tham dß cã t­¬ng

quan vµ tù ®éng hãa sinh ra c¸c th«ng b¸o.

Trong khai ph¸ Text vµ khai ph¸ Web, tãm t¾t v¨n b¶n lµ mét biÓu hiÖn cô

thÓ cña tãm t¾t, theo ®ã tõ mét v¨n b¶n ®· cã, cÇn t×m ra v¨n b¶n ng¾n gän (víi

®é dµi 100 tõ, 200 tõ hoÆc 500 tõ) mµ vÉn gi÷ ®­îc ng÷ nghÜa c¬ b¶n cña v¨n

b¶n gèc.

1.6.2. Quan hÖ kÕt hîp

Ph¸t hiÖn mèi quan hÖ kÕt hîp (associative relation) trong tËp d÷ liÖu lµ

mét bµi to¸n quan träng trong khai ph¸ d÷ liÖu. Mét trong nh÷ng mèi quan hÖ

kÕt hîp ®iÓn h×nh lµ quan hÖ kÕt hîp gi÷a c¸c biÕn d÷ liÖu, trong ®ã bµi to¸n

khai ph¸ luËt kÕt hîp (associative rule) lµ mét bµi to¸n ®iÓn h×nh. Bµi to¸n khai

ph¸ luËt kÕt hîp (thuéc líp ph¸t hiÖn quan hÖ kÕt hîp), thùc hiÖn viÖc ph¸t hiÖn

ra mèi quan hÖ gi÷a c¸c tËp thuéc tÝnh (c¸c tËp biÕn) cã d¹ng XY, trong ®ã X,

Y lµ hai tËp thuéc tÝnh. VÒ H×nh thøc, luËt kÕt hîp cã d¹ng gièng nh­ phô thuéc

hµm trong CSDL quan hÖ, tuy nhiªn, nã kh«ng ®­îc ®Þnh s½n tõ tri thøc miÒn.

Trong khai ph¸ text vµ khai ph¸ web tån t¹i nhiÒu bµi to¸n ph¸t hiÖn quan

hÖ kÕt hîp, ®iÓn h×nh nh­ bµi to¸n ph¸t hiÖn quan hÖ ng÷ nghÜa (ch¼ng h¹n nh­

quan hÖ nh©n-qu¶, quan hÖ toµn bé - bé phËn, quan hÖ chung-riªng...) trong v¨n

b¶n (hoÆc trong tËp v¨n b¶n), bµi to¸n ph¸t hiÖn mèi quan hÖ gi÷a néi dung trang

web ng­êi sö dông ®ang quan t©m tíi c¸c trang web mµ hä cã thÓ sÏ h­íng tíi...

1.6.3. Ph©n líp

Ph©n líp (Classification/Categorization) thùc hiÖn viÖc x©y dùng (m« t¶)

c¸c m« h×nh (hµm) dù b¸o nh»m m« t¶ hoÆc ph¸t hiÖn c¸c líp hoÆc kh¸i niÖm

cho c¸c dù b¸o tiÕp theo. Mét sè ph­¬ng ph¸p ®iÓn h×nh lµ c©y quyÕt ®Þnh, luËt

ph©n líp, m¹ng neuron. Néi dung cña ph©n líp chÝnh lµ häc mét hµm ¸nh x¹ c¸c

d÷ liÖu vµo mét trong mét sè líp ®· biÕt. VÝ dô, ph©n líp mét v¨n b¶n (bao gåm

c¶ trang web) vµo mét trong mét sè líp v¨n b¶n (trang web) ®· biÕt, ph©n líp

khuynh h­íng trong thÞ tr­êng tµi chÝnh, ph¸t hiÖn tù ®éng c¸c ®èi t­îng ®¸ng

quan t©m trong CSDL ¶nh lín.

Page 26: KPDL_C1-6 & C10

51 52

H×nh 1.11. S¬ ®å biÓu diÔn m« h×nh häc m¸y: cÇn häc ¸nh x¹ biÓu diÔn b»ng ®­êng liÒn nÐt xiªn [KV01] (L­u ý, häc kh«ng gi¸m s¸t kh«ng cã gi¸ trÞ môc tiªu cho vÝ dô häc: kh«ng cã

®­êng liÒn nÐt)

H×nh 1.11 m« t¶ s¬ bé vÒ bµi to¸n ph©n líp (th­êng ®­îc t­¬ng øng víi

häc cã gi¸m s¸t), theo ®ã ®­êng ngang liÒn nÐt cho biÕt ®· biÕt thuéc tÝnh líp

®èi víi mét tËp hîp d÷ liÖu nµo ®ã (tËp d÷ liÖu häc). Néi dung chi tiÕt h¬n vÒ bµi

to¸n ph©n líp sÏ ®­îc tr×nh bµy chi tiÕt h¬n trong c¸c ch­¬ng sau.

1.6.4. Ph©n côm

Ph©n côm (Clustering) thùc hiÖn viÖc nhãm d÷ liÖu thµnh c¸c "côm" (cã

thÓ cãi lµ c¸c líp míi) ®Ó cã thÓ ph¸t hiÖn ®­îc c¸c mÉu ph©n bè d÷ liÖu trong

miÒn øng dông. Ph©n côm lµ mét bµi to¸n m« t¶ h­íng tíi viÖc nhËn biÕt mét

tËp h÷u h¹n c¸c côm hoÆc c¸c líp ®Ó m« t¶ d÷ liÖu. C¸c côm (líp) cã thÓ t¸ch rêi

nhau vµ toµn phÇn (t¹o nªn mét ph©n ho¹ch cho tËp d÷ liÖu) hoÆc ®­îc tr×nh bµy

®Ñp h¬n nh­ ph©n líp cã thø bËc hoÆc cã thÓ chång lªn nhau (giao nhau). VÝ dô

nh­ bµi to¸n ph¸t hiÖn c¸c nhãm ng­êi tiªu dïng trong CSDL tiÕp thÞ hoÆc nhËn

biÕt c¸c lo¹i quang phæ trong tËp phÐp ®o kh«ng gian hång ngo¹i... Th«ng

th­êng, môc tiªu ®Þnh h­íng cña bµi to¸n ph©n côm lµ cùc ®¹i tÝnh t­¬ng ®ång

gi÷a c¸c phÇn tö trong mçi côm vµ cùc tiÓu tÝnh t­¬ng ®ång gi÷a c¸c phÇn tö

thuéc c¸c côm kh¸c nhau.

Trong nhiÒu tr­êng hîp, ph©n côm cßn ®­îc gäi lµ häc m¸y kh«ng gi¸m

s¸t (unsupervised learning) vµ ph©n líp cßn ®­îc gäi lµ häc m¸y gi¸m s¸t

(supervised learning). S¬ bé vÒ m« h×nh häc m¸y (cã gi¸m s¸t vµ kh«ng gi¸m

s¸t) ®­îc diÔn t¶ nh­ t¹i H×nh 1.11 [KV01]. Tuy cïng sö dông häc m¸y nh­

ph©n líp thuéc lo¹i khai ph¸ d÷ liÖu dù b¸o cßn ph©n côm thuéc lo¹i khai ph¸ d÷

liÖu m« t¶.

Trong mét sè øng dông, bµi to¸n ph©n ®o¹n (segmentation) cÇn ®­îc gi¶i

quyÕt. VÒ néi dung, ph©n ®o¹n lµ tæ hîp cña ph©n côm vµ ph©n líp, trong ®ã

ph©n côm ®­îc tiÕn hµnh tr­íc vµ sau ®ã lµ ph©n líp.

1.6.5. Håi quy

Håi quy (regresion) lµ mét bµi to¸n ®iÓn h×nh trong ph©n tÝch thèng kª vµ

dù b¸o, trong ®ã tiÕn hµnh viÖc dù ®o¸n c¸c gi¸ trÞ cña mét hoÆc mét sè biÕn phô

thuéc vµo gi¸ trÞ cña mét tËp hîp c¸c biÕn ®éc lËp. M« h×nh håi quy lµ kh¸ th«ng

dông trong dù b¸o dµi h¹n. Trong khai ph¸ d÷ liÖu, bµi to¸n håi quy ®­îc quy vÒ

viÖc häc mét hµm ¸nh x¹ d÷ liÖu nh»m x¸c ®Þnh gi¸ trÞ thùc cña mét biÕn theo

mét sè biÕn kh¸c. T×nh huèng øng dông håi quy rÊt ®a d¹ng, ch¼ng h¹n nh­ dù

®o¸n sè l­îng sinh vËt ph¸t quang trong khu rõng nhê ®o vi sãng c¸c sensor tõ

xa, hoÆc ­íc l­îng x¸c suÊt ng­êi bÖnh cã thÓ chÕt theo kÕt qu¶ test triÖu chøng,

hoÆc dù b¸o nhu cÇu ng­êi tiªu dïng ®èi víi mét s¶n phÈm míi ®­îc coi nh­

mét hµm cña qu¶ng c¸o tiªu dïng, hoÆc dù b¸o chuçi thêi gian mµ c¸c biÕn ®Çu

vµo ®­îc coi nh­ b¶n trÔ thêi gian cña biÕn dù b¸o…

1.6.6. M« h×nh phô thuéc

Bµi to¸n x©y dùng m« h×nh phô thuéc h­íng tíi viÖc t×m ra mét m« h×nh

m« t¶ sù phô thuéc cã ý nghÜa gi÷a c¸c biÕn. M« h×nh phô thuéc gåm hai møc:

møc cÊu tróc cña m« h×nh m« t¶ (th­êng d­íi d¹ng ®å thÞ) trong ®ã c¸c biÕn lµ

phô thuéc bé phËn vµo c¸c biÕn kh¸c, trong khi møc ®Þnh l­îng cña m« h×nh m«

t¶ søc m¹nh cña tÝnh phô thuéc khi sö dông viÖc ®o tÝnh theo gi¸ trÞ sè. VÝ dô,

l­íi phô thuéc x¸c suÊt cÇn ®¶m b¶o tÝnh ®éc lËp ®iÒu kiÖn nh»m ®Þnh râ diÖn

m¹o cÊu tróc cña m« h×nh vµ x¸c suÊt hoÆc t­¬ng quan ®Ó m« t¶ søc m¹nh cña

tÝnh phô thuéc. Ph©n tÝch khuynh h­íng vµ tiÕn hãa còng ®­îc coi thuéc vµo

lo¹i khai ph¸ m« h×nh phô thuéc. Trong ph©n tÝch khuynh h­íng vµ tiÕn hãa, c¸c

ph­¬ng ph¸p ph©n tÝch xu thÕ, khai ph¸ mÉu kÕ tiÕp, ph©n tÝch dùa trªn tÝnh

t­¬ng tù… th­êng ®­îc ¸p dông.

1.6.7. Ph¸t hiÖn biÕn ®æi vµ ®é lÖch

TËp trung vµo viÖc ph¸t hiÖn hÇu hÕt sù thay ®æi cã ý nghÜa d­íi d¹ng ®é

®o ®· biÕt tr­íc hoÆc gi¸ trÞ chuÈn, cung cÊp nh÷ng tri thøc vÒ sù biÕn ®æi vµ ®é

lÖch cho ng­êi dïng. Bµi to¸n ph¸t hiÖn biÕn ®æi vµ ®é lÖch cßn ®­îc øng dông

Page 27: KPDL_C1-6 & C10

53 54

trong b­íc tiÒn xö lý trong qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL. ChÝnh v× lý

do ®ã, cÇn tr¸nh suy nghÜ cho r»ng sù biÕn ®æi vµ ®é lÖch mang ý nghÜa "kh«ng

chÝnh quy" mµ ph¶i quan niÖm sù biÕn ®æi vµ ®é lÖch ®ã (cã thÓ lµ bÊt th­êng) lµ

mét néi dung b¶n chÊt cña d÷ liÖu.

Ngoµi ra cã thÓ kÓ tíi bµi to¸n ph©n tÝch ®Þnh h­íng mÉu vµ mét sè bµi

to¸n khai ph¸ d÷ liÖu kiÓu thèng kª kh¸c.

1.7. TÝnh liªn ngµnh cña khai ph¸ d÷ liÖu

KDD nhËn ®­îc sù quan t©m ®Æc biÖt cña c¸c nhµ nghiªn cøu trong c¸c

lÜnh vùc häc m¸y, thu nhËn mÉu, CSDL, thèng kª, trÝ tuÖ nh©n t¹o, thu nhËn tri

thøc ®èi víi hÖ chuyªn gia ®­îc tr×nh bµy trong H×nh 1.12 [HK0106]. HÖ thèng

KDD l«i cuèn c¸c ph­¬ng ph¸p, thuËt to¸n vµ kü thuËt tõ c¸c lÜnh vùc rêi r¹c

nhau nµy. Môc tiªu thèng nhÊt lµ trÝch läc tri thøc tõ d÷ liÖu trong ng÷ c¶nh c¸c

CSDL lín.

ZH Zhou [Zhou03] nhËn ®Þnh r»ng khai ph¸ d÷ liÖu nhËn ®­îc sù ®ãng

gãp cña rÊt nhiÒu ngµnh nh­ CSDL, häc m¸y, thèng kª, thu håi th«ng tin, trùc

quan hãa d÷ liÖu, tÝnh to¸n song song vµ ph©n t¸n…. Ba ngµnh ®ãng gãp chÝnh

lµ CSDL, häc m¸y, thèng kª. Trong khai ph¸ d÷ liÖu, CSDL ®ãng gãp c¸c kü

thuËt qu¶n lý d÷ liÖu, häc m¸y ®ãng gãp c¸c kü thuËt ph©n tÝch d÷ liÖu thùc tiÔn,

vµ thèng kª ®ãng gãp c¸c nÒn t¶ng lý thuyÕt v÷ng ch¾c. T¸c gi¶ Èn dô r»ng khai

ph¸ d÷ liÖu nÕu kh«ng cã sù ®ãng gãp cña CSDL vµ häc m¸y sÏ nh­ “t×m kim

trong ®èng cá”, nÕu kh«ng cã sù ®ãng gãp cña thèng kª sÏ nh­ “x©y dùng l©u

®µi trong kh«ng khÝ”.

Mét sè lËp luËn ®­îc tr×nh bµy t¹i c¸c môc tr­íc (1.2, 1.3) ®· chØ dÉn r»ng

khai ph¸ d÷ liÖu lµ b­íc ph¸t triÓn míi cña c«ng nghÖ CSDL, v× vËy nhiÒu néi

dung trong khai ph¸ d÷ liÖu lµ gÇn gòi víi CSDL [HK0106]. §ång thêi, mét sè

dÊu hiÖu ph©n biÖt gi÷a hÖ thèng CSDL ®iÒu hµnh t¸c nghiÖp truyÒn thèng víi hÖ

thèng khai ph¸ d÷ liÖu còng ®· ®­îc th¶o luËn; c¸c dÇu hiÖu ®iÓn h×nh nhÊt bao

gåm quan niÖm vÒ mét gi¶ thiÕt s½n cã mét tri thøc miÒn øng dông ®Çy ®ñ, lo¹i

H×nh c¸c c©u hái thÓ hiÖn môc tiªu cña hÖ thèng vµ kÝch th­íc tËp d÷ liÖu ®èi

t­îng kh¶o s¸t.

H×nh 1.12. TÝnh ®a/liªn ngµnh cña khai ph¸ d÷ liÖu

Tµi nguyªn d÷ liÖu ®Çu vµo cho c¸c hÖ thèng khai ph¸ d÷ liÖu gåm cã c¸c

CSDL, c¸c kho d÷ liÖu vµ c¸c lo¹i nguån chøa d÷ liÖu kh¸c. ChÝnh v× lý do ®ã,

trong kh«ng Ýt tr­êng hîp, lÜnh vùc kho d÷ liÖu ®­îc coi lµ mét bé phËn cña lÜnh

vùc khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL.

§èi víi c¸c lÜnh vùc häc m¸y vµ thu nhËn mÉu, sù ®an xen víi khai ph¸ d÷

liÖu (vµ KDD) tr¶i theo c¸c nghiªn cøu vÒ lý thuyÕt vµ thuËt to¸n ®èi víi c¸c hÖ

thèng trÝch läc mÉu vµ m« h×nh d÷ liÖu (chñ yÕu ®èi víi c¸c ph­¬ng ph¸p khai

ph¸ d÷ liÖu). C¸c ph­¬ng ph¸p häc m¸y gi¸m s¸t (ph©n líp), kh«ng gi¸m s¸t

(ph©n côm), b¸n gi¸m s¸t (ph©n líp vµ ph©n côm) ®· rÊt phæ biÕn trong khai ph¸

d÷ liÖu, nh»m lùa chän m« h×nh vµ x¸c ®Þnh tham sè m« h×nh trong c¸c hÖ thèng

KDD. Träng t©m cña KDD ®èi víi viÖc më réng c¸c lý thuyÕt vµ thuËt to¸n häc

m¸y h­íng tíi bµi to¸n t×m ra c¸c mÉu ®Æc biÖt (nh÷ng mÉu mµ trong mét sè

ng÷ c¶nh cßn ®­îc gäi lµ tri thøc h÷u dông hoÆc hÊp dÉn) trong c¸c tËp hîp d÷

liÖu cã dung l­îng lín cña thÕ giíi thùc. Nh­ vËy, khai ph¸ d÷ liÖu më réng néi

dung häc m¸y th«ng qua c¸c c«ng viÖc lùa chän d÷ liÖu ®Çu vµo, tr×nh diÔn mÉu,

Page 28: KPDL_C1-6 & C10

55 56

®¸nh gi¸ mÉu ®Çu ra... trong ng÷ c¶nh miÒn d÷ liÖu cÇn xö lý cã dung l­îng rÊt

lín.

Cïng víi tiÕp cËn m« h×nh l«gic, m« h×nh thèng kª lµ tiÕp cËn phæ biÕn

trong c¸c bµi to¸n ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu, v× vËy, chuyªn ngµnh

KDD cã rÊt nhiÒu ®iÓm chung víi chuyªn ngµnh thèng kª, ®Æc biÖt lµ ph©n tÝch

d÷ liÖu th¨m dß (EDA: Exploratory Data Analysis) còng nh­ dù b¸o [Fried97,

HD03]. HÖ thèng KDD th­êng g¾n kÕt víi c¸c thñ tôc thèng kª ®Æc biÖt ®èi víi

m« h×nh d÷ liÖu vµ n¾m b¾t nhiÔu trong mét khung c¶nh ph¸t hiÖn tri thøc tæng

thÓ. C¸c ph­¬ng ph¸p khai ph¸ d÷ liÖu dùa theo thèng kª nhËn ®­îc sù quan t©m

®Æc biÖt t¹o nªn líp ph­¬ng ph¸p khai ph¸ d÷ liÖu réng lín dùa trªn häc m¸y

thèng kª. Robert Nisbet vµ céng sù [NEM09], Trevor Hastie vµ céng sù

[HTF09] cung cÊp c¸c néi dung kh¸ toµn diÖn vµ bæ Ých vÒ c¸c ph­¬ng ph¸p häc

m¸y thèng kª vµ khai ph¸ d÷ liÖu thèng kª. Robert Nisbet vµ céng sù tr×nh bµy

mét c¸ch hÖ thèng qu¸ tr×nh tiÕn hãa cña thèng kª to¸n häc, bao gåm c¶ sù ph¸t

triÓn c¸c néi dung cña thèng kª to¸n häc tíi khai ph¸ d÷ liÖu thèng kª.

V× khai ph¸ d÷ liÖu vµ xö lý d÷ liÖu thèng kª rÊt gÇn gòi víi nhau vµ mét

sè néi dung trong xö lý d÷ liÖu thèng kª ®­îc tÝch hîp vµo qu¸ tr×nh khai ph¸ d÷

liÖu, tuy nhiªn, còng cÇn nªu ra mét sè kh¸c biÖt gi÷a bµi to¸n thèng kª to¸n häc

vµ bµi to¸n khai ph¸ d÷ liÖu.

§Çu tiªn, khai ph¸ d÷ liÖu kh¸c biÖt víi ph©n tÝch th«ng kª trong bµi to¸n

thèng kª toµn häc vÒ c¸c gi¶ ®Þnh c¬ b¶n, trong ®ã ph©n tÝch thèng kª yªu cÇu

c¸c ®iÒu kiÖn chÆt chÏ vÒ ph©n bè d÷ liÖu, vÒ tham sè lçi trong khi ®ã khai ph¸

d÷ liÖu kh«ng ®ßi hái nh÷ng gi¶ ®Þnh nh­ vËy. Trong bµi to¸n khai ph¸ d÷ liÖu,

tri thøc miÒn t­¬ng øng víi gi¶ ®Þnh ®ßi hái cña ph©n tÝch thèng kª lµ kÕt qu¶

cña c«ng viÖc t×m hiÓu d÷ liÖu c«ng phu mµ kh«ng ph¶i lµ s½n cã theo gi¶ ®Þnh.

Nh­ vËy, ph­¬ng ph¸p ph©n tÝch thèng kª cã thÓ ®­îc huy ®éng trong b­íc

“hiÓu d÷ liÖu” cña qu¸ tr×nh khai ph¸ d÷ liÖu.

Thø hai, môc tiªu cña ph©n tÝch thèng kª lµ kiÓm thö gi¶ thiÕt hoÆc x¸c

®Þnh tham sè, trong khi ®ã môc tiªu cña khai ph¸ d÷ liÖu lµ x¸c ®Þnh m« h×nh dù

b¸o vµ ®é chÝnh x¸c cña m« h×nh dù b¸o ®ã. Cô thÓ h¬n, trong bµi to¸n ph©n tÝch

kiÓm ®Þnh gi¶ thiÕt thèng kª, cho tr­íc mét gi¶ thiÕt thèng kª th× c«ng viÖc cÇn

tiÕn hµnh lµ kiÓm tra xem tËp hîp toµn bé c¸c d÷ liÖu quan s¸t ®­îc cã phï hîp

víi gi¶ thiÕt thèng kª nãi trªn hay kh«ng, hay còng vËy, gi¶ thiÕt thèng kª cã

®óng trªn toµn bé d÷ liÖu quan s¸t ®­îc hay kh«ng. NÕu kiÓm ®Þnh cho kÕt qu¶

kh«ng phï hîp cã nghÜa lµ gi¶ thiÕt thèng kª lµ kh«ng ®óng trªn tËp d÷ liÖu quan

s¸t. Nh­ vËy, tÝnh ®óng ®¾n cña gi¶ thiÕt thèng kª ®­îc xem xÐt trªn tËp tËp d÷

liÖu quan s¸t ®· cã.

Thø ba, ph©n tÝch thèng kª coi tËp d÷ liÖu xö lý lµ phÇn lÊy mÉu cña tËp d÷

liÖu toµn côc trong khi khai ph¸ d÷ liÖu coi tËp d÷ liÖu cÇn xö lý lµ toµn bé d÷

liÖu thuéc miÒn øng dông. Trong khai ph¸ d÷ liÖu, m« h×nh kÕt qu¶ khai ph¸ d÷

liÖu lµ kh«ng ®­îc x¸c ®Þnh tr­íc cÇn ph¶i phï hîp víi tËp toµn bé d÷ liÖu cña

miÒn øng dông mµ kh«ng ph¶i chØ víi tËp d÷ liÖu quan s¸t ®­îc (tËp d÷ liÖu

quan s¸t ®­îc chØ lµ mét bé phËn mµ th­êng lµ rÊt nhá so víi miÒn d÷ liÖu cña

thÕ giíi thùc, xem H×nh 1.8) do ®ã cÇn ®¶m b¶o c¸c tham sè m« h×nh kh«ng phô

thuéc vµo c¸ch chän tËp d÷ liÖu häc. ChÝnh v× lý do cèt lâi nµy mµ bµi to¸n häc

khai ph¸ d÷ liÖu ®ßi hái ®¸p øng yªu cÇu lµ tËp d÷ liÖu häc còng nh­ tËp d÷ liÖu

kiÓm tra cÇn cã tÝnh "®¹i diÖn" cho toµn bé d÷ liÖu trong miÒn øng dông vµ hai

tËp d÷ liÖu nµy cÇn ®éc lËp nhau. Trong mét sè bµi to¸n khai ph¸ d÷ liÖu, hai tËp

d÷ liÖu nµy (hoÆc tËp d÷ liÖu kiÓm tra) ®­îc c«ng bè d­íi d¹ng chuÈn.

Thø t­, ph©n tÝch cã ®ßi hái kh¸ râ rµng vÒ kÝch th­íc tËp d÷ liÖu mÉu vµ

cã tÝnh chÊt tÜnh (æn ®Þnh), trong khi ®ã khai ph¸ d÷ liÖu tiÕp cËn theo h­íng

“cµng nhiÒu cµng tèt”, h¬n n÷a d÷ liÖu cã thÓ ®éng. TiÕp theo, khai ph¸ d÷ liÖu

cho phÐp thi hµnh lÆp ®Ó c¶i thiÖn m« h×nh kÕt qu¶ trong khi ®ã viÖc thi hµnh lÆp

cã thÓ dÉn tíi kÕt luËn sai lÇm trong ph©n tÝch thèng kª.

Cuèi cïng, c¸c thuËt ng÷ dïng trong hai lÜnh vùc nghiªn cøu nµy còng lµ

dÊu hiÖu ph©n biÖt chóng, ch¼ng h¹n, lÜnh vùc khai ph¸ d÷ liÖu dïng c¸c thuËt

ng÷ biÕn ra/biÕn môc tiªu, thuËt to¸n khai ph¸ d÷ liÖu, thuéc tÝnh/®Æc tr­ng, b¶n

ghi... trong khi ®ã th× lÜnh vùc xö lý d÷ liÖu thèng kª dïng c¸c thuËt ng÷ t­¬ng

øng lµ biÕn phô thuéc, thñ tôc thèng kª, biÕn gi¶i thÝch, quan s¸t...

Nh­ ®· ®­îc tr×nh bµy, qu¸ tr×nh ph¸t hiÖn tri thøc lµm viÖc víi tËp hîp d÷

liÖu lín mµ trong nhiÒu tr­êng hîp tËp d÷ liÖu trë nªn khæng lå. Ph¹m vi t¸c

®éng to lín vµ ®a d¹ng ®ßi hái c¸c thuËt to¸n khai ph¸ d÷ liÖu ph¶i ®óng ®¾n vµ

Page 29: KPDL_C1-6 & C10

57 58

hiÖu qu¶; chÝnh v× ®iÒu ®ã cho nªn rÊt nhiÒu thuËt to¸n khai ph¸ d÷ liÖu ®· ®­îc

®Ò xuÊt. ZH Zhou [Zhou03] giíi thiÖu vÒ bèn thµnh phÇn cña mét thuËt to¸n

khai ph¸ d÷ liÖu lµ c¸c m« h×nh vµ mÉu, c¸c hµm ®¸nh gi¸, c¸c ph­¬ng ph¸p t×m

kiÕm vµ tèi ­u hãa, vµ chiÕn l­îc qu¶n lý d÷ liÖu.

Xindong Wu vµ céng sù [WKQ08] cung cÊp mét danh s¸ch gåm m­êi

thuËt to¸n khai ph¸ d÷ liÖu næi tiÕng nhÊt, ®ã lµ c¸c thuËt to¸n C4.5, k-Means,

SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, vµ CART. C¸c t¸c

gi¶ còng giíi thiÖu nh÷ng néi dung c¬ b¶n nhÊt cña mçi trong m­êi thuËt to¸n

nãi trªn. Mét sè néi dung c¬ b¶n nhÊt cña hÇu hÕt ¸c thuËt to¸n trong m­êi thuËt

to¸n nµy sÏ ®­îc giíi thiÖu trong c¸c ch­¬ng tõ 4-7 cña tµi liÖu nµy.

Nh­ ®· ®­îc kh¼ng ®Þnh t¹i c¸c phÇn tr­íc ®©y lµ kh«ng ph¶i tÊt c¸c c¸c

mÉu ®Òu h÷u dông vµ hÖ thèng cÇn ®­a ra c¸c tiªu chÝ ®Ó läc c¸c mÉu ®­îc coi

lµ hÊp dÉn nhÊt. Th«ng th­êng c¸c hÖ thèng sö dông mét ng­ìng hÊp dÉn cùc

tiÕu cho c¸c mÉu ®­îc coi lµ tri thøc, ch¼ng h¹n trong bµi to¸n ph¸t hiÖn luËt kÕt

hîp, ng­êi ta chØ gi÷ l¹i c¸c luËt v­ît qua ng­ìng ®é hç trî tèi thiÓu vµ ®é tin

cËy tèi thiÓu. Ngay c¶ trong tr­êng hîp ®ã, kh«ng ph¶i mäi “tri thøc” ®­îc hÖ

thèng coi lµ “h÷u dông” ®Òu hoµn toµn phï hîp víi ng­êi sö dông. B­íc trùc

quan hãa trong qu¸ tr×nh KDD hiÓn thÞ c¸c tri thøc ®­îc hÖ thèng ph¸t hiÖn mét

c¸ch trùc quan nhÊt ®Ó t¹o thuËn lîi cho ng­êi sö dông (th«ng qua tri thøc vµ

kinh nghiÖm) lùa chän ra c¸c tri thøc thùc sù h÷u dông cho môc ®Ých øng dông

cña ng­êi sö dông.

Ph¸t hiÖn m¸y víi môc tiªu lµ ph¸t hiÖn c¸c luËt kinh nghiÖm tõ quan s¸t

vµ thö nghiÖm vµ m« h×nh nh©n qu¶ ph¸t hiÖn c¸c kÕt luËn cña m« h×nh nh©n

qu¶ tõ d÷ liÖu lµ nh÷ng lÜnh vùc nghiªn cøu cã mèi liªn hÖ víi nhau.

Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu còng chøng kiÕn sù th©m

nhËp réng lín cña lý thuyÕt tËp mê (ch¼ng h¹n, [EM03, HP03, STH06] vµ c¸c

c«ng bè khoa häc trong d·y héi nghÞ quèc tÕ Intenational Conference on Fuzzy

Systems and Knowledge Discovery: FSKD12 vµ mét sè héi nghÞ quèc tÕ uy tÝn

12 http://icnc-fskd.dhu.edu.cn/

kh¸c), lý thuyÕt tËp th« (ch¼ng h¹n, [Zia94, Ohrn99, SZ00, Li07, NS08,

Szczu11] vµ c¸c c«ng bè khoa häc t¹i chuçi héi nghÞ quèc tÕ "Rough Sets and

Knowledge Technology: RSKT13) vµ lý thuyÕt kÕt hîp tËp mê – th«

[Jenssen11] . Ch­¬ng 9 tr×nh bµy c¸c néi dung chi tiÕt vÒ khai ph¸ d÷ liÖu dùa

trªn lý thuyÕt tËp mê, tËp th« vµ tËp mê-th«.

Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu lµ lÜnh vùc nghiªn cøu vµ

øng dông cã quan hÖ mËt thiÕt víi sù ph¸t triÓn kinh tÕ – x· héi, v× vËy, theo

thêi gian, khai ph¸ d÷ liÖu ®a vµ ®ang thu hót thªm sù tham gia cña nhiÒu ngµnh,

chuyªn ngµnh kh¸c kh«ng chØ trong lÜnh vùc CNTT mµ cßn ë c¸c lÜnh vùc kh¸c.

C©u hái vµ Bµi tËp

1.1. Néi dung, ý nghÜa ®Þnh h­íng c«ng nghiÖp vµ kinh tÕ cña ®Þnh luËt Moore.

1.2. Ph©n biÖt bµi to¸n qu¶n trÞ C¬ së d÷ liÖu t¸c nghiÖp víi bµi to¸n khai ph¸ d÷

liÖu.

1.3. Ph©n tÝch vai trß cña c¬ së tri thøc trong mét hÖ thèng khai ph¸ d÷ liÖu.

1.4. Ph©n biÖt bµi to¸n khai ph¸ d÷ liÖu víi bµi to¸n kiÓm nghiÖm gi¶ thiÕt thèng

kª.

1.5. Han vµ Kamber [HK0106] quan niÖm khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc

trong CSDL lµ b­íc ph¸t triÓn míi cña c«ng nghÖ CSDL. H·y lËp luËn lµm

s¸ng tá quan niÖm trªn.

1.6. Tr×nh bµy mét sè mÉu truy vÊn trong hÖ thèng qu¶n trÞ c¬ së d÷ liÖu vµ hÖ

thèng khai ph¸ d÷ liÖu. Ph©n tÝch lµm s¸ng tá c¸c mÉu truy vÊn trong hÖ

thèng khai ph¸ d÷ liÖu lµ phøc t¹p h¬n mÉu truy vÊn trong hÖ thèng qu¶n trÞ

CSDL.

13 http://rskt.cs.uregina.ca/

Page 30: KPDL_C1-6 & C10

59 60

1.7. HÖ thèng khai ph¸ d÷ liÖu cã nhÊt thiÕt cã nguån ®Çu vµo lµ kho d÷ liÖu hay

kh«ng ? Ph©n tÝch mét sè lîi ®iÓm khi hÖ thèng khai ph¸ d÷ liÖu cã nguån

d÷ liÖu ®Çu vµo chØ lµ c¸c kho d÷ liÖu.

1.8. Ph©n tÝch vÒ tÝnh "kh«ng tÇm th­êng" cña qu¸ tr×nh ph¸t hiÖn tri thøc trong

CSDL.

1.9. Ph©n biÖt bµi to¸n khai ph¸ d÷ liÖu m« t¶ víi bµi to¸n khai ph¸ d÷ liÖu dù

b¸o.

1.10. Ph©n tÝch tÇm quan träng cña kh©u lµm s¹ch d÷ liÖu vµ tiÒn xö lý d÷ liÖu

trong qu¸ tr×nh khai ph¸ d÷ liÖu vµ tr×nh bµy s¬ bé vÒ néi dung cña kh©u

nµy.

1.11. Ph©n tÝch vÒ sù cÇn thiÕt ph¶i tiÕn hµnh tÝnh to¸n gi¸ trÞ mét sè ®é ®o nµo ®ã

trong c¸c bµi to¸n khai ph¸ d÷ liÖu.

Ch­¬ng 2. C«ng nghÖ tri thøc vµ ph¸t hiÖn tri thøc tõ d÷ liÖu

Nh­ ®· ®­îc ®Ò cËp t¹i Ch­¬ng 1, thÕ giíi ngµy nay ®ang chuyÓn ®æi tõ

kinh tÕ hµng hãa (good economic) sang kinh tÕ dÞch vô (service economic). Ba

kh¸i niÖm kinh tÕ næi bËt lµ kinh tÕ tri thøc, kinh tÕ th«ng tin vµ kinh tÕ dÞch vô.

Sîi chØ ®á xuyªn suèt néi dung ba kh¸i niÖm kinh tÕ nãi trªn lµ tri thøc. Sö dông

tri thøc lµ ®éng lùc chñ chèt cho t¨ng tr­ëng kinh tÕ quèc gia, còng chÝnh lµ

®éng lùc chñ chèt cho t¨ng c­êng lîi thÕ c¹nh tranh cña doanh nghiÖp, tæ chøc.

Trong xu thÕ ph¸t triÓn ®ã, CNTT ngµy cµng kh¼ng ®Þnh tÇm quan träng chiÕn

l­îc. §Æc biÖt, ngµnh c«ng nghiÖp dùa trªn d÷ liÖu ®· ®­îc h×nh thµnh vµ ®ang

ph¸t triÓn víi tèc ®é cao. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong d÷ liÖu lµ

nÒn t¶ng cña ngµnh c«ng nghiÖp dùa trªn d÷ liÖu.

Ch­¬ng 1 còng ®· tr×nh bµy mét sè néi dung kh¸i qu¸t vÒ khai ph¸ d÷ liÖu

vµ ph¸t hiÖn tri thøc tõ d÷ liÖu. Ch­¬ng 2 sÏ giíi thiÖu chi tiÕt vÒ vai trß vµ néi

dung cña c«ng nghÖ tri thøc mµ mét néi dung c¬ b¶n trong ®ã lµ ph¸t hiÖn tri

thøc tõ d÷ liÖu.

2.1. Vai trß cña CNTT trong kinh tÕ tri thøc

Nghiªn cøu khoa häc liªn lÜnh vùc cho thÊy ph¸t triÓn CNTT vµ ph¸t triÓn

kinh tÕ cã mèi quan hÖ h÷u c¬ mËt thiÕt, trong ®ã c¸c quèc gia cã tr×nh ®é

CNTT ph¸t triÓn cao còng chÝnh lµ c¸c quèc gia cã nÒn kinh tÕ ph¸t triÓn cao. Tõ

vÞ thÕ ®­îc kú väng cã phÇn qu¸ c­êng ®iÖu vµ m¬ hå ban ®Çu, CNTT ngµy cµng

Page 31: KPDL_C1-6 & C10

61 62

kh¼ng ®Þnh vÞ thÕ chiÕn l­îc trong ph¸t triÓn kinh tÕ, trong t¨ng tr­ëng hiÖu qu¶

cña doanh nghiÖp vµ tæ chøc. Tuy nhiªn, cÇn cã mét nÒn t¶ng nhËn thøc chÝnh

x¸c vµ toµn diÖn vÒ vÞ thÕ chiÕn l­îc cña CNTT ®Ó x¸c ®Þnh chiÕn l­îc ph¸t triÓn

dùa trªn CNTT ®óng ®¾n vµ ng¨n ngõa ®­îc c¸c biÓu hiÖn sai lÖch trong nhËn

thøc vÒ vai trß cña CNTT, hoÆc theo h­íng ngé nhËn vµ l¹m dông vai trß cña

CNTT dÉn tíi l·ng phÝ, tham nhòng hoÆc theo h­íng phñ nhËn vÞ thÕ chiÕn l­îc

cña CNTT.

§Çu tiªn, môc con 2.1.1. giíi thiÖu mét sè luËn ®iÓm theo h­íng phñ nhËn

vÞ thÕ chiÕn l­îc cña CNTT, ®iÓn h×nh lµ luËn ®iÓm cña Robert M. Solow vµo

n¨m 1987 vµ luËn ®iÓm cña Nicolas Carr vµo nh÷ng n¨m 2003-2004. TiÕp theo,

nh»m cung cÊp mét sè néi dung lµm s¸ng tá vÞ thÕ chiÕn l­îc cña CNTT, kh¸i

niÖm vÒ kinh tÕ tri thøc vµ vai trß cña CNTT trong kinh tÕ tri thøc sÏ ®­îc giíi

thiÖu trong môc con 2.1.2.

2.1.1. NghÞch lý hiÖu qu¶ cña CNTT cña Robert Solow vµ luËn ®iÓm cña N. Carr

2.1.1.1. NghÞch lý hiÖu qu¶ cña CNTT

Vµo n¨m 1987, Robert M. Solow, mét nhµ kinh tÕ ng­êi Mü ®­îc tÆng gi¶i

th­ëng Nobel vÒ kinh tÕ, ph¸t biÓu "Chóng ta nh×n thÊy m¸y tÝnh ë mäi n¬i

ngo¹i trõ trong thèng kª hiÖu qu¶" (nguyªn v¨n: You can see the computer age

every where but in the productivity statistics) [Solow87]. Ph¸t biÓu nµy ®­îc

Erik Brynjolfsson [Bryn93] chØ dÉn nh­ lµ "nghÞch lý hiÖu qu¶ cña CNTT

(Productivity Paradox of Information Technology). Theo Erik Brynjolfsson,

thèng kª hiÖu qu¶ ®­îc R. M. Solow luËn cø trong nghÞch lý hiÖu qu¶ cña CNTT

®­îc diÔn t¶ nh­ d­íi ®©y.

- Trong bèn thËp niªn (1960- 1990), tû lÖ ®Çu t­ cho m¸y tÝnh cña n­íc Mü

tÝnh theo GDP t¨ng nhanh tõ 0,003 % GDP (thËp niªn 1960), 0,05% (thËp niªn

1970s), 0,3% (thËp niªn 1980s), tíi 3,1% (thËp niªn 1990s) nh­ng tû lÖ t¨ng

GDP trung b×nh theo n¨m l¹i gi¶m tõ 4,5% (thËp niªn 1960s) xuèng 2,95% (thËp

niªn 1970s) råi 2,75 (thËp niªn 1980s) vµ 2,20% (thËp niªn 1990s). T¨ng ®Çu tõ

CNTT cã vÎ nh­ kh«ng gãp phÇn vµo t¨ng GDP n­íc Mü nÕu kh«ng nãi lµ cßn

lµm gi¶m ®i.

- Theo thèng kª tõ hµng tr¨m ngh×n doanh nghiÖp Mü, ®Çu t­ CNTT tÝnh

theo ®Çu nh©n viªn vµ hiÖu qu¶ kinh doanh còng kh«ng cã mèi quan hÖ râ rµng,

kh«ng h­íng tíi kú väng "®Çu t­ CNTT t¨ng th× hiÖu qu¶ kinh doanh còng

t¨ng". Cã mét tr­êng hîp ®Æc biÖt, riªng víi c¸c doanh nghiÖp trong lÜnh vùc tµi

chÝnh – ng©n hµng, hiÖu qu¶ kinh doanh cã quan hÖ tû lÖ thuËn víi ®Çu t­

CNTT.

- TÝnh tr¹ng ®Çu t­ CNTT mét c¸ch l·ng phÝ còng diÔn ra ®èi víi mét bé

phËn c¸ nh©n vµ hé gia ®×nh.

E. Brynjolfsson [Bryn93] ®­a ra nhËn ®Þnh r»ng thùc chÊt c¸c hiÖn t­îng

trªn ®©y kh«ng thùc sù lµ nghÞch lý hiÖu qu¶ cña CNTT. T¸c gi¶ cung cÊp bèn

gi¶i thÝch d­íi ®©y vÒ c¸c hiÖn t­îng nãi trªn:

- Lçi ®o l­êng trong c«ng thøc tÝnh hiÖu qu¶. Lçi ®o l­êng thÓ hiÖn theo

hai khÝa c¹nh chÝnh. C«ng thøc tÝnh hiÖu qu¶ cña kinh tÕ cæ ®iÓn cã mét lçi lín

khi chØ ®o l­êng tµi nguyªn trùc tiÕp liªn quan tíi vèn, lao ®éng vµ gi¸ trÞ. Trong

thêi ®¹i kinh tÕ tri thøc (xu thÕ chuyÓn ®æi tõ kinh tÕ h­íng hµng hãa sang kinh

tÕ h­íng dÞch vô), c¸c yÕu tè tµi nguyªn gi¸n tiÕp (tri thøc nh©n viªn vµ tri thøc

doanh nghiÖp, tµi nguyªn quy tr×nh tæ chøc cña doanh nghiÖp...) ngµy cµng ®ãng

vai trß quan träng trong ph¸t triÓn kinh tÕ quèc gia vµ c¹nh tranh doanh nghiÖp

th× chóng cÇn ph¶i xuÊt hiÖn trong c«ng thøc tÝnh hiÖu qu¶ hiÖn ®¹i. H×nh 2.1

biÓu diÔn mét c«ng thøc ®o l­êng hiÖu qu¶ dÞch vô víi sù than gia cña nhiÒu yÕu

tè tµi nguyªn gi¸n tiÕp c¶ ë ®Çu vµo vµ ®Çu ra. L­u ý r»ng, ®o l­êng tµi nguyªn

gi¸n tiÕp (thuéc c¶ ®Çu ra lÉn ®Çu vµo) l¹i lµ mét bµi to¸n rÊt khã.

Page 32: KPDL_C1-6 & C10

63 64

H×nh 2.1 Mét c«ng thøc ®o l­êng hiÖu qu¶.

- Kh«ng gièng nh­ c¸c kho¶n ®Çu t­ c¬ së h¹ tÇng, ®Çu t­ CNTT cã mét kho¶ng thêi gian trÔ ®Ó ph¸t huy hiÖu qu¶. §iÒu nµy cã nguyªn nh©n tõ viÖc

nh©n viªn trong doanh nghiÖp ph¶i cã mét kho¶ng thêi gian (theo E.

Brynjolfsson, th­êng lµ 2-3 n¨m) míi cã thÓ sö dông thµnh th¹o c¸c c«ng cô cña

CNTT. T¸c gi¶ còng khuyÕn nghÞ vÒ viÖc cÇn thùc hiÖn gi¶i ph¸p rót ng¾n ®é trÔ

nµy.

- TÝnh ph©n phèi l¹i vÒ tµi nguyªn th«ng tin. Th«ng tin vµ tri thøc võa lµ tµi

nguyªn quan träng cña doanh nghiÖp song còng ®­îc coi lµ mét d¹ng "s¶n phÈm

hµng hãa c«ng céng", cho nªn, chi phÝ ®Çu t­ CNTT ®Ó ph¸t triÓn cña mét doanh

nghiÖp cã thÓ bÞ bao gãi thªm chi phÝ ®Çu t­ CNTT cho doanh nghiÖp kh¸c. §èi

víi t×nh huèng nµy, c¸c doanh nghiÖp cÇn ph¶i ®¶m b¶o ®­îc mét yªu cÇu lµ

trong vßng ®êi cña th«ng tin vµ tri thøc cña doanh nghiÖp, chóng ph¶i lµm lîi

nhiÒu nhÊt cho chÝnh b¶n th©n doanh nghiÖp ®· ®Çu t­.

- Sai lÇm trong qu¶n lý ®Çu t­ CNTT. C¸c kho¶n ®Çu t­ CNTT ®­îc thi

hµnh song quyÕt ®Þnh ®Çu t­ chóng l¹i cã thÓ kh«ng ®­îc ®Þnh h­íng tíi lîi Ých

cña doanh nghiÖp. T×nh tr¹ng nµy cã nguyªn nh©n tõ c¸c quyÕt ®Þnh ®Çu t­ lµ

láng lÎo dÉn tíi viÖc x©y dùng c¸c hÖ thèng kh«ng hiÖu qu¶, hoÆc ®¬n gi¶n lµ sö

dông c¸c chiÕn l­îc t¹o quyÕt ®Þnh lçi thêi khi quyÕt ®Þnh ®Çu t­ CNTT. Sö

dông chÝnh c«ng cô CNTT, ®Æc biÖt lµ c«ng cô khai ph¸ d÷ liÖu, lµ mét biÖn

ph¸p kh¾c phôc ®­îc hiÖn t­îng nµy. L­u ý r»ng, ë ®©y kh«ng ®Ò cËp tíi mét

vÊn ®Ò tiªu cùc x· héi lµ tham nhòng trong ®Çu t­ cho CNTT.

Nh­ vËy, ngay tõ nh÷ng n¨m ®Çu tiªn cña thËp niªn 1990, c¸c nhµ khoa

häc ®· kh¼ng ®Þnh ®­îc r»ng "nghÞch lý hiÖu qu¶ cña CNTT" lµ kh«ng ®óng

trong thùc tiÔn. Kh«ng nh÷ng thÕ, vai trß chiÕn l­îc cña CNTT ngµy cµng ®­îc

nhÊn m¹nh trong ph¸t triÓn kinh tÕ tri thøc [OECD96]. Tuy nhiªn, mét vµi nhµ

kinh tÕ, ®iÓn h×nh lµ Nicolas Car, vÉn b¶o thñ vµ bµy tá mèi nghi ngê vÒ vai trß

chiÕn l­îc cña CNTT.

2.1.1.2. LuËn ®iÓm cña N. Carr

Vµo n¨m 2003, N. Carr tr×nh bµy mét sè luËn ®iÓm sau ®©y phñ nhËn vai

trß chiÕn l­îc cña CNTT [Carr03]:

- CNTT xuÊt hiÖn kh¾p n¬i vµ tÇm quan träng chiÕn l­îc cña nã ®· gi¶m.

C¸ch tiÕp cËn ®Çu t­ vµ qu¶n lý CNTT cÇn ph¶i ®­îc thay ®æi mét c¸ch ®¸ng kÓ

!

- Khi mét tµi nguyªn (ý nãi CNTT) trë thµnh b¶n chÊt ®Ó c¹nh tranh nh­ng

®· kh«ng quan träng cho chiÕn l­îc th× rñi ro mµ nã t¹o ra l¹i trë nªn quan träng

h¬n so víi c¸c lîi thÕ mµ nã cung cÊp.

- Víi viÖc nhanh chãng biÕn mÊt c¸c c¬ héi ®¹t ®­îc lîi thÕ chiÕn l­îc tõ

CNTT, nhiÒu doanh nghiÖp cÇn ph¶i cã mét c¸i nh×n nghiªm kh¾c trong ®Çu t­

vµo CNTT vµ qu¶n lý c¸c hÖ thèng cña hä.

§ång thêi, N. Carr ®­a ra ba quy t¾c h­íng dÉn cho t­¬ng lai víi ®Þnh

h­íng phñ nhËn vai trß chiÕn l­îc cña CNTT. N¨m 2005, N. Carr l¹i c«ng bè

mét bµi viÕt kh¸c [Carr05] nh»m cñng cè c¸c luËn ®iÓm trªn ®©y. LuËn ®iÓm phñ

nhËn vai trß chiÕn l­îc cña CNTT mµ N. Carr ph¸t biÓu ®· t¹o ra mét lµn sãng

Page 33: KPDL_C1-6 & C10

65 66

ph¶n b¸c m¹nh mÏ. ChÝnh v× vËy, N. Carr ®· lät vµo danh s¸ch 100 ng­êi cã tªn

®­îc nh¾c ®Õn nhiÒu nhÊt trªn thÕ giíi.

Sai lÇm cña N. Carr lµ ë chç «ng ®· quan niÖm CNTT nh­ lµ mét lo¹i c«ng

nghÖ h¹ tÇng (gièng nh­ ®iÖn n¨ng), tõ ®ã dÉn ®Õn viÖc kh«ng nhËn thøc ®­îc

vai trß chiÕn l­îc cña CNTT trong ph¸t triÓn tri thøc quèc gia còng nh­ tri thøc

doanh nghiÖp. Th«ng qua c¸c ph©n tÝch liªn quan tíi 11 nhËn ®Þnh cña N. Carr,

Paul A. Strassmann (Executive Advisor, NASA; Former CIO of General Foods,

Kraft, Xerox, the Department of Defense, and NASA) ®· lµm s¸ng tá c¸c sai lÇm

trong c¸c bµi viÕt cña N. Carr14.

Tuy nhiªn, t­¬ng tù nh­ gi¶i thÝch "nghÞch lý hiÖu qu¶ cña CNTT" tõ yÕu

kÐm trong qu¶n lý ®Çu t­ CNTT, khuyÕn c¸o vÒ c¸ch thøc tiÕp cËn ®Çu t­ vµ

qu¶n lý CNTT cña N. Carr còng mang ý nghÜa tÝch cùc. D­íi ®©y lµ mét sè nhËn

®Þnh cña mét sè nhµ qu¶n lý liªn quan tíi khuyÕn c¸o nµy1:

- NÕu cã mét ®iÒu mµ chóng ta häc ®­îc tõ nh÷ng n¨m 1990 lµ sù khëi

®Çu dùa trªn CNTT, t­ëng nh­ mét vô næ vò trô nh­ng l¹i hiÕm khi t¹o ra mét

®Òn ®¸p t­¬ng xøng nh­ kú väng. NhÏ ra ph¶i gióp c¸c doanh nghiÖp hiÓu r»ng

CNTT chØ lµ mét c«ng cô, c¸c nhµ cung cÊp c«ng nghÖ l¹i nh»m tíi nã nh­ mét

thuèc b¸ch bÖnh “Mua c«ng nghÖ nµy ®i vµ c¸c vÇn ®Ò cña anh sÏ ®­îc gi¶i

quyÕt !” (John Seely Brown, Former Chief Scientist, Xerox Palo Alto, California

vµ John Hagel III, Management Consultant and Author, Burlingame, California).

- C«ng viÖc cña CTO (Chief Of Technical: ng­êi ®øng ®Çu bé phËn c«ng

nghÖ) vµ CIO (Chief Of Information: ng­êi ®øng ®Çu vÒ th«ng tin) cña tæ chøc

sÏ trë nªn quan träng ch­a tõng cã trong c¸c thËp niªn tiÕp theo. Gãi kü n¨ng

cÇn thiÕt trong mét tæ chøc sÏ thay ®æi rÊt nhanh ®Ó c¹nh tranh trong thêi ®¹i

th«ng tin (F. Warren McFarlan, Albert H. Gordon Professor of Business

Administration, Harvard Business School, Boston vµ Richard L. Nolan, William

Barclay Harding Professor of Business Administration, Harvard Business

School, Boston)

14 Harvard Bussiness Review, June 2003

- T«i ®ång t×nh nhiÒu víi khuyÕn c¸o cña Nicholas Carr vÒ c¸ch thøc c¸c

doanh nghiÖp nªn cã ph¶n øng víi mét thùc tÕ kh«ng thÓ chÞu ®ùng ®­îc lµ

CNTT ®· trë thµnh mét lo¹i hµng hãa. Nh­ng t¹i sao Carr l¹i khuyÕn c¸o c¸c

®iÒu lo l¾ng tíi c¸c nhµ qu¶n lý CNTT ? Ph¶i ch¨ng lµ v× c¸c bµi to¸n l·nh ®¹o

nh­ qu¶n lý vµ kiÓm so¸t rñi ro vÒ kinh phÝ Ýt høa hÑn hoÆc th¸ch thøc h¬n so víi

viÖc theo ®uæi lîi thÕ c¹nh tranh ? CNTT lu«n lu«n quan träng – lµ vÊn ®Ò

trong mäi quan niÖm. CNTT b¾t buéc hç trî kinh doanh – kh«ng chØ b»ng ¸p

dông l«gÝc vÒ c«ng nghÖ mµ cßn b»ng ¸p dông l«gic vÒ b¶n chÊt chung (Jason

Hittleman, IT Director, RKA Petroleum Companies, Romulus, Michigan).

Liªn quan tíi ®Çu t­ cho CNTT, th«ng qua viÖc kh¶o s¸t vÒ ®Çu t­ vµ hiÖu

qu¶ CNTT cña trªn 5700 doanh nghiÖp Mü, Paul A. Strassmann ®· ®­a ra mét

sè khuyÕn nghÞ [Strass07]:

- Cã thÓ chi tiªu cho CNTT h¬n hoÆc kÐm so víi møc trung b×nh cña c¸c

doanh nghiÖp ®ång h¹ng (gäi lµ møc th«ng th­êng), nh­ng vÒ tæng thÓ th× chi

tiªu nh­ thÕ cÇn ®­a tíi hiÖu qu¶ ®o l­êng ®­îc mµ kh«ng ph¶i chØ lµ hiÖu qu¶

nãi chung.

- Cã thÓ chi tiªu cho CNTT h¬n møc th«ng th­êng khi mµ hiÖu qu¶ th«ng

tin ®¹t ®­îc vÉn h¬n møc th«ng th­êng.

- Cã thÓ chi tiªu cho CNTT h¬n møc th«ng th­êng khi mµ gi¸ trÞ tri thøc

cña nh©n viªn ®¹t ®­îc vÉn h¬n møc th«ng th­êng.

Nh­ vËy, hiÖu qu¶ ®Çu t­ CNTT trong doanh nghiÖp cÇn ph¶i ®o l­êng

®­îc vµ ®­îc ®o l­êng theo nhiÒu tiªu chÝ, trong ®ã hiÖu qu¶ th«ng tin vµ hiÖu

qu¶ vÒ gi¸ trÞ tri thøc cña nh©n viªn ®­îc Paul A. Strassmann coi lµ hai tiªu chÝ

quan träng. §iÒu nµy hoµn toµn phï hîp víi c«ng thøc tÝnh hiÖu qu¶ trong lý

thuyÕt kinh tÕ hiÖn ®¹i, trong c«ng thøc ®ã, gi¸ trÞ tri thøc võa lµ yÕu tè ®Çu vµo,

võa lµ yÕu tè ®Çu ra. Theo Mårten Simonsson [Simon08], doanh nghiÖp ®­¬ng

®¹i phÇn lín phô thuéc vµo CNTT, v× vËy viÖc ra quyÕt ®Þnh vÒ CNTT cña doanh

nghiÖp cã ý nghÜa rÊt quan träng.

Page 34: KPDL_C1-6 & C10

67 68

2.1.2. Vai trß cña CNTT trong nÒn Kinh tÕ tri thøc

Theo Ng©n hµng thÕ giíi [WB2006], “nÒn kinh tÕ tri thøc (Knowledge

Economy) hay nÒn kinh tÕ dùa trªn tri thøc (Knowledge-Based Economy) lµ nÒn

kinh tÕ mµ viÖc sö dông tri thøc lµ ®éng lùc chñ yÕu cho t¨ng tr­ëng kinh tÕ”.

Ph¸t biÓu trªn ®©y kh¼ng ®Þnh vai trß “tµi nguyªn chñ yÕu” cña tri thøc trong nÒn

kinh tÕ. C¸c quèc gia cã nÒn kinh tÕ ph¸t triÓn nhÊt còng chÝnh lµ c¸c quèc gia

cã tr×nh ®é kinh tÕ tri thøc cao nhÊt, vµ ng­îc l¹i, c¸c quèc gia nghÌo nhÊt còng

chÝnh lµ c¸c quèc gia cã tr×nh ®é kinh tÕ tri thøc thÊp nhÊt15.

NÒn kinh tÕ tri thøc dùa trªn bèn cét trô:

(1) Mét thiÕt chÕ x· héi ph¸p quyÒn vµ khuyÕn khÝch kinh tÕ (An economic

incentive and institutional regime);

(2) mét lùc l­îng lao ®éng ®­îc gi¸o dôc vµ lµnh nghÒ (An educated and skilled labor force);

(3) mét hÖ thèng c¸ch t©n h­íng tri thøc hiÖu qu¶ (a effective innovation

system);

(4) mét h¹ tÇng th«ng tin hiÖn ®¹i vµ ®Çy ®ñ (a modern and adequate

information infrastructure).

§Ó n©ng cao tr×nh ®é kinh tÕ tri thøc th«ng qua c¸c cét trô kinh tÕ tri thøc,

c¸c quèc gia kinh tÕ ph¸t triÓn nhÊt thÕ giíi ®· chó träng t¨ng c­êng ®Çu t­ vÒ tri

thøc, chó träng ®Çu t­ cho nghiªn cøu-ph¸t triÓn, phÇn mÒm vµ gi¸o dôc ®¹i häc.

Cã thÓ lÊy mét vÝ dô tõ bµi häc Hµn Quèc1. Gi¸o dôc vµ nguån nh©n lùc lµ hai

yÕu tè tµi nguyªn tri thøc ®ãng gãp chñ chèt cho sù t¨ng tr­ëng kinh tÕ kú diÖu

cña Hµn Quèc trong suèt bèn thËp niªn 1960-1990. Vµo n¨m 2004, phÇn ®ãng

gãp cña tµi nguyªn tri thøc cho sù t¨ng tr­ëng GDP tÝnh theo ®Çu ng­êi ®· gÊp

h¬n ba lÇn so víi phÇn ®ãng gãp cña tµi nguyªn c¬ b¶n (bao gåm vèn vµ lao

®éng). Trong [WB06], Ng©n hµng thÕ giíi cung cÊp sè liÖu vÒ tû lÖ ®Çu t­ tÝnh

theo GDP cho tri thøc (®Çu t­ cho nghiªn cøu-triÓn khai, cho phÇn mÒm vµ cho

gi¸o dôc ®¹i häc) vµ ®Çu t­ cho m¸y mãc vµ trang thiÕt bÞ cña c¸c nÒn kinh tÕ

15 http://info.worldbank.org/etools/kam2/KAM_page5.asp.

ph¸t triÓn nhÊt thÕ giíi vµo n¨m 2002 cho thÊy ®Çu t­ cho tri thøc chiÕm mét tû

träng cao. H¬n n÷a, trong giai ®o¹n 1994-2002, xu thÕ chung t¹i c¸c nÒn kinh tÕ

ph¸t triÓn nhÊt thÕ giíi lµ tû lÖ ®Çu t­ tÝnh theo GDP cho tri thøc t¨ng vµ tû lÖ

®Çu t­ tÝnh theo GDP cho m¸y mãc vµ trang thiÕt bÞ gi¶m. Theo thèng kª vµo

n¨m 2010 cña Tæ chøc hîp t¸c vµ ph¸t triÓn kinh tÕ (Organisation for Economic

Co-operation and Development: OECD), tæng ®Çu t­ néi ®Þa cho R&D tÝnh theo

GDP vµo n¨m 2008 lµ cao h¬n so víi n¨m 1999 ë ®a sè c¸c quèc gia (31/41)

thuéc tæ chøc nµy, ®­a tû lª ®Çu t­ cho R&D trung b×nh cña toµn khèi OECD

t¨ng tõ 2,16% GDP n¨m 1999 lªn 2,28% GDP n¨m 200816.

ViÖc sö dông tri thøc trong nÒn kinh tÕ tri thøc ®­îc diÔn ra trong c¸c lo¹i

ho¹t ®éng lµ yªu cÇu tri thøc, ph¸t sinh tri thøc, phæ biÕn tri thøc vµ vËn dông tri

thøc mét c¸ch hiÖu qu¶ cho t¨ng tr­ëng kinh tÕ. ë cÊp ®é quèc gia, tri thøc lµ

nguån tµi nguyªn chñ yÕu cho t¨ng tr­ëng kinh tÕ, cßn ë cÊp ®é doanh nghiÖp,

tri thøc lµ nguån t¹o ra lîi thÕ c¹nh tranh cho doanh nghiÖp.

H×nh 2.2 VÝ trÝ cña CNTT trong kinh tÕ vÜ m« [MKG04].

16 http://dx.doi.org/10.1787/820860264335

Page 35: KPDL_C1-6 & C10

69 70

Nigel Melville vµ céng sù [MKG04] ®· cho mét khung kinh tÕ vÜ m« víi sù

tham gia cña CNTT (H×nh 2.2), trong ®ã tËp trung vµo vÞ trÝ trong c¸c doanh

nghiÖp ®Þa ph­¬ng.

H×nh 2.3 Khung x¸c ®Þnh m« h×nh kinh doanh (tr¸i) vµ vÞ trÝ cña m« h×nh kinh doanh trong doanh nghiÖp (ph¶i) [SG10].

S¬ ®å bªn ph¶i cña H×nh 2.3 cho thÊy mét g¾n kÕt bé ba mËt thiÕt gi÷a Tæ

chøc kinh doanh, ChiÕn l­îc kinh doanh vµ C«ng nghÖ Th«ng tin – TruyÒn

th«ng (CNTT-TT) vµ ®iÒu nµy cµng kh¼ng ®Þnh vai trß chiÕn l­îc cña ICT ®èi

víi tæ chøc. Tham gia vµo bé ba ®ã, Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷

liÖu ®­îc coi lµ mét bé phËn tÝch cùc cña CNTT.

Vai trß chiÕn l­îc cña CNTT cßn ®­îc thÓ hiÖn ë chç, c¸c hÖ thèng cung

cÊp th«ng tin (nãi chung) còng nh­ c¸c øng dông khai ph¸ d÷ liÖu (nãi riªng) t¹i

c¸c doanh nghiÖp ®Òu cÇn ph¶i xuÊt ph¸t tõ yªu cÇu kinh doanh cña doanh

nghiÖp. Nh­ vËy, nh»m t¨ng c­êng tri thøc t¹i doanh nghiÖp, c¸c bµi to¸n khai

ph¸ d÷ liÖu ®­îc ®Æt ra vµ chóng cã ®iÓm xuÊt ph¸t tõ nhu cÇu kinh doanh vµ

phôc vô chiÕn l­îc kinh doanh cña doanh nghiÖp.

Vai trß chiÕn l­îc cña CNTT ®èi víi doanh nghiÖp cµng trë nªn ®Æc biÖt

quan träng trong giai ®o¹n suy tho¸i kinh tÕ. Dù b¸o vÒ th«ng minh kinh doanh

n¨m 2009 cña Gartner ®· minh chøng cho nhËn ®Þnh nµy17. Nãi riªng, cïng víi

dù b¸o h¬n 35% trong sè 5.000 doanh nghiÖp toµn cÇu hµng ®Çu sÏ thÊt b¹i

trong viÖc ra quyÕt ®Þnh s©u s¾c vÒ sù thay ®æi ®¸ng kÓ trong kinh doanh vµ thÞ

tr­êng do suy tho¸i kinh tÕ, Bill Hostmann (Phã chñ tÞch nghiªn cøu vµ ph©n

tÝch cña Gartner) khuyÕn nghÞ "Nhµ l·nh ®¹o CNTT trong c¸c doanh nghiÖp cã

nÒn v¨n hãa qu¶n lý m¹nh dùa trªn th«ng tin nªn t¹o mét lùc l­îng ®Æc nhiÖm

®Ó ®¸p øng sù thay ®æi nhu cÇu th«ng tin vµ ph©n tÝch ®iÒu hµnh. Nhµ l·nh ®¹o

CNTT trong c¸c doanh nghiÖp ch­a cã v¨n hãa nh­ vËy nªn so¹n th¶o c¸c v¨n

b¶n vÒ chi phÝ vµ ph­¬ng h­íng ®Ó thÝch nghi víi ®iÒu kiÖn míi vµ ®Ò xuÊt mét

tr­êng hîp kinh doanh cho ®Çu t­ h¹ tÇng th«ng tin, quy tr×nh vµ c«ng cô hç trî

ra quyÕt ®Þnh".

Nh÷ng néi dung ®­îc tr×nh bµy vÒ tri thøc vµ C«ng nghÖ tri thøc (Knowledge Technology) ë môc 2.2 tiÕp theo sÏ lµm s¸ng tá thªm vai trß chiÕn l­îc cña CNTT trong nÒn kinh tÕ vµ cho doanh nghiÖp.

2.1.2. Vai trß cña gi¸m ®èc th«ng tin trong doanh nghiÖp vµ tæ chøc

Cïng víi sù h×nh thµnh vµ ph¸t triÓn cña ngµnh c«ng nghiÖp d÷ liÖu, cïng

víi sù ph¸t triÓn kinh tÕ tri thøc, tµi nguyªn tri thøc nãi chung vµ gãi kü n¨ng

cÇn thiÕt nãi riªng cña mét tæ chøc cÇn ®­îc thay ®æi mét c¸ch kÞp thêi ®Ó c¹nh

tranh trong thêi ®¹i th«ng tin. Sù thµnh c«ng cña mét tæ chøc phô thuéc m¹nh

vµo nhËn thøc mét c¸ch hÖ thèng vÒ m«i tr­êng xung quanh vµ néi bé cña tæ

chøc còng nh­ c¸c chÝnh s¸ch vµ chiÕn l­îc cña tæ chøc ®­îc th«ng qua mµ hÖ

thèng th«ng tin tæ chøc cã vai trß rÊt quan träng.

Gi¸m ®èc bé phËn th«ng tin (CIO) trong mét tæ chøc cã tr¸ch nhiÖm qu¶n

lý toµn bé th«ng tin vµ c«ng cô hç trî viÖc qu¶n lý th«ng tin, lµ ®iÓm trung gian

gi÷a c¸c môc tiªu kinh doanh hµng ®Çu cña tæ chøc víi chøc n¨ng ®¶m b¶o

th«ng tin trong suèt. Theo nghiÖp vô, CIO cÇn ®Þnh danh vµ tæng hîp th«ng tin

cña tæ chøc vµ cho phÐp c¸c nhµ qu¶n lý cao cÊp truy cËp chóng. Ngoµi ra, CIO

17 http://www.gartner.com/it/page.jsp?id=856714

Page 36: KPDL_C1-6 & C10

71 72

cÇn x¸c ®Þnh c¸c th«ng tin ®­îc sö dông, thiÕt lËp chÝnh s¸ch th«ng tin vµ tiªu

chuÈn, duy tr× kiÓm so¸t qu¶n lý trªn tÊt c¶ c¸c tµi nguyªn th«ng tin trong bÊt kú

ph­¬ng tiÖn truyÒn th«ng.

Ngµy nay, CIO ®ãng vai trß trung t©m vµ cùc kú quan träng ho¹t ®éng

qu¶n lý hÖ thèng th«ng tin ®¶m b¶o sù g¾n kÕt CNTT vµo chiÕn l­îc ph¸t triÓn

tæ chøc, v× vËy vai trß tham gia ®iÒu hµnh cña CIO trong doanh nghiÖp ngµy

cµng næi bËt. NhiÒu c«ng tr×nh nghiªn cøu vÒ vai trß vµ ®Æc tr­ng cña CIO ®·

®­îc c«ng bè. Nh÷ng néi dung ®­îc tr×nh bµy d­íi ®©y ®­îc tæng hîp tõ c¸c tµi

liÖu kh¶o s¸t quan träng vÒ néi dung nµy [Haw04, Hunter10, Line07, PCVM10].

ý kiÕn trao ®æi cña CIO cña 16 doanh nghiÖp hµng ®Çu thÕ giíi18 ®­îc E.

Yourdon [Your11] biªn tËp lµ nh÷ng néi dung tham kh¶o tèt vÒ vai trß vµ ®Æc

tr­ng cña CIO hiÖn nay.

2.1.2.1. Vai trß cña CIO

CIO cã vai trß cña mét thµnh viªn cña ®éi qu¶n lý cao cÊp (Top

Management Team: TMT) cña tæ chøc. CIO ph©n biÖt víi c¸c thµnh viªn kh¸c

cña ®éi qu¶n lý cao cÊp do ®Æc thï cña chøc n¨ng qu¶n lý hÖ thèng th«ng

tin.Mèi quan hÖ chÆt chÏ gi÷a CEO vµ CIO trong doanh nghiÖp gãp phÇn n©ng

cao hiÖu suÊt c¶i tiÕn quy tr×nh kinh doanh (Business Process Improvement: BPI)

vµ n¨ng lùc c¬ së h¹ tÇng CNTT. CIO ph¶i lµ ng­êi tham gia vµo qu¸ tr×nh lËp

kÕ ho¹ch chiÕn l­îc tæng thÓ cho doanh nghiÖp. Trong mét sè tr­êng hîp, CIO

cã thÓ kh«ng lµ thµnh viªn cña ®éi qu¶n lý cao cÊp, th× lóc ®ã, CIO nªn b¸o c¸o

tíi mét thµnh viªn ®éi qu¶n lý cao cÊp kh«ng lµ CEO (ch¼ng h¹n, gi¸m ®èc tµi

chÝnh - The chief Financial Officer: CFO).

CIO lµ ng­êi qu¶n lý hÖ thèng c«ng nghÖ vµ tµi nguyªn th«ng tin, chÞu

tr¸ch nhiÖm c¸ nh©n vÒ lËp kÕ ho¹ch CNTT, vÒ ph¸t triÓn c¸c hÖ thèng CNTT

míi, vÒ x©y dùng chÝnh s¸ch CNTT.

18 Benjamin Fried, Tony Scott, Monte Ford, Mittu Sridhara, Steve Rubinow, Lewis Temares,

Mark Mooney, Dan Wakeman, Lynne Ellyn, Becky Blalock, Ken Bohlen, Roger Gurnani,

Ashish Gupta, Joan Miller, Vivek Kundra, Paul Strassmann

2.1.2.2. Kü n¨ng chÝnh cña CIO

§Ó ®¸p øng vai trß quan träng trong tæ chøc, CIO cÇn cã n¨ng lùc cña mét

chuyªn gia cã nhËn thøc vµ th¸u hiÓu c«ng nghÖ vµ qu¸ tr×nh kinh doanh, chiÕn

l­îc hµnh ®éng cña tæ chøc vµ ®¸p øng ®­îc nh÷ng thay ®æi vµ nhu cÇu thÞ

tr­êng, cã kh¶ n¨ng t­¬ng t¸c vµ giao tiÕp hiÖu qu¶ víi ng­êi qu¶n lý cao cÊp,

®éi qu¶n lý cao cÊp, còng nh­ m«i tr­êng tæ chøc, vµ ®¶m b¶o r»ng tæ chøc ®i

theo sù s¸ng t¹o trong m«i tr­êng doanh nghiÖp. C¸c kü n¨ng chÝnh d­íi ®©y lµ

thÓ hiÖn cô thÓ hãa n¨ng lùc chung nãi trªn cña CIO:

- N¨ng lùc t­ duy vµ hµnh ®éng chiÕn l­îc: T­ duy vµ hµnh ®éng chiÕn

l­îc lµ kü n¨ng quan träng ®èi víi mét CIO, bëi v× chØ víi t­ duy vµ hµnh ®éng

chiÕn l­îc, CIO míi gióp tæ chøc ®¸p øng víi nh÷ng thay ®æi trªn thÞ tr­êng.

Thªm n÷a, t­ duy vµ hµnh ®éng chiÕn l­îc míi gióp CIO cã ¶nh h­ëng v­ît ra

ngoµi bé phËn CNTT.

- N¨ng lùc hµnh ®éng nhanh chãng: ChØ cã kh¶ n¨ng hµnh ®éng nhanh

chãng, CIO míi cã thÓ hoµn thµnh dù ¸n ®óng kÕ ho¹ch. NÕu dù ¸n kh«ng hoµn

thµnh theo ®óng tiÕn ®é kÕ ho¹ch vµ nguån lùc sÏ lµm suy yÕu ®é tin cËy cña c¸c

chøc n¨ng IS trong c¸c tæ chøc.

- N¨ng lùc hßa gi¶i xung ®ét: CIO cã tr¸ch nhiÖm gi¶i quyÕt c¸c t×nh

huèng xung ®ét trong bé phËn th«ng tin dùa trªn n¨ng lùc nÒn t¶ng vÒ mèi quan

hÖ con ng­êi vµ c¸c ý niÖm vÒ biÕn ®æi t©m lý vµ x· héi häc.

- N¨ng lùc l·nh ®¹o vµ ®éng viªn ®éi lµm viÖc: CIO ph¶i cã n¨ng lùc t¹o

nªn ®éng lùc vµ dÉn d¾t bé phËn ¸p dông kü thuËt vµ kü n¨ng ®Ó gi¶i quyÕt c¸c

vÊn ®Ò vµ hoµn thµnh dù ¸n trong thêi h¹n cho phÐp.

- N¨ng lùc qu¶n lý dù ¸n: CIO ph¶i cã n¨ng lùc qu¶n lý dù ¸n trong bèi

c¶nh tæ chøc, bao gåm c¸c qu¸ tr×nh liªn quan ®Õn khëi ®éng, lËp kÕ ho¹ch, thùc

hiÖn, gi¸m s¸tt, vµ hoµn thiÖn dù ¸n, còng nh­ qu¶n lý tÝch hîp, ph¹m vi, thêi

gian, chi phÝ, gi¸m s¸t, chÊt l­îng vµ rñi ro ®èi víi dù ¸n.

- N¨ng lùc giao tiÕp: Giao tiÕp lµ mét n¨ng lùc quan träng ®Ó lµm viÖc hiÖu

qu¶ víi c¸c ®èi t¸c kinh doanh trong viÖc t×m hiÓu vµ n¾m b¾t c¸c nhu cÇu kinh

doanh kh¸c nhau.

Page 37: KPDL_C1-6 & C10

73 74

- N¨ng ®æi míi c«ng nghÖ: CIO ph¶i thùc hiÖn nghiªn cøu vµ ®¸nh gi¸ c¸c

c«ng nghÖ míi næi, xem xÐt lµm phï hîp tiÒm n¨ng cña c¸c c«ng nghÖ nµy víi

yªu cÇu tæ chøc vµ t¹o c¸c c¬ héi kinh doanh míi.

- Kh¶ n¨ng quan hÖ c¸ nh©n: Cã kü n¨ng vµ sù s¸ng suèt lµm viÖc víi ®ång

nghiÖp dùa trªn viÖc thÊu hiÓu ®­îc hµnh vi vµ ®éng lùc cña ®ång nghiÖp vµ tiÕn

hµnh sù l·nh ®¹o hiÖu qu¶.

- Kh¶ n¨ng t¹o vµ c¬ cÊu ®éi lµm viÖc: CIO cã tr¸ch nhiÖm tuyÓn dông vµ

duy tr× ®éi trong bé phËn th«ng tin. CIO cã n¨ng lùc x¸c ®Þnh ®óng c¸c vai trß

cña ®éi lµm viÖc vµ ¸nh x¹ tõng vai trß tíi c¸c thµnh viªn trong ®éi. N¨ng lùc

ph©n tÝch quy tr×nh lµm viÖc cña CIO thóc ®Èy ho¹t ®éng cña ®éi.

- Kü n¨ng ®µm ph¸n: Kh¶ n¨ng ®µm ph¸n lµ rÊt quan träng ®Ó mét CIO

[31], ®Ó cã thÓ ®Ó lµm cho th­¬ng m¹i-off mµ kh«ng ¶nh h­ëng mèi quan hÖ

hiÖn cã.

- Kh¶ n¨ng thÝch øng víi thay ®æi: Kh¶ n¨ng thÝch øng víi thay ®æi cho

phÐp mét l·nh ®¹o tèt h¬n cña c¸c qu¸ tr×nh

- Cã tri thøc kinh doanh: CIO ph¶i cã mét tri thøc võa réng võµ chuyªn s©u

vÒ c¸c ph­¬ng diÖn kü thuËt vµ kinh doanh ®Ó cã thÓ phèi hîp hiÖu qu¶ trong

qu¸ tr×nh c¹nh tranh. §Ó ph¸t triÓn mét chiÕn l­îc nhÊt qu¸n víi c¸c gi¸ trÞ vµ

v¨n hãa tæ chøc, th× cÇn thiÕt ph¶i hiÓu m«i tr­êng tæ chøc th«ng qua sù hiÓu

biÕt vÒ c¬ cÊu tæ chøc, nguån nh©n lùc vµ kü n¨ng cña hä, c¸c mèi quan hÖ hiÖn

cã (chÝnh thøc hoÆc kh«ng chÝnh thøc), phong c¸ch qu¶n lý , c¸c mèi quan hÖ

bªn ngoµi v.v..

- Tr×nh ®é kü thuËt: Tuy vai trß h­íng tíi kinh doanh ngµy cµng t¨ng

nh­ng CIO vÉn cÇn thùc hiÖn tr¸ch nhiÖm qu¶n lý ho¹t ®éng c«ng nghÖ mét

c¸ch hiÖu qu¶. Th¸ch thøc ®èi víi CIO lµ cÇn gi÷ mét møc ®é thÝch hîp kü n¨ng

kü thuËt mµ kh«ng x¶y ra nguy c¬ cho ®Þnh h­íng kinh doanh cña tæ chøc.

- N¨ng lùc ra quyÕt ®Þnh: Ra quyÕt ®Þnh lµ mét trong nh÷ng kü n¨ng chÝnh

hoÆc vai trß chÝnh cña c¸c nhµ qu¶n lý cña tæ chøc. Khi ®­îc c«ng nhËn ë trung

t©m cña qu¸ tr×nh ra quyÕt ®Þnh, CIO tham gia chØ ®¹o tæ chøc tíi nh÷ng c¬ héi

míi ®Ó t¨ng kh¶ n¨ng c¹nh tranh.

2.2. C«ng nghÖ tri thøc

T»ng c­êng tri thøc cho c¸ nh©n, doanh nghiÖp vµ x· héi lµ mét yªu cÇu

cña mäi quèc gia trong xu thÕ ph¸t triÓn kinh tÕ tri thøc hiÖn nay. S¬ ®å d­íi ®©y

thÓ hiÖn m« h×nh dÞch vô, yÕu tè kinh tÕ c¬ b¶n [Spoh06]:

S¬ ®å qu¸ tr×nh dÞch vô nh­ tr×nh bµy trªn ®©y cho thÊy mèi quan hÖ cña ba

thµnh phÇn lµ khoa häc, c«ng nghÖ vµ qu¶n lý. Khoa häc thi hµnh b­íc chuyÓn

hãa th«ng tin vµ d÷ liÖu thµnh tri thøc; c«ng nghÖ thi hµnh b­íc chuyÓn hãa tri

thøc thµnh gi¸ trÞ; toµn bé qu¸ tr×nh hai b­íc nãi trªn cÇn ®­îc qu¶n lý tèt.

C«ng nghÖ tri thøc lµ thµnh phÇn tÝch cùc cña CNTT tham gia vµo c¶ giai

®o¹n chuyÓn hãa d÷ liÖu – th«ng tin thµnh tri thøc vµ c¶ giai ®o¹n chuyÓn hãa

tri thøc thµnh gi¸ trÞ. Môc nµy ®Ò cËp tíi hai kh¸i niÖm tri thøc vµ c«ng nghÖ tri

thøc cïng mét sè néi dung liªn quan.

2.2.1. Kh¸i niÖm tri thøc

Ch­¬ng 1 cung cÊp mét c¸ch hiÓu vÒ kh¸i niÖm tri thøc khi ®Æt kh¸i niÖm

nµy trong bèi c¶nh cña ph¸t hiÖn tri thøc trong d÷ liÖu “lµ nh÷ng mÉu míi, cã

gi¸ trÞ, h÷u dông, tiÒm Èn trong d÷ liÖu”. Theo C. Grube [Grube09], cã hai dßng

nghiªn cøu tiÕp cËn tíi tri thøc, ®ã lµ, (1) tiÕp cËn theo khung nh×n triÕt häc vµ

t©m lý häc dùa trªn nhËn thøc luËn, vµ (2) tiÕp cËn kinh tÕ häc theo khung nh×n

dùa trªn tri thøc cña doanh nghiÖp. Khung nh×n triÕt häc vµ t©m lý häc ®­îc thÓ

hiÖn ë hÇu hÕt néi dung trong khi khung nh×n kinh tÕ häc ®­îc thÓ hiÖn t¹i môc

tri thøc cña doanh nghiÖp.

B¶ng 2.1. Quan hÖ mét sè cÆp tri thøc

Tri thøc Tri thøc Tri thøc Tri thøc

Page 38: KPDL_C1-6 & C10

75 76

hiªn Èn hiÖn Èn

Tri

thøc

biÕt

lý thuyÕt,

kh¸i niÖm…

nhËn thøc,

ph¸n ®o¸n..

Tri

thøc

kh¸ch quan

sù kiªn,

quan tr¾c

thùc..

trùc gi¸c vÒ

c¸c sù kiÖn..

Tri

thø lµm

ph­¬ng

ph¸p, thñ

tôc..

tµi n¨ng, kü

n¨ng…

Tri

thøc chñ

quan

quan ®iÓm,

niÒm tin

râ…

gi¶ thiÕt Èn,

thÕ giíi quan

Èn…

Theo nghÜa chung nhÊt (tõ ®iÓn Compact Oxford English Dictionary) th× tri

thøc lµ “sù hiÓu biÕt tinh th«ng vµ c¸c kü n¨ng mµ con ng­êi thu nhËn ®­îc theo

kinh nghiÖm vµ qua gi¸o dôc”, “tæng hîp nh÷ng g× mµ con ng­êi biÕt râ”, “nhËn

thøc vµ hiÓu biÕt t­êng minh vÒ mét sù viÖc hay mét hiÖn t­îng mµ thu nhËn

®­îc nhê kinh nghiÖm”. Trong ph¹m vi x¸c ®Þnh vai trß cña tri thøc ®èi víi c¸

nh©n, tæ chøc vµ x· héi, gi¸o tr×nh nµy sö dông néi dung trªn ®©y cho kh¸i niÖm

tri thøc.

Tri thøc ®­îc ph©n lo¹i, th­êng ®­îc chia thµnh cÆp tri thøc, ®iÓn h×nh nhÊt

lµ c¸c cÆp tri thøc hiÖn – tri thøc Èn (Explicit knowledge – Tacit knowledge),

tri thøc chñ quan – tri thøc kh¸ch quan (Objective knowledge – Subjective

knowledge), tri thøc biÕt – tri thøc lµm (Knowing that – Knowing how), trong

®ã hai cÆp tri thøc ®Çu tiªn cã tÝnh ®èi ngÉu. B¶ng 2.1 cung cÊp mèi quan hÖ

gi÷a cÆp tri thøc hiÖn – tri thøc Èn víi hai cÆp tri thøc cßn l¹i. Tõ néi dung b¶ng

2.1 cã thÓ thÊy, tri thøc hiÖn lµ tri thøc mµ m« t¶ ®­îc b»ng v¨n b¶n. Ch¼ng h¹n,

c¸c lý thuyÕt, kh¸i niÖm, ph­¬ng ph¸p, thñ tôc, sù kiÖn thùc, quan tr¾c thùc,

quan ®iÓm t­êng minh, niÒm tin t­êng minh... lµ c¸c d¹ng tri thøc hiÖn. §èi

ngÉu l¹i, tri thøc Èn lµ tri thøc mµ kh«ng thÓ m« t¶ ®­îc b»ng v¨n b¶n. Ch¼ng

h¹n, nhËn thøc, ph¸n ®o¸n, tµi n¨ng, kü n¨ng, trùc gi¸c, ngÇm ®Þnh... cña c¸c c¸

nh©n lµ c¸c d¹ng tri thøc Èn.

Trong qu¸ tr×nh vËn ®éng, tri thøc ®­îc chuyÓn hãa tõ d¹ng nµy sang d¹ng

nµy, trong ®ã cã sù chuyÓn hãa tõ tri thøc Èn sang thi thøc hiÖn. Sù h×nh thµnh vµ

ph¸t triÓn c¸c ngµnh khoa häc lµ thÓ hiÖn cho qu¸ tr×nh chyÓn hãa nµy. Ch¼ng

h¹n, sù h×nh thµnh lÜnh vùc c«ng nghÖ phÇn mÒm ®­îc xuÊt ph¸t tõ mét sè c¶m

nhËn ban ®Çu vÒ tÝnh ®óng ®¾n cña ch­¬ng tr×nh sau "cuéc khñng ho¶ng vÒ lËp

tr×nh" trong thËp niªn 1960.

Tån t¹i mét d¹ng tri thøc ®Æc biÖt "tri thøc vÒ tri thøc" vµ ®­îc gäi lµ siªu

tri thøc (meta-knowledge). Siªu tri thøc ®­îc chia thµnh 4 d¹ng vµ ®­îc ký hiÖu

lµ YKYK (You Know that You Known), DKYN (Do not Know that You Know),

YKDK (You Know that you Do not Know), vµ DKDK (Do not Know that You

don't Know) [WB98]. Mét sè vÝ dô vÒ siªu tri thøc YKYK lµ (1) Ta biÕt vÒ ®iÒu

ta biÕt (qua quan s¸t trùc tiÕp cña chÝnh ta) lµ « t« kh«ng thÓ ch¹y nÕu thiÕu

nhiªn liÖu; (2) Ta biÕt vÒ ®iÒu ta biÕt lµ n­íc s«i ë 100oC; (3) Ta biÕt vÒ ®iÒu ta

biÐt lµ nÕu ta cho xe m¸y ch¹y v­ît ®Ìn ®á mµ c«ng an nh×n thÊy th× ta sÏ bÞ

ph¹t... Mét sè vÝ dô vÒ siªu tri thøc YKDK lµ (1) Ta biÕt vÒ mét ®iÒu ta kh«ng

biÕt (ta kh«ng trùc tiÕp quan s¸t ®­îc) lµ trung b×nh m­a t¹i vïng cao réng lín

cña Amazon lµ h¬n 78 inchs hµng n¨m; (2) Ta biÕt vÒ mét ®iÒu mµ ta kh«ng biÕt

vÒ gãc quay cña Tr¸i ®Êt theo quü ®¹o cña nã xung quanh mÆt trêi theo mét gãc

23.5 ®é...

H×nh 2.4. Nguån tri thøc cña c¸ nh©n [Grube09]

Page 39: KPDL_C1-6 & C10

77 78

LÜnh vùc khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu cã môc tiªu

chuyÓn ®æi tri thøc hiÖn tõ d¹ng d÷ liÖu quan s¸t ®­îc thµnh c¸c tri thøc hiÖn

d­íi d¹ng c¸c mÉu trong mét ng«n ng÷ biÓu diÔn, cã nghÜa lµ chuyÓn ®èi siªu tri

thøc d¹ng DKYK (tri thøc tiÒm Èn trong d÷ liÖu) thµnh siªu tri thøc d¹ng YKYK

[BNGC00].

2.2.2. Nguån tri thøc cho c¸ nh©n vµ tæ chøc

2.2.2.1. Nguån tri thøc cho c¸ nh©n

Theo C. Grube [Grube09], tri thøc cña c¸ nh©n cã ®­îc tõ häc tËp vµ tõ

kinh nghiÖm. H×nh 2.4 tr×nh bµy ph­¬ng ¸n t¨ng c­êng tri thøc cña c¸ nh©n

th«ng qua tù häc (qua ®óc rót kinh nghiÖm) vµ häc tõ ng­êi kh¸c. Kinh nghiÖm

mµ c¸ nh©n ®óc rót ®­îc gåm cã kinh nghiÖm chuyÓn giao ®­îc vµ kinh nghiÖm

kh«ng chuyÓn giao ®­îc cho ng­êi kh¸c. Tri thøc cã ®­îc do häc hái ng­êi

kh¸c theo hai kiÓu lµ th«ng qua kinh nghiÖm chuyÓn giao ®­îc cña ng­êi kh¸c

hoÆc tõ c¸c nghiªn cøu ®· ®­îc viÕt ra thµnh lêi (®­îc v¨n b¶n hãa).

H×nh 2.5. Quy tr×nh xo¾n èc tri thøc SECI [Hiro06]

Takeuchi Hirotaka [Hiro06] m« t¶ qu¸ tr×nh ph¸t triÓn tri thøc theo mét

quy tr×nh chuyÓn hãa tri thøc d¹ng xo¾n èc SECI (H×nh 2.5) ®­îc ph¸t triÓn tõ

ma tr©n chuyÓn hãa tri thøc SECI (Socialization – X· héi hãa, Externalization

– Ngo¹i hiÖn, Combination - KÕt hîp, Internalization - TiÕp thu) ®­îc Ikujiro

Nokata vµ Takeuchi Hirotaka giíi thiÖu vµo n¨m 1995. Trong quy tr×nh nµy,

Socialization chuyÓn tri thøc Èn sang tri thøc Èn th«ng qua ho¹t ®éng chia sÎ vµ

®óc rót kinh nghiÖm b¶n th©n. Externalization kÕt nèi tri thøc Èn thµnh tri thøc

hiÖn th«ng qua ho¹t ®éng ®èi tho¹i vµ ph¶n ¸nh. Combination thùc hiÖn viÖc hÖ

thèng hãa, ¸p dông tri thøc vµ th«ng tin ®Ó cã tri thøc hiÖn míi tõ tri thøc hiÖn

®· cã. ¸p dông tri thøc hiÖn ®· cã vµo thùc tiÔn, Internalization lµ qu¸ tr×nh tiÕp

thu tri thøc Èn míi trong ho¹t ®éng thùc tiÔn.

2.2.2.2. Nguån tri thøc cña tæ chøc, doanh nghiÖp

Nh­ ®· ®­îc giíi thiÖu, tiÕp cËn kinh tÕ häc dùa trªn khung nh×n tri thøc

cña doanh nghiÖp lµ mét trong hai dßng nghiªn cøu chÝnh vÒ tri thøc. Tr­íc hÕt,

doanh nghiÖp tån t¹i d­íi d¹ng vµ dùa trªn mét gãi tµi nguyªn tri thøc chuyªn

ngµnh, hay nãi kh¸c ®i, doanh nghiÖp tån t¹i ®Ó t¹o, chuyÓn giao, ¸p dông, vµ

b¶o vÖ tµi nguyªn tri thøc cña nã.

H×nh 2.6. Qu¸ tr×nh tiÕn hãa tri thøc trong doanh nghiÖp [BS02]

Qu¸ tr×nh tiÕn hãa tri thøc trong doanh nghiÖp theo thêi gian diÔn ra qua

bèn giai ®o¹n ph¸t triÓn lµ s¸ng t¹o, huy ®éng, phæ biÕn vµ hµng hãa (H×nh 2.6).

Khi tri thøc doanh nghiÖp ®· trë nªn truy cËp ®­îc ®èi víi cµng nhiÒu ng­êi h¬n

- ®Çu tiªn trong mét tæ chøc, sau ®ã trong nhiÒu tæ chøc, vµ cuèi cïng cho ®¹i

Page 40: KPDL_C1-6 & C10

79 80

chóng - c¸c doanh nghiÖp ph¶i sö dông c¸c chiÕn l­îc kh¸c nhau ®Ó thu nhËn

®­îc gi¸ trÞ lín nhÊt cña tri thøc.

B¶ng 2.2 ®­a ra mét khung nh×n vÒ m« h×nh SECI theo ®Þnh nghÜa, ph­¬ng

ph¸p vµ néi dung cña mçi c¬ chÕ chuyÓn ®æi tri thøc. Mét sè vÝ dô trong b¶ng cã

liªn quan tíi chuyÓn ®æi tri thøc c¸ nh©n t¹i doanh nghiÖp.

B¶ng 2.2. ChuyÓn ®æi tri thøc c¸ nh©n trong doanh nghiÖp

C¸c nghiªn cøu theo khung nh×n kinh tÕ vÒ tri thøc doanh nghiÖp cho thÊy (1)

Tri thøc doanh nghiÖp lµ nÒn t¶ng cña sù tån t¹i doanh nghiÖp (ra ®êi, ph¸t triÓn

vµ bÞ diÖt vong) trong nÒn kinh tÕ, ®Æc biÖt lµ trong nÒn kinh thÞ tr­êng tù do; (2)

Tri thøc doanh nghiÖp lµ nguyªn nh©n cña sù ®a d¹ng doanh nghiÖp ho¹t ®éng

trong cïng mét ngµnh s¶n xuÊt, kinh doanh.

Tri thøc doanh nghiÖp kh«ng ph¶i ®¬n thuÇn lµ sù hîp c¬ häc tõ tri thøc cña tËp

c¸ nh©n thuéc doanh nghiÖp mµ doanh nghiÖp còng lµ mét thùc thÓ tri thøc.

Theo ph¹m vi doanh nghiÖp, C. Grube [Grube09] giíi thiÖu mét sè luËn ®iÓm

sau ®©y theo h­íng tiÕp cËn kinh tÕ vÒ tri thøc doanh nghiÖp:

- Doanh nghiÖp lµ mét thùc thÓ tÝch hîp tri thøc: M«i tr­êng v¨n hãa doanh

nghiÖp vµ tÝnh chÊt chuyªn m«n tr×nh ®é cao liªn quan tíi ngµnh nghÒ cña doanh

nghiÖp t¹o nªn mét céng ®ång ®¬n nhÊt doanh nghiÖp thùc hiÖn thu nhËn vµ

chuyÓn giao tri thøc h­íng tíi môc tiªu tèt nhÊt hoÆc hiÖu qu¶ nhÊt cho doanh

nghiÖp.

- Doanh nghiÖp lµ mét thùc thÓ s¸ng t¹o tri thøc: Tri thøc doanh nghiÖp

kh«ng chØ ®¬n thuÇn lµ kÕt qu¶ hîp tri thøc ph©n t¸n cña tËp c¸ nh©n mµ doanh

nghiÖp cßn t¹o ra tri thøc th«ng qua viÖc cung cÊp cho c¸c thµnh viªn mét ý thøc

céng ®ång, mét b¶n s¾c v¨n hãa vµ mét m« h×nh cña tinh thÇn san sÎ. Mét tËp

hîp m¹ng quan hÖ trong doanh nghiÖp t¹o ®iÒu kiÖn thuËn lîi cho trao ®æi vµ

ph¸t triÓn tri thøc doanh nghiÖp. Vµo n¨m 2000, Gi¸m ®èc ®iÒu hµnh tËp ®oµn

HP Lew Platt lóc ®ã nhËn ®Þnh "NÕu HP biÕt ®­îc nh÷ng ®iÒu HP biÕt th× lîi

nhuËn cña chóng t«i sÏ gÊp ba lÇn"19 cho thÊy t¸c dông kinh tÕ cña viÖc t¹o ®­îc

mét m«i tr­êng tèt cho trao ®æi vµ ph¸t triÓn tri thøc doanh nghiÖp.

- Doanh nghiÖp lµ thùc thÓ b¶o vÖ tri thøc. Mét mÆt, doanh nghiÖp t¹o ®iÒu

kiÖn thuËn lîi cho trao ®æi vµ ph¸t triÓn tri thøc néi bé, mÆt kh¸c, doanh nghiÖp

cÇn cã c¬ chÕ b¶o vÖ tri thøc doanh nghiÖp. Doanh nghiÖp cÇn thùc hiÖn c¸c biÖn

ph¸p ®iÒu khiÓn qu¸ tr×nh tiÕn hãa tri thøc doanh nghiÖp (H×nh 2.5) ®Ó tri thøc

doanh nghiÖp mang ®­îc lîi Ých nhiÒu nhÊt cho doanh nghiÖp.

Mét sè c¬ chÕ phèi hîp sau ®©y cã thÓ ®­îc thùc hiÖn trong thùc thÓ tri

thøc doanh nghiÖp:

- C¸c quy t¾c t­¬ng t¸c gi÷a c¸c c¸ nh©n trong doanh nghiÖp t¹o ®iÒu

kiÖn thuËn lîi cho chuyÓn hãa tri thøc Èn thµnh tri thøc hiÖn,

- ChuÈn hãa ho¹t ®éng møc doanh nghiÖp nh­ qu¸ tr×nh tiÕn hµnh c¸c

b­íc tham gia cña c¸c chuyªn gia vµo s¶n phÈm. Nªn vµ chØ nªn sö dông c¸c

quy tr×nh chuÈn ®èi víi c¸c vÊn ®Ò qu¸ phøc t¹p hoÆc quan träng vµ bÊt th­êng,

- C¸c thãi quen ®­îc h×nh thµnh trong doanh nghiÖp ®Ó hç trî sù t­¬ng

t¸c linh ho¹t trong doanh nghiÖp, mét bé phËn quan träng trong v¨n hãa doanh

nghiÖp. H×nh thµnh ®­îc c¸c thãi quen nh­ vËy ®ßi hái rÊt nhiÒu thêi gian vµ

c«ng søc. V¨n hãa doanh nghiÖp lµ mét tµi nguyªn quan träng trong ho¹t ®éng

19 Nguyªn v¨n, “If HP knew what HP knows, we would be three times profitable”.

Page 41: KPDL_C1-6 & C10

81 82

t¹o n¨ng lùc c¹nh tranh, cã ý nghÜa ngµy cµng quan träng trong xu thÓ toµn cÇu

hãa ngµy nay [RB10].

2.2.3. C«ng nghÖ tri thøc

2.2.3.1. Mét sè kh¸i niÖm liªn quan

C«ng nghÖ nghÖ tri thøc theo ®Þnh nghÜa truyÒn thèng lµ lÜnh vùc liªn quan

tíi qu¸ tr×nh thu nhËn tri thøc vµ gi¶i thÝch dùa trªn tri thøc thu nhËn ®­îc. C¸c

b­íc trong qu¸ tr×nh c«ng nghÖ tri thøc lµ thu nhËn tri thøc, biÓu diÔn tri thøc,

x©y dùng mét c¬ chÕ suy luËn, vµ thiÕt kÕ c¸c c«ng cô gi¶i thÝch.

Thu nhËn tri thøc lµ viÖc khai th¸c tri thøc tõ c¸c nguån d­íi d¹ng “v¨n

b¶n ®­îc” (h­íng dÉn, phim ¶nh, s¸ch, c¬ së d÷ liÖu, tËp tin v¨n b¶n, h×nh ¶nh,

b¨ng h×nh, ®Çu ra c¶m biÕn..) vµ d­íi d¹ng “kh«ng v¨n b¶n ®­îc” (t©m trÝ con

ng­êi, t©m tri chuyªn gia) vµ chuyÓn nh­ tri thøc thu nhËn ®­îc vµo m¸y tÝnh.

Thu nhËn tri thøc lµ mét c«ng viÖc khã kh¨n do mét sè nguyªn nh©n nh­ sù

kh«ng phï hîp cña biÓu diÔn tri thøc tõ c¸c nguån phøc (nh­ liÖt kª ë trªn), ®ßi

hái sè l­îng kh«ng nhá lùc l­îng ng­êi thu thËp tri thøc, chuyÓn giao kÕt qu¶

®Çu ra cña thu nhËn tri thøc cho m¸y tÝnh, khã kh¨n cña chuyªn gia khi m« t¶ tri

thøc cña hä. Cã thÓ tiÕn hµnh mét sè kü thuËt tù ®éng thu thËp tri thøc, ch¼ng

h¹n nh­ phÐp quy n¹p, lËp luËn dùa trªn tr­êng hîp, tÝnh to¸n n¬ ron.

BiÓu diÔn tri thøc liªn quan ®Õn viÖc tæ chøc tri thøc trong c¸c c¬ së tri

thøc; tri thøc ®­îc biÓu diÔn d­íi d¹ng tri thøc m« t¶ (c¸i ®ã lµ g×) vµ d­íi d¹ng

tri thøc thñ tôc (phæ biÕn lµ mèi quan hÖ IF-THEN). Tri thøc thñ tôc lµ phÇn tö

c¬ b¶n h×nh thµnh c¬ chÕ suy luËn, tri thøc m« t¶ ®­îc sö dông cho gi¶i thÝch.

Quan s¸t l¹i s¬ ®å ho¹t ®éng cña mét hÖ thèng khai ph¸ d÷ liÖu ®­îc tr×nh

bµy t¹i Ch­¬ng 1, chóng ta nhËn thÊy r»ng hÖ thèng khai ph¸ d÷ liÖu bao gãi

mét qu¸ tr×nh c«ng nghÖ tri thøc. Nh­ vËy, khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc

tõ d÷ liÖu lµ mét ph­¬ng ¸n cña c«ng nghÖ tri thøc, trong ®ã qu¸ tr×nh c«ng nghÖ

tri thøc (thu thËp tri thøc, biÓu diÔn tri thøc, suy luËn vµ gi¶i thÝch) ®­îc thùc

hiÖn chñ yÕu dùa trªn c¸c kü thuËt tù ®éng.

Trong hÖ thèng khai ph¸ d÷ liÖu, ph¸t hiÖn tri thøc (mét h×nh thøc cña thu

thËp tri thøc) tõ d÷ liÖu ®­îc coi lµ thµnh phÇn quan träng nhÊt. Nguån tri thøc

®Çu vµo cña hÖ thèng nµy lµ tri thøc d­íi d¹ng v¨n b¶n (d÷ liÖu ghi nhËn c¸c sù

kiÖn, c¸c m« t¶..). Tri thøc d¹ng kh«ng v¨n b¶n (t©m trÝ chuyªn gia) nÕu cã ®­îc

sö dông th× ®­îc thi hµnh trong mét sè kh©u, trong ®ã cã kh©u t¹o vÝ dô mÉu

(c¸c vÝ dô mÉu ã còng lµ tri thøc d¹ng v¨n b¶n). Trong c¸c m« h×nh khai ph¸ d÷

liÖu gÇn ®©y (ch¼ng h¹n nh­ trong [CYZ10]), viÖc thu nhËn tri thøc chuyªn gia

miÒn øng dông ®­îc thi hµnh ë rÊt nhiÒu pha cña qu¸ tr×nh khai ph¸ d÷ liÖu.

Pha thi hµnh thuËt to¸n khai ph¸ d÷ liÖu lµ pha quan träng thùc hiÖn c¬ chÕ

duy diÔn tõ d÷ liÖu ®· cã nhËn ®­îc tri thøc míi, tiÒm Èn, h÷u Ých, cã gi¸ trÞ.

C¬ së tri thøc cña hÖ thèng cña hÖ thèng khai ph¸ d÷ liÖu còng ®¶m nhËn

c¬ chÕ suy diÔn, ®ång thêi còng bao gåm c¸c c«ng cô gi¶i thÝch dùa trªn tri thøc

thuéc qu¸ tr×nh c«ng nghÖ tri thøc.

BiÓu diÔn tri thøc ®­îc thi hµnh kh«ng chØ trong c¬ së tri thøc cña hÖ thèng

khai ph¸ d÷ liÖu mµ cßn ®­îc thi hµnh trong giai ®o¹n trùc quan hãa biÓu diÔn

tri thøc cho ng­êi sö dông.

2.2.3.2. Vßng ®êi cña tri thøc doanh nghiÖp

H×nh 2.7 tr×nh bµy vßng ®êi tri thøc doanh nghiÖp theo tr×nh bµy cña Mark

W. McElroy [Elroy02]. Trong h×nh 2.7, CKC (Codified knowledge claim) lµ

Yªu cÇu tri thøc hîp lÖ; COK (Codified organisational knowledge) lµ tri thøc tæ

chøc hîp lÖ; DOKB (Distributed organisational knowledge base): c¬ së tri thøc

tæ chøc ph©n bè; FKC (Falsified knowledge claim): yªu cÇu tri thøc gi¶ m¹o;

OK (Organisational knowledge): tri thøc tæ chøc; SKC (Surviving knowledge

claim): yªu cÇu tri thøc tån ®äng; UKC (Undecided knowledge claim): Yªu cÇu

tri thøc ch­a quyÕt ®Þnh. Trong h×nh vÏ, c¸c khèi b×nh hµnh (kh«ng lµ khèi ch÷

nhËt) chØ dÉn tËp tri thøc.

Theo H×nh 2.7, trong vßng ®êi cña m×nh, tri thøc doanh nghiÖp qua ba giai

®o¹n chÝnh.

Page 42: KPDL_C1-6 & C10

83 84

S¸ng t¹o tri thøc (Knowledge Production) lµ giai ®o¹n ®Çu tiªn, trong ®ã do

kÕt qu¶ häc tËp cña c¸ nh©n vµ nhãm, do nhu cÇu th«ng tin vµ ph¶n håi cña vßng

®êi tri thøc tr­íc ®©y (bao gåm sù ph¸t hiÖn vÊn ®Ò míi), yªu cÇu tri thøc ®­îc

t¹o ra s¬ bé. Sau ®ã yªu cÇu nµy ®­îc ®¸nh gi¸, nÕu hîp lÖ ®­îc chuyÓn sang

giai ®o¹n sau (TÝch hîp tri thøc), nÕu ch­a hîp lÖ ®­îc quay l¹i viÖc häc bæ sung

cña c¸ nh©n vµ nhãm ®Ó cã ®­îc yªu cÇu tri thøc hîp lÖ. Th«ng qua c¸c tËp tri

thøc doanh nghiÖp s½n cã (SKC, FKC, UKC vµ th«ng tin liªn quan), tri thøc

doanh nghiÖp ®­îc t¹o ra.

TÝch hîp tri thøc (Knowledge Integration) lµ giai ®o¹n tiÕp theo, trong ®ã

tri thøc doanh nghiÖp ®­îc phæ biÕn, ®­îc t×m kiÕm, ®­îc gi¶ng d¹y vµ ®­îc

chia sÎ ®Ó t¹o thµnh tri thøc chñ quan vµ tri thøc kh¸ch quan ®­îc tËp hîp vµo c¬

së tri thøc doanh nghiÖp ph©n bè ®Ó ®­îc ®­a vµo sö dông trong m«i tr­êng qu¸

tr×nh kinh doanh.

Trong m«i tr­êng qu¸ tr×nh kinh doanh (Business Processing

Environment), tri thøc doanh nghiÖp ®­îc sö dông vµ t¹o ra gi¸ trÞ doanh nghiÖp.

Qu¸ tr×nh céng t¸c t¹o gi¸ trÞ cña doanh nghiÖp vµ kh¸ch hµng còng ®­a ra c¸c

ph¶n håi tõ m«i tr­êng qu¸ tr×nh kinh doanh t¹o ra yªu cÇu tri thøc doanh nghiÖp

míi.

H×nh 2.7. Vßng ®êi tri thøc doanh nghiÖp [Elroy02]

Qu¸ tr×nh vßng ®êi tri thøc doanh nghiÖp kÕt hîp víi hÖ thèng khai ph¸ d÷

liÖu hîp thµnh mét hÖ thèng c«ng nghÖ tri thøc trän vÑn.

2.3. Bµi to¸n ph¸t hiÖn tri thøc tõ d÷ liÖu

2.3.1. Sù tiÕn hãa cña m« h×nh ph¸t hiÖn tri thøc

Ch­¬ng 1 ®· giíi thiÖu mét m« h×nh KDD theo mét tiÕp cËn mang tÝnh

thuÇn tóy CNTT [FPS96] vµ ®©y ®­îc coi lµ mét trong nh÷ng m« h×nh hoµn

chØnh ®Çu tiªn cho KDD. Nh­ ®· biÕt, môc tiªu c¬ b¶n nhÊt cña qu¸ tr×nh KDD

lµ ph¸t hiÖn ra c¸c tri thøc tiÒm Èn trong d÷ liÖu nh»m cung cÊp c¸c tri thøc cho

c¸c tæ chøc vµ c¸ nh©n trong viÖc ra quyÕt ®Þnh. Dï cho khai ph¸ dữ liệu khoa

häc, c«ng nghÖ, ®Æc biÖt lµ khai kh¸ d÷ liÖu trong y sinh häc ®ang ph¸t triÓn

m¹nh mÏ [HG09], song lÜnh vùc qu¶n lý vµ kinh doanh lu«n lµ miÒn øng dông

quan trong nhÊt cña khai ph¸ d÷ liÖu. V× vËy, sù tiÕn hãa cña m« h×nh ph¸t hiÖn

tri thøc tõ d÷ liÖu còng theo h­íng ngµy cµng g¾n víi qu¸ tr×nh qu¶n lý vµ kinh

doanh ®Ó tri thøc ®­îc ph¸t hiÖn ra trë thµnh tµi nguyªn phôc vô qu¸ tr×nh kinh

doanh cña doanh nghiÖp (H×nh 2.7). Mét sè m« h×nh ®­îc giíi thiÖu d­íi ®©y

cung cÊp mét sè nÐt ®iÓn h×nh nhÊt vÒ qu¸ tr×nh tiÕn hãa m« h×nh KDD.

Nh­ ®· giíi thiÖu, Usama Fayyad vµ céng sù ®· ®­a ra mét m« h×nh ph¸t

hiÖn tri thøc tõ d÷ liÖu [FPS96]. Néi dung c¸c b­íc thùc hiÖn trong qu¸ tr×nh nµy

®· ®­îc tr×nh bµy t¹i Ch­¬ng 1. Sau nµy, m« h×nh khai ph¸ d÷ liÖu do Usama

Fayyad vµ céng sù ®Ò xuÊt ®­îc c¸c t¸c gi¶ kh¸c gäi lµ m« h×nh ph¸t hiÖn tri

thøc truyÒn thèng. M« h×nh khai ph¸ d÷ liÖu truyÒn thèng ch­anhÊn m¹nh ®Þnh

h­íng kinh doang cña ph¸t hiÖn tri thøc tõ d÷ liÖu dï r»ng khi ph©n tÝch b­íc

®Æt bµi to¸n ph¸t hiÖn tri thøc trong m« h×nh cã ®Ò cËp tíi môc tiªu ph¸t hiÖn tri

thøc cã bao gåm yÕu tè kinh doanh.

Page 43: KPDL_C1-6 & C10

85 86

.

H×nh 2.8. Mét m« h×nh ph¸t hiÖn tri thøc lÆp, 1998 [CCG98]

2.3.1.1. M« h×nh ph¸t hiÖn tri thøc lÆp

N¨m 1998, Collier K. vµ céng sù t¹i Trung t©m hiÓu d÷ liÖu (The Center

for Data Inshight: CDI) t¹i §¹i häc B¾c Arizona, Mý (Northern Arizona

University) [CCGMS98] ®Ò nghÞ thay ®æi m« h×nh ph¸t hiÖn tri thøc truyÒn

thèng thµnh m« h×nh ph¸t hiÖn tri thøc lÆp (H×nh 2.8). Trong m« h×nh truyÒn

thèng, Usama Fayyad vµ céng sù còng cho phÐp c¸c b­íc cña qu¸ tr×nh ®­îc

thùc hiÖn lÆp mét c¸ch tïy ý. M« h×nh lÆp chØ cho phÐp lÆp l¹i sau khi ®· hoµn

thµnh chu tr×nh thùc hiÖn tÊt c¶ c¸c b­íc.

Collier K. vµ céng sù gi¶i thÝch chi tiÕt néi dung c¸c b­íc thùc hiÖn trong

m« h×nh ph¸t hiÖn tri thøc lÆp nh­ sau:

- X¸c ®Þnh môc tiªu kinh doanh. B¾t ®Çu víi nhiÒu nhÊt ba môc tiªu kinh

doanh ®Ó nghiªn cøu cã tÝnh tËp trung,

- §Þnh danh d÷ liÖu doanh nghiÖp mµ chøa th«ng tin liªn quan tíi c¸c

môc tiªu kinh doanh ®· ®­îc x¸c ®Þnh,

- Khëi t¹o tËp d÷ liÖu mÉu chøa mäi th«ng tin liªn quan,

- §Þnh danh c¸c chuyªn gia miÒn lÜnh vùc lµm viÖc víi nhãm thùc

nghiÖm trong hÖ thèng ph¸t hiÖn tri thøc,

- Khëi t¹o d÷ liÖu sao cho n¨ng lùc tÝnh to¸n lµm chñ ®­îc d÷ liÖu ®­îc

kh¶o s¸t vµ thÝch hîp víi c«ng cô ph¸t hiÖn tri thøc phï hîp môc tiªu kinh

doanh, - Chuyªn gia miÒn øng dông lµm viÖc víi chuyªn gia khai ph¸ d÷ liÖu x¸c

nhËn bé c«ng cô lµ thÝch hîp nhÊt víi môc tiªu kinh doanh, - TrÝch chän quan hÖ vµ mÉu tõ tËp d÷ liÖu kinh doanh, - Chuyªn gia miÒn øng dông lµm viÖc víi chuyªn gia khai ph¸ d÷ liÖu ®Ó

x¸c ®Þnh c¸c quan hÖ vµ mÉu thùc sù liªn quan tíi môc tiªu kinh doanh. Kinh

nghiÖm t¹i CDI tõ mét sè c¸c dù ¸n khai ph¸ d÷ liÖu chØ ra r»ng mét sè kÕt qu¶

kinh ng¹c cã thÓ xuÊt hiÖn ë b­íc nµy. Gi¶ thiÕt c¬ së vÒ c¸ch thøc cña mét

th­¬ng vô, c¸ch thøc cña mét thÞ tr­êng hoÆc c¸ch thøc hµnh vi cña kh¸ch hµng

cã thÓ cÇn ph¶i thay ®æi. L­u ý r»ng, néi dung c¸c b­íc Lµm s¹ch vµ chuyÓn d¹ng d÷ liÖu, Khai ph¸

d÷ liÖu, Thu nhËn tri thøc kh«ng cã nhiÒu kh¸c biÖt so víi m« h×nh truyÒn thèng.

2.3.1.2. M« h×nh chuÈn c«ng nghiÖp CRISP-DM

Trong khu«n khæ dù ¸n chuÈn c«ng nghiÖp khai ph¸ d÷ liÖu CRISP-DM

(Cross-Industry Standard Process for Data Mining), Pete Chapman vµ céng sù

c«ng bè tµi liÖu h­íng dÉn vÒ CRISP-DM [CCKKR00]. H×nh 2.9 tr×nh bµy quy

tr×nh khai ph¸ d÷ liÖu theo chuÈn c«ng nghiÖp. ChuÈn CRISP-DM còng ®Æt néi

dung "HiÓu kinh doanh" lµ giai ®o¹n ®Çu tiªn cña qu¸ tr×nh khai ph¸ d÷ liÖu. Chi

tiÕt c¸c b­íc trong quy tr×nh khai ph¸ d÷ liÖu theo chuÈn CRISP-DM nh­ sau:

Page 44: KPDL_C1-6 & C10

87 88

H×nh 2.9. ChuÈn c«ng nghiÖp khai ph¸ d÷ liÖu CRISP-DM, 2000 [CCKKR00]

- HiÓu kinh doanh (Business understanding): Giai ®o¹n nµy ban ®Çu tËp

trung vµo sù hiÓu biÕt c¸c môc tiªu vµ c¸c yªu cÇu tõ gãc ®é kinh doanh cña dù

¸n khai ph¸ d÷ liÖu, sau ®ã chuyÓn ®æi tri thøc nµy thµnh mét ®Þnh nghÜa bµi

to¸n khai th¸c d÷ liÖu vµ mét kÕ ho¹ch s¬ bé ®­îc thiÕt kÕ ®Ó ®¹t ®­îc c¸c môc

tiªu.

- HiÓu d÷ liÖu (Data understanding): Giai ®o¹n hiÓu d÷ liÖu b¾t ®Çu víi mét

bé s­u tËp d÷ liÖu ban ®Çu vµ tiÕn hµnh c¸c ho¹t ®éng ®Ó lµm quen víi d÷ liÖu,

x¸c ®Þnh c¸c vÊn ®Ò chÊt l­îng d÷ liÖu, ®Ó kh¸m ph¸ nh÷ng hiÓu biÕt ®Çu tiªn

vµo c¸c tËp d÷ liÖu hoÆc ph¸t hiÖn c¸c tËp con d÷ liÖu thó vÞ nh»m h×nh thµnh gi¶

thuyÕt cho th«ng tin Èn. Tri thøc kinh doanh cã tõ giai ®o¹n hiÓu kinh doanh

®Þnh h­íng viÖc hiÓu d÷ liÖu. §ång thêi, qua ph©n tÝch d÷ liÖu ®Ó hiÓu d÷ liÖu cã

thÓ ph¶n håi, phèi hîp víi néi dung hiÓu kinh doanh ®Ó lµm râ bµi to¸n khai ph¸

d÷ liÖu, môc tiªu vµ kÕ ho¹ch thùc hiÖn.

- ChuÈn bÞ d÷ liÖu (Data preparation): Tõ c¸c bé d÷ liÖu th« ban ®Çu, giai

®o¹n chuÈn bÞ d÷ liÖu bao gåm tÊt c¶ c¸c ho¹t ®éng nh»m x©y dùng c¸c tËp d÷

liÖu cuèi cïng lµm ®Çu vµo cho c«ng cô m« h×nh hãa. ChuÈn bÞ d÷ liÖu bao gåm

c¸c ho¹t ®éng lËp b¶ng, ghi l¹i vµ lùa chän thuéc tÝnh còng nh­ chuyÓn ®æi, vµ

lµm s¹ch d÷ liÖu cho c¸c c«ng cô m« h×nh hãa. C¸c thao t¸c chuÈn bÞ d÷ liÖu cã

thÓ ®­îc thùc hiÖn nhiÒu lÇn vµ kh«ng theo mét thø tù quy ®Þnh.

- M« h×nh hãa (Modeling): Trong giai ®o¹n nµy, c¸c kü thuËt m« h×nh

kh¸c nhau ®­îc lùa chän vµ ¸p dông. C¸c th«ng sè cña c¸c m« h×nh ®­îc x¸c

®Þnh nh»m ®¹t tíi gi¸ trÞ tèi ­u. Th«ng th­êng, mét sè kü thuËt ®­îc sö dông cho

c¸c lo¹i d÷ liÖu víi cïng mét bµi to¸n khai th¸c d÷ liÖu. Mét sè kü thuËt ®ßi hái

c¸c yªu cÇu cô thÓ vÒ d¹ng thøc cña d÷ liÖu ®Çu vµo. §­a d÷ liÖu vÒ d¹ng thøc

phï hîp víi c¸c kü thuËt (vµ c«ng cô) khai ph¸ d÷ liÖu lµ mét c«ng viÖc ®­îc

thùc hiÖn trong giai ®o¹n chuÈn bÞ d÷ liÖu. M« h×nh hãa vµ chuÈn bÞ d÷ liÖu cã

thÓ ®­îc thùc hiÖn lÆp mét sè lÇn nh»m ®¹t ®­îc m« h×nh cã kÕt qu¶ tèi ­u.

- §¸nh gi¸ (Evaluation): ë giai ®o¹n nµy, m« h×nh (cã thÓ mét sè m«

h×nh) kÕt qu¶ víi môc tiªu chÊt l­îng cao theo gãc ®é ph©n tÝch d÷ liÖu ®­îc t×m

ra. Tr­íc khi ®­a m« h×nh vµo triÓn khai trong thùc tiÔn kinh doanh, cÇn ®¸nh

gi¸ m« h×nh kÕt qu¶ kü l­ìng h¬n vµ xem xÐt c¸c b­íc ®· ®­îc thùc hiÖn ®Ó x©y

dùng m« h×nh nh»m cã ®­îc niÒm tin ch¾c ch¾n r»ng m« h×nh kÕt qu¶ ®¹t ®­îc

c¸c môc tiªu kinh doanh theo ®óng c¸ch thøc.

Mét môc tiªu quan träng cña ho¹t ®éng ®¸nh gi¸ lµ x¸c ®Þnh cã hay kh«ng

vÊn ®Ò kinh doanh quan träng nµo ®ã ®· kh«ng ®­îc xem xÐt mét c¸ch toµn

diÖn. Vµo cuèi cña giai ®o¹n nµy, mét quyÕt ®Þnh vÒ viÖc sö dông c¸c kÕt qu¶

khai th¸c d÷ liÖu cã thÓ ®¹t ®­îc.

- TriÓn khai (Deployment): Nãi chung, t¹o ra m« h×nh ch­a ph¶i lµ kÕt

thóc dù ¸n khai ph¸ d÷ liÖu. Tri thøc ®­îc ph¸t hiÖn cÇn ph¶i ®­îc tæ chøc vµ

tr×nh bµy theo c¸ch mµ kh¸ch hµng cã thÓ triÓn khai sö dông tri thøc ®ã. Giai

®o¹n triÓn khai th­êng bao gåm viÖc ¸p dông m« h×nh "sèng" (thêi gian thùc)

vµo quyÕt ®Þnh cña tæ chøc triÓn khai dù ¸n. Tuy nhiªn, tïy thuéc vµo yªu cÇu,

giai ®o¹n triÓn khai cã thÓ ®­îc ®¬n gi¶n nh­ t¹o ra mét b¸o c¸o hoÆc phøc t¹p

nh­ thùc hiÖn mét qu¸ tr×nh khai th¸c d÷ liÖu lÆp l¹i trªn toµn doanh nghiÖp.

Trong nhiÒu tr­êng hîp, kh¸ch hµng chø kh«ng ph¶i c¸c nhµ ph©n tÝch d÷ liÖu,

thùc hiÖn c¸c b­íc triÓn khai. Tuy nhiªn, ngay c¶ khi c¸c nhµ ph©n tÝch kh«ng

thùc hiÖn c«ng viÖc triÓn khai, mét yªu cÇu quan träng ®èi víi c¸c nhµ ph©n tÝch

d÷ liÖu lµ hä ph¶i gióp kh¸ch hµng t­êng minh tiªn liÖu ®­îc nh÷ng hµnh ®éng

Page 45: KPDL_C1-6 & C10

89 90

mµ hä cÇn ph¶i ®­îc thùc hiÖn ®Ó c¸c m« h×nh ®· ®­îc t¹o ra thùc sù ®­îc sö

dông.

H×nh 2.10. Mét m« h×nh KDD, 2000 [Nauck00]

Trong [Nauck00], Detlef D.Nauck giíi thiÖu mét m« h×nh ph¸t hiÖn tri

thøc nh­ tr×nh bµy ë H×nh 2.10. T­¬ng tù nh­ m« h×nh CRISP-DM, m« h×nh nµy

còng cã xuÊt ph¸t ®iÓm tõ nhu cÇu kinh doanh vµ ph©n tÝch d÷ liÖu miÒn øng

dông cã t­¬ng t¸c lÉn nhau víi ph©n tÝch miÒn øng dông kinh doanh. T¸c gi¶

nhÊn m¹nh c«ng viÖc tiÒn xö lý d÷ liÖu ®ßi hái kho¶ng 70-80% c«ng søc cña

toµn bé qu¸ tr×nh ph¸t hiÖn tri thøc (Ch­¬ng 3 cña s¸ch nµy sÏ tr×nh bµy c¸c néi

dung chi tiÕt cña ho¹t ®éng chuÈn bÞ d÷ liÖu). “B­íc” khai ph¸ d÷ liÖu bao gåm

hai bµi to¸n con lµ kh¶o s¸t vµ ¸p dông kü thuËt häc m¸y, m« h×nh hãa vµ ph¸t

hiÖn tri thøc. Kh¶o s¸t cã t­¬ng t¸c ph¶n håi víi c«ng viÖc chuÈn bÞ d÷ liÖu. Sau

khi ®­îc trùc quan hãa vµ ®¸nh gi¸, tri thøc ®­îc ph¸t hiÖn sÏ ®­îc ®­a vµo øng

dông vµ ®­îc v¨n b¶n hãa , bæ sung tr thøc miÒn øng dông. M« h×nh Detlef

D.Nauck giíi thiÖu lµm râ h¬n néi dung mét sè b­íc so víi m« h×nh CRISP-

DM.

2.3.1.3. M« h×nh ph¸t hiÖn tri thøc kÕt hîp khung nh×n kinh doanh

H×nh 2.11. Mét m« h×nh qu¶n lý tri thøc, 2008 [WW08]

N¨m 2008, Wang, H. and S. Wang [WW08] ®Ò nghÞ mét m« h×nh qu¶n lý

tri thøc (knowledge management) lµ tÝch hîp m« h×nh ph¸t hiÖn tri thøc ®Þnh

h­íng khai ph¸ d÷ liÖu vµ m« h×nh ph¸t triÓn tri thøc ®Þnh h­íng kinh doanh

(H×nh 2.11). Hai kiÓu t¸c nh©n chñ chèt trong m« h×nh nµy lµ nh©n viªn khai ph¸

d÷ liÖu (data miner) vµ nh©n viªn kinh doanh cña doanh nghiÖp (business

insider). Nh­ v©y, nh©n viªn khai ph¸ d÷ liÖu cã thÓ lµ ng­êi cña doanh nghiÖp

hoÆc kh«ng. Gièng nh­ c¸c m« h×nh ®· nãi, ®iÓm ®Çu vµ ®iÓm cuèi cña chu tr×nh

khai ph¸ d÷ liÖu lµ sù t­¬ng t¸c víi chu tr×nh ph¸t triÓn tri thøc kinh doanh vÒ kÕ

ho¹ch bµi to¸n khai ph¸ d÷ liÖu míi vµ chia sÎ tri thøc kÕt qu¶ cña khai ph¸ d÷

liÖu. Trong chu tr×nh ph¸t triÓn tri thøc doanh nghiÖp, tri thøc kÕt qu¶ khai ph¸

d÷ liÖu ®­îc häc tËp néi bé, ®­îc ¸p dông vµ tiÕp thu ®Ó t¨ng c­êng tµi nguyªn

tri thøc doanh nghiÖp.

Page 46: KPDL_C1-6 & C10

91 92

2.3.1.4. M« h×nh ph¸t hiÖn tri thøc h­íng th«ng minh doanh nghiÖp

H×nh 2.12. M« h×nh ph¸t hiÖn tri thøc h­íng th«ng minh doanh nghiÖp, 2009 [HF09]

Trong [HF09], Yang Hang vµ Simon Fong tr×nh bµy mét hÖ thèng øng

dông khai ph¸ d÷ liÖu trong miÒn øng dông th­¬ng m¹i ®iÖn tö. C¸c t¸c gi¶ tr×nh

bµy m« h×nh khung bèn tÇng gåm tÇng d÷ liÖu (data layer), tÇng ph­¬ng ph¸p

(method layer), tÇng dÞch vô ®iÖn tö (e-service layer) vµ tÇng tri thøc (knowledge

layer). Tri thøc ®­îc ph¸t hiÖn trong hÖ thèng lµ tri thøc d¹ng th«ng minh doanh

nghiÖp (Business Intelligence). Qu¸ tr×nh khai ph¸ d÷ liÖu ®Þnh h­íng th«ng

minh doanh nghiÖp (BI - Driven Data Mining) cho th­¬ng m¹i ®iÖn tö ®­îc biÓu

diÔn ë H×nh 2.12. Trong m« h×nh nµy, xuÊt ph¸t tõ môc tiªu kinh doanh th­¬ng

m¹i ®iÖn tö, mét qu¸ tr×nh khai ph¸ d÷ liÖu ®Þnh h­íng th«ng minh doanh

nghiÖp ®­îc thi hµnh ®Ó nhËn ®­îc tri thøc ®Ó ¸p dông vµo qu¸ tr×nh quy doanh.

Trªn h×nh vÏ, qu¸ tr×nh ph¸t hiÖn tri thøc ®­îc thi hµnh theo bèn pha chÝnh.

- Pha hiÓu miÒn øng dông th­¬ng m¹i ®iÖn tö/dÞch vô ®iÖn tö lµ pha ®Çu

tiªn cña qu¸ tr×nh. §Ó khai ph¸ d÷ liÖu ®Þnh h­íng th«ng minh doanh nghiÖp

miÒn øng dông th­¬ng m¹i ®iÖn tö thùc sù hiÖu qu¶ th× cÇn hiÓu râ (cã ®­îc tri

thøc miÒn øng dông) vÒ dÞch vô ®iÖn tö ®­îc quan t©m. Môc tiªu khai ph¸ d÷

liÖu dÞch vô ®iÖn tö nµy ®­îc x¸c ®Þnh. Nh÷ng tri thøc bµi to¸n vÒ dÞch vô ®iÖn

tö cho phÐp x¸c ®Þnh ®­îc ph¹m vi vµ tÝnh chÊt cña tËp d÷ liÖu cÇn thiÕt cho bµi

to¸n khai ph¸, lµm c¬ së ®Þnh h­íng cho kh©u chuÈn bÞ d÷ liÖu.

- Trong pha hiÓu d÷ liÖu, ho¹t ®éng chuÈn bÞ d÷ liÖu ®­îc tiÕn hµnh theo

®Þnh h­íng tõ tri thøc bµi to¸n. Trong qu¸ tr×nh chuÈn bÞ d÷ liÖu, tri thøc miÒn

øng dông vÉn ®­îc huy ®éng ®Ó ®¸nh gi¸ tÝnh hiÖu qu¶ cña d÷ liÖu ®­îc chuÈn

bÞ.

- T¹i pha m« h×nh hãa, c¸c thuËt to¸n/ph­¬ng ph¸p phï hîp víi bµi to¸n

®­îc chän vµ thùc hiÖn ®Ó x©y dùng ®­îc m« h×nh khai ph¸ d÷ liÖu phï hîp.

C«ng viÖc m« h×nh hãa còng ®Æt ra yªu acµu chØnh lý l¹i d÷ liÖu cÇn thiÕt.

- Trong pha thu nhËn tri thøc, kÕt qu¶ thùc hiÖn th­Ët to¸n khai ph¸ d÷ liÖu

®­îc ®¸nh gi¸, ®o l­êng ®Ó chän ra ®­îc tri thøc th«ng minh doanh nghiÖp cã

gi¸ trÞ t­¬ng øng víi dÞch vô ®iÖn tö. Sau ®ã, tri thøc th«ng minh doanh nghiÖp

kÕt qu¶ ®­îc ¸p dông trong kinh doanh.

2.3.1.5. M« h×nh ph¸t hiÖn tri thøc trong d÷ liÖu g¾n kÕt

Kh¸m ph¸ tri thøc trong CSDL g¾n kÕt (Cohesive Knowledge Discovery in

Database: C-KDD) ®­îc quan t©m trong thêi gian gÇn ®©y. M« h×nh ph¸t hiÖn tri

thøc C-KDD ®­îc biÓu diÔn t¹i H×nh 2.13. Qu¸ tr×nh C-KDD gåm bèn giai

®o¹n: lËp kÕ ho¹ch, phiªn khai th¸c má, khai th¸c hîp nhÊt, vµ sau chÕ biÕn.

Page 47: KPDL_C1-6 & C10

93 94

H×nh 2.13. M« h×nh qu¸ tr×nh C-KDD, 2010 [Pan10]

Trong giai ®o¹n lËp kÕ ho¹ch, qu¸ tr×nh KDD b¾t ®Çu víi sù hiÓu biÕt kinh

doanh, bao gåm c¶ kinh doanh, môc tiªu vµ kinh doanh logic. Th«ng qua th¨m

dß vµ thö nghiÖm t­¬ng t¸c, c¸c môc tiªu ph¸t hiÖn, d÷ liÖu kinh doanh, vµ qu¸

tr×nh tiÕp theo ®­îc x¸c ®Þnh vµ c¸c ®Æc ®iÓm kü thuËt ph¸t hiÖn nhiÖm vô kÕ

ho¹ch (TS) ®­îc t¹o ra. KiÕn thøc miÒn b¶n thÓ häc ®­îc sö dông ®Ó lo¹i bá c¸c

thuéc tÝnh kh«ng thÝch hîp, cËp nhËt c¸c yÕu tè kinh doanh tr­íc khi m¬ hå, suy

luËn c¸c thuéc tÝnh kh¸c trõu t­îng, vv H¬n n÷a, tËp hîp c¸c thuéc tÝnh d÷ liÖu

hîp lÖ, c¸c b­íc qu¸ tr×nh, vµ c¸c thuËt to¸n ®­îc cÊu t¹o theo thø tù dùa trªn

desiderata cña ng­êi sö dông, khai th¸c d÷ liÖu mét b¶n thÓ häc.

Giai ®o¹n khai th¸c phiªn thùc hiÖn chän-chuyÓn giao-premining vµ ®¹t

®­îc khai th¸c d÷ liÖu mét phÇn. Chó träng quy t¾c c¶m øng ®Þa ph­¬ng vµ tÜnh,

vµ thùc hiÖn khëi ph¸t chuyÓn d÷ liÖu gia t¨ng ®Òu ®Æn, vÝ dô nh­ th¸ng. Khi

chøc n¨ng ®· ®­îc quy ®Þnh t¹i TS, ®Þnh kú lÆp ®i lÆp l¹i trªn d÷ liÖu gia t¨ng

theo tÇn sè hoÆc ®iÒu kiÖn kÝch ho¹t, vµ cã kÕt qu¶ c¸c h×nh thøc mét thïng quy

t¾c (RB). KiÕn thøc b¶n thÓ häc ®­îc sö dông ®Ó hç trî trong viÖc x¸c ®Þnh c¸c

tÝnh n¨ng ®­îc lùa chän, c¸c th«ng sè, vv

Khai th¸c má hîp nhÊt ®­îc b¾t ®Çu b»ng c¸c truy vÊn khai th¸c má hoÆc

mét sù kiÖn kÝch ho¹t. Néi dung t×m kiÕm sÏ ®­îc liÖt kª tham kh¶o ý kiÕn víi

TS, ng­êi dïng cã thÓ cam kÕt cho hä, theo yªu cÇu cña m×nh. Mét sù kiÖn kÝch

ho¹t x¶y ra lµ nguyªn nh©n cña thêi gian quy ®Þnh hoÆc t¨ng. Chó träng ph¸t

hiÖn ra quy t¾c chung vµ n¨ng ®éng, trong m« h×nh t­¬ng t¸c, c¸c quy t¾c ®­îc

s¸p nhËp vµ tinh chÕ tõ mét sè RBS. C¸c th«ng sè vµ h¹n chÕ ®­îc bæ sung tri

thøc b¶n thÓ häc.

Giai ®o¹n hËu xö lý b¾t ®Çu phï hîp víi quy t¾c ph¸t hiÖn vµ tri thøc ®­îc

biÕt ®Õn bé läc, nh÷ng ng­êi v« dông, sau ®ã ®­îc ph©n lo¹i vµ xÕp h¹ng kÕt

qu¶ tù ®éng thó vÞ theo interestingness. Khi mét ng­ìng ®iÓm quan träng lµ ®¹t

®­îc, mét c¶nh b¸o sÏ ®­îc kÝch ho¹t. Trong khi ®ã, ng­êi sö dông cã thÓ xem

xÐt vµ x¸c nhËn c¸c nh÷ng ph¸t hiÖn nµy. Nã còng sÏ tÝch hîp nh÷ng hiÓu biÕt

míi thó vÞ víi nh÷ng tri thøc ®· biÕt, ®Ó thùc hiÖn qu¸ tr×nh tiÕn hãa tri thøc vµ

tr×nh bµy. Sau ®ã, nã h×nh thµnh mét gi¶i ph¸p chÆt chÏ vßng gióp duy tr× qu¸

tr×nh ph¸t hiÖn tri thøc liªn tôc. Khi kh«ng thÓ ®Ó ®¸p øng c¸c øng dông th«ng

tin t×nh b¸o hoÆc xem xÐt l¹i quy t¾c, dßng ch¶y qu¸ tr×nh ®i ®Õn giai ®o¹n lËp

kÕ ho¹ch ®Ó t¸i kh¸m ph¸ d÷ liÖu. Cuèi cïng, nh÷ng kÕt qu¶ ®­îc tr¶ vÒ cho

ng­êi dïng cuèi. Trªn thùc hiÖn m« h×nh, m¸y b­íc xö lý yªu cÇu c¸c thµnh

phÇn tù trÞ. Mçi thµnh phÇn lµ ®¹i lý th«ng minh, cã ®­îc c¸c b¶n thÓ häc vÒ tÝnh

th¨m dß vµ tri thøc ®­îc biÕt ®Õn th«ng qua dÞch vô b¶n thÓ häc.

2.3.1.6. M« h×nh khai ph¸ d÷ liÖu h­íng miÒn øng dông

GÇn ®©y, khai ph¸ d÷ liÖu h­íng miÒn øng dông (Domain Driven Data

Mining: D3M) lµ mét trong nh÷ng khuynh h­íng nghiªn cøu næi bËt cña khai

ph¸ d÷ liÖu. Longbing Cao vµ céng sù [CYZZ10] ®Ò nghÞ m« h×nh qu¸ tr×nh khai

ph¸ d÷ liÖu h­íng miÒn øng dông nh­ ®­îc thÓ hiÖn trong h×nh 2.14. C¸c thµnh

phÇn chøc n¨ng chÝnh cña m« h×nh ®­îc lµm næi bËt b»ng c¸c hép cã viÒn dµy,

thÓ hiÖn nh÷ng giai ®o¹n cô thÓ D3M.

H×nh 2.14. M« h×nh qu¸ tr×nh khai ph¸ d÷ liÖu h­íng miÒn øng dông, 2010 [CYZ10]

M« h×nh nµy cho mét khung nh×n chi tiÕt h¬n vÒ qu¸ tr×nh ph¸t hiÖn tri

thøc th«ng qua pha thùc hiÖn, ®­îc ký hiÖu tõ P1 tíi P13 nh­ trªn h×nh vÏ (P05

vµ P07 lµ c¸c ph­¬ng ¸n thay thÕ cho P5 hoÆc P7). Mçi b­íc cña qu¸ tr×nh D3M

cã thÓ liªn quan ®Õn sù th«ng minh kh¾p n¬i vµ t­¬ng t¸c víi ng­êi dïng doanh

nghiÖp vµ/hoÆc víi c¸c chuyªn gia miÒn. Néi dung chi tiÕt cña mçi b­íc trong

vßng ®êi cña qu¸ tr×nh D3M ®­îc tr×nh bµy nh­ d­íi ®©y, nh­ng cÇn l­u ý r»ng

tr×nh tù c¸c b­íc kh«ng lµ cøng nh¾c, mét sè giai ®o¹n cã thÓ ®­îc bá qua hoÆc

cã sù chuyÓn ®æi qua l¹i ®Ó thÝch øng víi mét vÊn ®Ò bµi to¸n trong thùc tiÔn:

Page 48: KPDL_C1-6 & C10

95 96

P1. HiÓu vÊn ®Ò (®Þnh danh vµ x¸c ®Þnh c¸c vÊn ®Ò, bao gåm c¶ ph¹m vi

cña nã vµ nh÷ng th¸ch thøc ...);

P2. Ph©n tÝch rµng buéc (®Þnh danh rµng buéc xung quanh c¸c vÊn ®Ò ë

trªn, tõ d÷ liÖu, miÒn øng dông, tÝnh thó vÞ vµ c¸ch ph©n bè);

P3. §Þnh nghÜa c¸c môc tiªu ph©n tÝch, vµ x©y dùng ®Æc tr­ng (®Þnh nghÜa

môc tiªu khai ph¸ d÷ liÖu, vµ c¸c ®Æc tr­ng ®­îc lùa chän phï hîp hoÆc x©y

dùng ®Ó ®¹t ®­îc c¸c môc tiªu);

P4. TiÒn xö lý d÷ liÖu (trÝch chän, chuyÓn ®æi vµ t¶i d÷ liÖu, nãi riªng,

chuÈn bÞ d÷ liÖu ch¼ng h¹n nh­ xö lý d÷ liÖu mÊt tÝch vµ riªng t­); hoÆc

P5. Lùa chän ph­¬ng ph¸p vµ m« h×nh hãa (lùa chän ®­îc c¸c m« h×nh vµ

ph­¬ng ph¸p thÝch hîp ®Ó ®¹t ®­îc c¸c môc tiªu trªn);

P05. M« h×nh hãa chuyªn s©u (¸p dông m« h×nh hãa chuyªn s©u b»ng c¸ch

sö dông nhiÒu m« h×nh hiÖu qu¶ tiÕt lé cèt lâi cña vÊn ®Ò, hoÆc dông khai ph¸ ®a

b­íc, khai ph¸ kÕt hîp);

P6. Ph©n tÝch vµ ®¸nh gi¸ kÕt qu¶ chung ban ®Çu (ph©n tÝch /®¸nh gi¸ c¸c

ph¸t hiÖn ban ®Çu);

P7. Lµ hoµn toµn hîp lý khi mçi giai ®o¹n tõ P1 cã thÓ ®­îc lÆp ®i lÆp l¹i

th«ng qua ph©n tÝch rµng buéc vµ t­¬ng t¸c víi c¸c chuyªn gia miÒn øng dông

theo ph­¬ng thøc quay lui vµ xem xÐt;

P07. Khai ph¸ chuyªn s©u vÒ kÕt qu¶ chung ban ®Çu khi ¸p dông;

P8. §o l­êng vµ n©ng cao kh¶ n¨ng hµnh ®éng (kiÓm tra tÝnh thó vÞ theo

quan ®iÓm c¶ vÒ kü thuËt vµ kinh doanh, vµ t¨ng c­êng hiÖu suÊt b»ng c¸ch ¸p

dông ph­¬ng ph¸p hiÖu qu¶ h¬n).

P9. Thùc hiÖn qua l¹i gi÷a P7 vµ P8;

P10. HËu xö lý kÕt qu¶ (hËu ph©n tÝch hoÆc hËu khai ph¸ d÷ liÖu c¸c kÕt

qu¶ ban ®Çu);

P11. Xem xÐt l¹i c¸c giai ®o¹n tõ P1 cã thÓ ®­îc ®ßi hái;

P12. TriÓn khai (triÓn khai c¸c kÕt qu¶ vµo c¸c ngµnh kinh doanh);

P13. Cung cÊp tri thøc vµ b¸o c¸o tæng hîp ®Ó ra quyÕt ®Þnh th«ng minh

(tæng hîp ph¸t hiÖn cuèi cïng thµnh b¸o c¸o ra quyÕt ®Þnh sÏ ®­îc chuyÓn giao

cho ng­êi kinh doanh).

2.3.2 VÒ bµi to¸n khai ph¸ d÷ liÖu

Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong d÷ liÖu lµ vÊn ®Ò t¨ng c­êng tµi

nguyªn tri thøc cña tæ chøc, vµ v× vËy, ®©y lµ mét vÊn ®Ò chiÕn l­îc. Nãi riªng,

trong doanh nghiÖp, bµi to¸n khai ph¸ d÷ liÖu ®­îc ®Æt ra tõ nhu cÇu kinh doanh

mµ kh«ng ph¶i lµ nhu cÇu cña c«ng nghÖ. Mét sè ®Þnh h­íng ®Çu t­ CNTT ®·

®­îc giíi thiÖu.

Qu¸ tr×nh tiÕn hãa m« h×nh khai ph¸ d÷ liÖu kh¼ng ®Þnh r»ng c«ng viÖc x¸c

®Þnh bµi to¸n khai ph¸ d÷ liÖu ®­îc ®¨t lªn hµng ®Çu. C¸c m« h×nh ®· nãi còng

nhÊt qu¸n tiÕp cËn bµi to¸n khai ph¸ d÷ liÖu tõ nhu cÇu ph¸t triÓn cña ®¬n vÞ, nãi

riªng trong c¸c doanh nghiÖp th× ®©y lµ nhu cÇu kinh doanh. HiÓu miÒn øng

dông cã tÝnh quyÕt ®Þnh cho viÖc x¸c ®Þnh bµi to¸n khai ph¸ d÷ liÖu. Chuyªn gia

miÒn lÜnh vùc kh«ng chØ lµ bé phËn chñ chèt cho x¸c ®Þnh bµi to¸n khai ph¸ d÷

liÖu mµ cßn trong c¶ toµn bé qu¸ tr×nh ph¸t hiÖn tri thøc, t¨ng c­êng tµi nguyªn

tri thøc cho doanh nghiÖp [WW08, HF09, Pan10, CYZ10]. Tõ ph­¬ng diÖn cña

chuyªn gia khai ph¸ d÷ liÖu bªn ngoµi, x¸c ®Þnh ®óng ®èi t­îng môc tiªu chuyªn

gia miÒn lÜnh vùc cña doanh nghiÖp lµ vÊn ®Ò then chèt ®Ó triÓn khai dù ¸n khai

ph¸ d÷ liÖu. Khi x¸c ®Þnh bµi to¸n khai ph¸ d÷ liÖu, chuyªn gia khai ph¸ d÷ liÖu

cÇn tr¸nh ®Þnh h­íng tiÕp cËn theo ph­¬ng diÖn c«ng nghÖ. X¸c ®Þnh ®óng bµi

to¸n ®óng ®¾n lµ mét yÕu tè quyÕt ®Þnh thµnh c«ng cña dù ¸n khai ph¸ d÷ liÖu

(Ch­¬ng 10).

Trong [WB98], Christopher Westphal vµ Teresa Blaxton ®­a ra mét sè

khuyÕn nghÞ khi b¾t ®Çu tiÕn hµnh mét dù ¸n khai ph¸ d÷ liÖu:

- Khi ®Æt ra mét bµi to¸n khai ph¸ d÷ liÖu th× cÇn tr¸nh ®­a ra sù kú väng

qu¸ ®¸ng vÒ kÕt qu¶. T­¬ng tù nh­ sù kú väng qu¸ ®¸ng ®èi víi CNTT, mét lÜnh

vùc ®ang næi nh­ khai ph¸ d÷ liÖu cã xu h­íng t¹o ra mét ®é ¶o t­ëng nµo ®ã

®èi víi mét bé phËn c¸ nh©n vµ tæ chøc. Khi ®Æt ra bµi to¸n khai ph¸ d÷ liÖu, cã

thÓ cã mét ­íc ®o¸n th« nµo ®ã vÒ kÕt qu¶ ph¸t hiÖn tri thøc, tuy nhiªn, ®Êy míi

chØ lµ sù ­íc ®o¸n ban ®Çu. Khai ph¸ d÷ liÖu lµ mét qu¸ tr×nh ph¸t hiÖn c¸c mÉu

míi vµ xu h­íng míi, tiÒm Èn trong d÷ liÖu, mµ ®· lµ "míi, tiÒm Èn" th× kh«ng

thÓ tiÕt lé tr­íc mét c¸ch ®Çy ®ñ kÕt qu¶ khai ph¸ d÷ liÖu. MÆt kh¸c, khai ph¸ d÷

liÖu lµ qu¸ tr×nh t­¬ng t¸c kh¸m ph¸, trong ®ã t­¬ng t¸c kh¸m ph¸ víi c¸c

Page 49: KPDL_C1-6 & C10

97 98

chuyªn gia miÒn øng dông cã ý nghÜa ®Æc biÖt quan träng. Huy ®éng tri thøc

chuyªn gia lµ vÊn ®Ò khã trong c«ng nghÖ tri thøc nãi chung vµ trong khai ph¸

d÷ liÖu nãi riªng.

Theo Christopher Westphal vµ Teresa Blaxton, khai ph¸ d÷ liÖu lµ mét qu¸

tr×nh ®éc ®¸o vµ ®Çy thö th¸ch, ®ßi hái ph¶i sö dông kÕt hîp c¸c ph­¬ng ph¸p vµ

c«ng nghÖ. Tuy khai ph¸ d÷ liÖu lµ mét qu¸ tr×nh thi hµnh bé phËn cña vßng ®êi

tri thøc song chuyªn gia khai ph¸ d÷ liÖu kh«ng thÓ lÆp ®i lÆp l¹i mét kÞch b¶n

mµ cÇn ph¶i kh«ng ngõng c¶i tiÕn c¸ch tiÕp cËn dùa trªn c¸c mÉu kÕt qu¶ ®·

®­îc ph¸t hiÖn.

- Khi ®Æt ra bµi to¸n khai ph¸ d÷ liÖu th× cÇn tÝnh ®Õn tÝnh thùc tiÔn cña

bµi to¸n. §Çu tiªn, vÊn ®Ò ®Çu tiªn cÇn gi¶i quyÕt lµ kinh phÝ ®Çu t­ cho mét dù

¸n khai ph¸ d÷ liÖu. Theo kinh nghiÖm cña Christopher Westphal vµ Teresa

Blaxton, c¸c c«ng ty th­êng ®Çu t­ cho khai ph¸ d÷ liÖu vµo kho¶ng 15%-20%

gi¸ trÞ lµm gi¶m thiÖt h¹i ®­îc ­íc tÝnh hoÆc c¶i tiÕn ®­îc dù kiÕn. Thø hai, tÝnh

kÞp thêi cÇn lµ mét ®øc h¹nh cña c¸c chuyªn gia khai ph¸ d÷ liÖu. Mét dù ¸n

khai ph¸ d÷ liÖu cÇn cho kÕt qu¶ trong thêi gian tÝnh theo ngµy hoÆc cïng l¾m

tÝnh theo tuÇn. Víi mét thêi h¹n ng¾n nh­ vËy trong bèi c¶nh lµm viÖc víi mét

khèi l­îng d÷ liÖu lín. V× kh«ng thÓ thùc hiÖn khai ph¸ d÷ liÖu trªn toµn bé d÷

liÖu, viÖc chän lùa d÷ liÖu cã vai trß rÊt quan träng. ViÖc chän lùa d÷ liÖu g¾n

kÕt víi môc tiªu ph¸t hiÖn tri thøc (trong doanh nghiÖp lµ môc tiªu kinh doanh),

v× vËy, ý kiÕn chuyªn gia néi bé t¹o thuËn lîi cho viÖc h¹n chÕ ph¹m vi d÷ liÖu.

H¬n n÷a, giao tiÕp tèt víi chuyªn gia néi bé gióp x¸c ®Þnh tèt môc tiªu cña khai

ph¸ d÷ liÖu. Thø ba, khi thùc hiÖn bµi to¸n khai ph¸ d÷ liÖu còng cÇn dù ®o¸n vµ

v­ît qua rµo c¶n vÒ thÓ chÕ. ViÖc tiÕp nhËn vµ sö dông tri thøc míi (mÉu míi, dù

®o¸n míi) cã thÓ kh¸c l¹ so víi néi dung thÓ chÕ hiÖn hµnh.

- TruyÒn th«ng, b¶o hiÓm, b¸n lÎ, tµi chÝnh – ng©n hµng, th­¬ng m¹i,

hoÆc ho¹t ®éng vËn chuyÓn cã nh÷ng vïng ho¹t ®éng dÔ bÞ tæn th­¬ng, mµ ë ®ã

gian lËn cã thÓ x¶y ra. Gian lËn kh«ng bÞ ph¸t hiÖn bëi v× chóng ®­îc Èn dËt

kh«ng khÐo trong mét l­îng lín c¸c giao dÞch b×nh th­êng. TÝnh míi cña kÕt

qu¶ khai ph¸ d÷ liÖu lµ ®iÒu cèt lâi song cÇn ph¸t hiÖn c¸c mÉu míi hoÆc phæ

biÕn hoÆc hiÕm.

2.4. §é ®o hÊp dÉn trong khai ph¸ d÷ liÖu

T¹i Ch­¬ng 1, khi gi¶i thÝch néi dung ®Þnh nghÜa KDD, c¸c ®é ®o cho tÝnh

cã gi¸ trÞ, tÝnh míi, tÝnh h÷u Ých tiÒm n¨ng, vµ ®Æc biÖt lµ tÝnh hÊp dÉn cña mét

mÉu ®­îc gi¶ ®Þnh lµ ®· cã. Mét mÉu ph¸t hiÖn ®­îc cã ®é hÊp dÉn v­ît qua

mét ng­ìng cho tr­íc th× nã ®­îc coi lµ tri thøc míi ®­îc ph¸t hiÖn. §é ®o hÊp

dÉn cña mét mÉu lµ ®é ®o tæng thÓ vÒ mÉu lµ sù kÕt hîp cña c¸c tiªu chÝ gi¸ trÞ,

míi, h÷u Ých vµ dÔ hiÓu Néi dung, tÝnh chÊt cña ®é ®o hÊp dÉn ch­a ®­îc ®Ò cËp.

§o l­êng tri thøc vµ ®o l­êng kinh tÕ tri thøc lµ nh÷ng bµi to¸n khã

[Grube09, OEC96, CD05] vµ ®o l­êng ®é hÊp dÉn cña mÉu trong khai ph¸ d÷

liÖu còng kh«ng n»m ngoµi quy luËt ®ã. Kh«ng cã mét ®é ®o hÊp ®Én chung cho

mÉu ®­îc ph¸t hiÖn mµ trong mçi ng÷ c¶nh øng dông cÇn x¸c ®Þnh c¸c ®é ®o

hÊp dÉn phï hîp nhÊt. Tri thøc ®­îc ph¸t hiÖn qua khai ph¸ d÷ liÖu ®­îc x¸c

®Þnh dùa trªn nhiÒu yÕu tè ng÷ c¶nh øng dông, ®iÓn h×nh lµ yÕu tè vÒ lo¹i bµi

to¸n khai ph¸ d÷ liÖu. Mçi lo¹i bµi to¸n khai ph¸ d÷ liÖu cã mét líp ®é ®o hÊp

dÉn phæ biÕn, ch¼ng h¹n nh­ khai ph¸ luËt kÕt hîp cã hai ®é ®o phæ biÕn lµ ®é

hç trî (support) vµ ®é tin cËy (confidence) hoÆc ph©n líp d÷ liÖu cã mét sè ®é

®o phæ biÕn lµ ®é håi t­ëng (recall), ®é chÝnh x¸c (precision) vµ ®é ®o F, thuËt

to¸n ph©n líp c©y quyÕt ®Þnh cßn sö dông c¸c ®é ®o Gini hoÆc ®é ®o lîi Ých

th«ng tin (information gain) ®Ó lùa chän thuéc tÝnh tèt ... §é ®o hÊp dÉn cßn

®­îc sö dông trong c¸c b­íc kh¸c cña qu¸ tr×nh ph¸t hiÖn tri thøc, trong ®ã ®Ó

viÖc hiÓu d÷ liÖu hoÆc lùa chän thuéc tÝnh còng cÇn c¸c ®é ®o hç trî cho mÉu

ph¸t hiÖn ®­îc hÊp dÉn. §ång thêi, khai ph¸ d÷ liÖu lo¹i nµy l¹i cã thÓ sö dông

®é ®o hÊp dÉn cña kiÓu khai ph¸ d÷ liÖu lo¹i kh¸c, ch¼ng h¹n nh­, ph©n côm cã

thÓ ®­îc thõa kÕ ®é ®o hÊp dÉn cña ph©n líp.

§o l­êng tÝnh hÊp dÉn cña mÉu ®­îc ph¸t hiÖn lµ mét néi dung nghiªn cøu

tÝch cùc vµ quan träng trong khai th¸c d÷ liÖu vµ ph¸t hiÖn tri thøc tõ d÷ liÖu.

NhiÒu c«ng tr×nh nghiªn cøu kh¸i qu¸t vµ chuyªn s©u vÒ néi dung nµy, ch¼ng

h¹n [Garry05, Grube09, HGEK07, Yao03, HZ10, GH06, ZZNS09], ®· ®­îc

c«ng bè. Dï ch­a cã sù c«ng nhËn réng r·i cho mét ®Þnh nghÜa vÒ ®é ®o hÊp dÉn

nh­ng c¸c tiªu chÝ cÇn ®¹t ®­îc cña mét mÉu hÊp dÉn l¹i nhËn ®­îc sù ®ång

thuËn cao. §é ®o hÊp dÉn cÇn ®¶m b¶o tri thøc ®­îc ph¸t hiÖn lµ c¸c mÉu cã tÝnh

Page 50: KPDL_C1-6 & C10

99 100

sóc tÝch (conciseness), tÝnh phæ dôngt/bao trïm (Generality/coverage), tÝnh tin

cËy (reliability), tÝnh ®Æc thï (peculiarity), tÝnh ®a d¹ng (diversity), tÝnh míi l¹

(novelty), tÝnh ng¹c nhiªn (surprisingness), tÝnh tiÖn Ých (utility), vµ tÝnh hµnh

®éng (actionability). Néi dung cña chÝn tÝnh chÊt nãi trªn ®­îc tr×nh bµy nh­

d­íi ®©y [GH06].

TÝnh sóc tÝch: MÉu lµ sóc tÝch nÕu nã cã chøa t­¬ng ®èi Ýt c¸c cÆp gi¸ trÞ

thuéc tÝnh vµ mét tËp c¸c mÉu lµ sóc tÝch nÕu nã chøa t­¬ng ®èi Ýt c¸c mÉu. Mét

mÉu hoÆc tËp mÉu sóc tÝch lµ t­¬ng ®èi dÔ dµng ®Ó hiÓu vµ ghi nhí vµ do ®ã

®­îc bæ sung dÔ dµng h¬n tri thøc cña ng­êi dïng. VÝ dô, h¹n chÕ chØ t×m kiÕm

c¸c luËt m¹nh trong khai ph¸ luËt kÕt hîp, t×m c©y tèt nhÊt cã thÓ ®­îc trong

ph©n líp c©y quyÕt ®Þnh lµ nh÷ng vÝ dô vÒ t×m tËp mÉu sóc tÝch. §é ®o F trong

ph©n líp d÷ liÖu nh»m ®¶m b¶o c¸c mÉu ph©n líp cã tÝnh sóc tÝch.

TÝnh phæ dông/ tÝnh bao trïm: Mét mÉu lµ phæ dông nÕu nã phñ mét tËp

con lín cña tËp d÷ liÖu theo nghÜa tËp b¶n ghi phï hîp víi mÉu trong tËp toµn bé

d÷ liÖu chiÕm mét tû lÖ lín. Khi ®ã, mÉu phæ dông sÏ ®Æc t¶ nhiÒu th«ng tin

trong tËp d÷ liÖu vµ v× vËy mÉu cã xu h­íng trë nªn hÊp dÉn h¬n. Trong khai ph¸

luËt kÕt hîp, ®é hç trî (support) ®­îc ®Æt ra nh»m ®¶m b¶o tri luËt t×m ®­îc cã

tÝnh phæ dông. TËp môc phæ biÕn lµ mÉu phæ dông khi ®é hç trî cña nã v­ît qua

mét ng­ìng ®é tèi thiÓu cho tr­íc ®­îc gäi lµ ®é hç trî tèi thiÓu. Trong ph©n

líp Bayes, ng­ìng quyÕt ®Þnh ph©n líp ®­îc ®Æt ra ®¶m b¶o mét líp chøa c¸c

b¶n ghi "phæ dông" thuéc vÒ nã. TÝnh phæ dông th­êng x¶y ra ®ång thêi víi tÝnh

sóc tÝch bëi v× c¸c mÉu sóc tÝch cã xu h­íng phæ dông h¬n c¸c mÉu kh«ng sóc

tÝch.

TÝnh tin cËy: Mét mÉu lµ tin cËy nÕu mèi quan hÖ mµ mÉu m« t¶ cho phÐp

®¹t mét tû lÖ cao khi ®­a ra ¸p dông. VÝ dô, mét luËt ph©n líp lµ ®¸ng tin cËy

nÕu dù ®o¸n cña nã chÝnh x¸c cao, vµ mét luËt kÕt hîp lµ tin cËy nÕu nã cã ®é

tin cËy cao. Trong khai ph¸ luËt kÕt hîp, nhiÒu ®é ®o x¸c suÊt, thèng kª, vµ thu

håi th«ng tin ®· ®­îc ®Ò xuÊt ®Ó ®o ®é tin cËy cña c¸c luËt.

TÝnh ®Æc thï: Mét mÉu cã tÝnh ®Æc thï nÕu nã "xa" c¸c mÉu ®­îc ph¸t hiÖn

kh¸c theo mét ®é ®o kho¶ng c¸ch nµo ®ã. MÉu ®Æc thï ®­îc t¹o ra tõ d÷ liÖu ®Æc

thï (hoÆc ngo¹i lai), t­¬ng ®èi Ýt vÒ sè l­îng vµ kh¸c biÖt ®¸ng kÓ víi phÇn cßn

l¹i cña d÷ liÖu. MÉu ®Æc thï cã thÓ ch­a ®­îc ng­êi sö dông h×nh dung tíi cho

nªn nã hÊp dÉn. Trong khai ph¸ luËt kÕt hîp, luËt hiÕm (rare rule) lµ lo¹i luËt kÕt

hîp cã tÝnh ®Æc thï.

TÝnh ®a d¹ng: TÝnh ®a d¹ng cña mÉu thÓ hiÖn r»ng c¸c thµnh phÇn cña nã

kh¸c biÖt ®¸ng kÓ víi c¸c thµnh phÇn kh¸c, vµ mét tËp mÉu lµ ®a d¹ng nÕu c¸c

mÉu trong tËp lµ kh¸c biÖt nhau ®¸ng kÓ. §a d¹ng lµ mét tiªu chÝ phæ biÕn ®Ó ®o

l­êng tÝnh hÊp dÉn cña tãm t¾t d÷ liÖu: Mét b¶n tãm t¾t cã thÓ ®­îc coi lµ ®a

d¹ng nÕu ph©n bè x¸c suÊt cña nã lµ kh¸c biÖt so víi ph©n phèi ®ång nhÊt.

Ng­êi dïng th­êng cã xu h­íng gi¶ ®Þnh b¶n tãm t¾t gi÷ mét ph©n phèi ®ång

nhÊt cho nªn b¶n tãm t¾t ®a d¹ng trë nªn hÊp dÉn.

TÝnh míi l¹: MÉu lµ "míi l¹" cho mét ng­êi nÕu ng­êi ®ã kh«ng biÕt nã

tr­íc vµ kh«ng thÓ suy ra nã tõ c¸c mÉu kh¸c ®· biÕt. §o l­êng tÝnh míi l¹ cã

®«i chót kh¸c biÖt víi ®o l­êng mét sè tiªu chÝ hÊp hÉn kh¸c cã nghÜa lµ kh«ng

thÓ ®­a ra mét ng­ìng ®Ó ®o l­êng tÝnh míi l¹. Thø nhÊt, hÖ thèng khai ph¸ d÷

liÖu kh«ng tr×nh diÔn mäi thø mµ ng­êi sö dông ®· biÕt: tÝnh míi l¹ kh«ng thÓ

®o mét c¸ch râ rµng khi tham chiÕu tíi tri thøc miÒn øng dông cña ng­êi sö

dông. Thø hai, hÖ thèng khai th¸c d÷ liÖu kh«ng thÓ tr×nh bµy nh÷ng ®iÒu mµ

ng­êi dïng ch­a biÕt: tÝnh míi l¹ kh«ng thÓ ®o mét c¸ch râ rµng khi tham chiÕu

ngoµi tri thøc miÒn cña ng­êi dïng. Thay vµo ®ã, mÉu míi l¹ ®­îc ph¸t hiÖn

th«ng qua (1) x¸c ®Þnh râ rµng cho ng­êi sö dông thÕ nµo lµ mét mÉu míi l¹; (2)

®­a ra mét th«ng b¸o mÉu ®­îc ph¸t hiÖn kh«ng thÓ ®­îc suy ra vµ kh«ng m©u

thuÉn víi c¸c mÉu ®­îc ph¸t hiÖn tr­íc. Trong tr­êng hîp thø hai, c¸c mÉu ph¸t

hiÖn tr­íc ®­îc coi nh­ mét xÊp xØ víi tri thøc cña ng­êi sö dông.

TÝnh kinh ng¹c: MÉu lµ kinh ng¹c (hoÆc ®ét xuÊt) nÕu nã m©u thuÉn víi tri

thøc hiÖn cã hoÆc kú väng cña mét ng­êi. Mét mÉu ®­îc ph¸t hiÖn kh¸c biÖt víi

mét mÉu chung ®· ®­îc ph¸t hiÖn còng cã thÓ ®­îc coi lµ mÉu kinh ng¹c nhiªn.

MÉu kinh ng¹c lµ hÊp dÉn bëi v× chóng x¸c ®Þnh sù thÊt b¹i trong tri thøc tr­íc

®©y vµ cã thÓ ®Ò xuÊt mét khÝa c¹nh míi cÇn ®­îc nghiªn cøu vÒ d÷ liÖu.

Sù kh¸c biÖt gi÷a tÝnh kinh ng¹c vµ tÝnh míi l¹ lµ ë chç mét mÉu míi l¹ lµ

mÉu míi vµ kh«ng m©u thuÉn víi bÊt kú mÉu nµo ®· ®­îc ng­êi sö dông biÕt,

trong khi mét mÉu kinh ng¹c l¹i m©u thuÉn víi tri thøc tr­íc ®ã hoÆc mong ®îi

cña ng­êi dïng.

Page 51: KPDL_C1-6 & C10

101 102

TÝnh tiÖn Ých : MÉu lµ tiÖn Ých nÕu gãp phÇn ®¹t ®­îc môc tiªu cho mét

ng­êi sö dông nã. Nh÷ng ng­êi sö dông kh¸c nhau cã thÓ cã nh÷ng môc tiªu

kh¸c nhau liªn quan ®Õn nh÷ng tri thøc cã thÓ ®­îc chiÕt xuÊt tõ mét tËp d÷ liÖu.

VÝ dô, mét ng­êi cã thÓ quan t©m t×m kiÕm tÊt c¶ c¸c doanh sè b¸n hµng víi lîi

nhuËn cao trong mét tËp d÷ liÖu giao dÞch, trong khi ng­êi kh¸c l¹i cã thÓ quan

t©m t×m kiÕm tÊt c¶ c¸c giao dÞch víi sù gia t¨ng lín trong tæng doanh thu. TÝnh

hÊp dÉn dùa trªn chøc n¨ng ng­êi dïng ®Þnh nghÜa vÒ tÝnh tiÖn Ých.

TÝnh hµnh ®éng /¸p dông ®­îc. MÉu cã tÝnh hµnh ®éng (hoÆc ¸p dông

®­îc) trong mét ph¹m vi nµo ®ã nÕu m·u cho phÐp ra quyÕt ®Þnh vÒ nh÷ng hµnh

®éng trong t­¬ng lai thuéc miÒn øng dông. TÝnh hµnh ®éng ®«i khi ®­îc kÕt hîp

víi mét mÉu lùa chän chiÕn l­îc. Ch­a cã mét ph­¬ng ph¸p chung cho viÖc ®o

l­êng tÝnh hµnh ®éng vµ c¸c ®é ®o hiÖn t¹i phô thuéc vµo c¸c øng dông. VÝ dô,

®o l­êng tÝnh hµnh ®éng nh­ chi phÝ thay ®æi t×nh tr¹ng hiÖn t¹i cña kh¸ch hµng

®Ó phï hîp víi môc tiªu, hoÆc ®o l­êng tÝnh hµnh ®éng nh­ lµ lîi nhuËn mµ mét

luËt kÕt hîp cã thÓ mang l¹i.

C¸c tiªu chÝ ®o l­êng mÉu hÊp dÉn nãi trªn cã sù t­¬ng quan víi nhau mµ

kh«ng ph¶i ®éc lËp hoµn toµn. Thø nhÊt, chóng cã sù t­¬ng ®ång t­¬ng ®èi víi

nhau, ch¼ng h¹n, tÝnh thi hµnh ®­îc cã thÓ lµ mét xÊp xØ tèt cho tÝnh kinh ng¹c,

vµ ®èi ngÉu l¹i; tÝnh sóc tÝch th­êng trïng hîp víi tÝnh phæ dông; tÝnh phæ dông

th­êng lµ ®é nh¹y gi¶m nhiÔu cho nªn còng liªn quan tíi tÝnh tin cËy. Thø hai,

chóng còng cã tÝnh kh«ng t­¬ng ®ång, ch¼ng h¹n, tÝnh phæ dông cã vÎ xung ®ét

víi tÝnh ®Æc thï, trong khi ®ã nã (tÝnh phæ dông) l¹i t­¬ng ®ång víi tÝnh míi l¹.

C¸c ®é ®o hÊp dÉn ®­îc chia thµnh ba líp chÝnh lµ líp c¸c ®é ®o kh¸ch

quan, ®é ®o chñ quan vµ ®é ®o dùa trªn ng÷ nghÜa dùa theo c¸c tiªu chÝ mµ ®é

®o ®¸p øng.

Mét ®é ®o ®­îc gäi lµ kh¸ch quan nÕu ®o l­êng nã chØ dùa trªn c¸c d÷ liÖu

th«, kh«ng cã yªu cÇu trùc tiÕp vÒ tri thøc cña ng­êi sö dông hoÆc gi¸n tiÕp

th«ng qua mét øng dông kh¸c. HÇu hÕt c¸c ®é ®o kh¸ch quan dùa trªn lý thuyÕt

x¸c suÊt, thèng kª, hoÆc lý thuyÕt th«ng tin. C¸c tiªu chÝ sóc tÝch, phæ dông, tin

cËy, ®Æc thï, vµ ®a d¹ng chØ phô thuéc vµo c¸c d÷ liÖu vµ c¸c mÉu, vµ do ®ã cã

thÓ ®­îc coi lµ kh¸ch quan.

H×nh 2.15. §é ®o hÊp dÉn vµ c«ng thøc tÝnh to¸n (trÝch, 2006 [HG06])

Page 52: KPDL_C1-6 & C10

103 104

Mét ®é ®o ®­îc gäi lµ chñ quan nÕu ®o l­êng nã dùa trªn c¶ d÷ liÖu vµ tri

thøc ng­êi sö dông. §Ó cã ®­îc tri thøc ng­êi sö dông, truy cËp vµo tªn miÒn

hoÆc tri thøc nÒn vÒ d÷ liÖu cña ng­êi dïng ®­îc yªu cÇu. Truy cËp nµy cã thÓ

thu ®­îc b»ng c¸ch t­¬ng t¸c víi ng­êi sö dông trong qu¸ tr×nh khai th¸c d÷ liÖu

hoÆc b»ng c¸ch t­êng minh ®¹i diÖn cho tri thøc hoÆc kú väng cña ng­êi sö

dông. TÝnh míi l¹ vµ tÝnh kinh ng¹c phô thuéc vµo ng­êi sö dông c¸c mÉu, còng

nh­ c¸c d÷ liÖu vµ c¸c mÉu cã s½n, vµ do ®ã cã thÓ ®­îc xem xÐt lµ cã tÝnh chñ

quan.

Mét ®é ®o ®­îc gäi lµ ng÷ nghÜa nÕu cÇn ph¶i xem xÐt ng÷ nghÜa vµ gi¶i

thÝch cña mÉu. Bëi v× c¸c ®é ®o ng÷ nghÜa liªn quan ®Õn tri thøc miÒn tõ ng­êi

sö dông, ®é ®o ng÷ nghÜa ®­îc xem xÐt nh­ mét lo¹i ®é ®o chñ quan ®Æc biÖt.

TÝnh tiÖn Ých vµ tÝnh hµnh ®éng phô thuéc vµo ng÷ nghÜa cña d÷ liÖu, vµ do ®ã

cã thÓ ®­îc xem xÐt lµ ®é ®o ng÷ nghÜa. Mét chøc n¨ng tiÖn Ých ®¹i diÖn ng÷

nghÜa môc tiªu cña ng­êi dïng cÇn ®­îc bæ sung vµ lµm tèi ­u hãa kÕt qu¶ khai

ph¸ mÉu. VÝ dô, mét hÖ thèng khai ph¸ luËt kÕt hîp h­íng tíi ng­êi sö dông lµ

qu¶n lý cöa hµng nªn cã chøc n¨ng thÓ hiÖn ng÷ nghÜa ®¶m b¶o luËt kÕt hîp cã

liªn quan ®Õn mÆt hµng cã lîi nhuËn cao h¬n ®­îc ­u tiªn h¬n nh÷ng luËt cã ý

nghÜa thèng kª cao h¬n.

Tån t¹i ba ph­¬ng ph¸p ®­îc dïng ®Ó ¸c ®Þnh mét mÉu lµ mÉu lµ tri thøc

hay kh«ng dùa trªn c¸c tiªu chÝ ®· cã. Thø nhÊt, tiÕn hµnh ph©n lo¹i mÉu lµ hÊp

dÉn hay kh«ng, ch¼ng h¹n, sö dông kiÓm thö thèng kª khi-b×nh ph­¬ng ®Ó ph©n

biÖt gi÷a c¸c mÉu hÊp dÉn vµ kh«ng hÊp dÉn. Thø hai, x¸c ®Þnh mét mèi quan hÖ

­u tiªn gi÷a c¸c mÉu ®Ó m« t¶ r»ng mét mÉu lµ hÊp dÉn h¬n c¸c mÉu kh¸c. Thø

ba, xÕp h¹ng c¸c mÉu khai ph¸ ®­îc. §èi víi hai ph­¬ng ph¸p thø nhÊt hoÆc thø

ba, cã thÓ x¸c ®Þnh vµ sö dông mét ®é ®o hÊp dÉn dùa trªn chÝn tiªu chÝ nãi trªn.

C¸c ®é ®o hÊp dÉn rÊt phong phó vµ phÇn lín c¸c ®é ®o kh¸ch quan dùa

trªn c¬ së ®é ®o thèng kª, ch¼ng h¹n, H×nh 2.15 tr×nh bµy mét tËp c¸c ®é ®o

kh¸ch quan dùa trªn thèng kª. Mçi mét dßng trong H×nh 2.15 t­¬ng øng víi mét

®é ®o, bao gåm tªn ®é ®o vµ c«ng thøc tÝnh to¸n .

Nh­ ®· giíi thiÖu, ®o l­êng tÝnh hÊp dÉn cña mÉu, cô thÓ lµ nghiªn cøu vÒ

®é ®o hÊp dÉn lµ néi dung nghiªn cøu n¨ng ®éng vµ quan träng. Mét sè tµi liÖu

nh­ giíi thiÖu sau ®©y cã thÓ cung cÊp nÒn t¶ng tèt cho h­íng nghiªn cøu nµy.

Liqiang Geng vµ Howard J. Hamilton [GH06] cung cÊp mét khung nh×n

võa kh¸i qu¸t võa chuyªn sau vÒ ®é ®o hÊp dÉn trong ph¸t hiÖn tri thøc. Mét sè

néi dung chÝnh trong nghiªn cøu cña hai t¸c gi¶ ®· ®­îc giíi thiÖu ë trªn. Yao

Y.Y. vµ céng sù còng cã nhiÒu nghiªn cøu vÒ ®é ®o hÊp dÉn, trong ®ã nh÷ng

ph©n tÝch cña Yao Y.Y. [Yao03] cho c¸ch tiÕp cËn tèt khi nghiªn cøu vÒ ®é ®o

hÊp dÉn. Xuan-Hiep Huynh vµ céng sù [HGEK07] tr×nh bµy 36 ®é ®o hÊp dÉn

®­îc kh¶o s¸t ®Ó ®¸nh gi¸ dùa trªn ®å thÞ (ph¸t triÓn c¸c kÕt qu¶ nghiªn cøu tõ

luËn ¸n TS cña Xuan-Hiep Huynh. Trong [HZ10], M..J. Heravi vµ O. R. Zaïane

ph©n tÝch vÒ 53 ®é ®o hÊp dÉn kh¸ch quan. Yuejin Zhang vµ céng sù [ZZNS09]

tr×nh bµy mét sè ph©n tÝch vÒ 12 ®é ®o hÊp dÉn (8 ®é ®o kh¸ch quan vµ 4 ®é ®o

chñ quan) t­¬ng øng víi 9 tiªu chÝ môc tiªu cña ®é ®o hÊp dÉn.

Trong bµi to¸n ph©n líp d÷ liÖu (Ch­¬ng 6), hai bé ®é ®o ®iÓn h×nh nhÊt lµ

(i) bé ®é ®o gåm ®é chÝnh x¸c (precision measure), ®é håi t­ëng (recall

measure) vµ kÕt hîp cña chóng (F mµ ®iÓn h×nh nhÊt lµ ®é ®o F1); (ii) Bé ®é ®o

gåm ®é chÝnh x¸c (accurary measure) vµ møc ®é lçi (error rate). §èi víi c¸c bé

d÷ liÖu "kh«ng c©n ®èi" (lùc l­îng phÇn tö cña c¸c líp lµ qu¸ lÖch nhau), nhiÒu

nhµ nghiªn cøu (ch¼ng h¹n nh­ [NEM09]) cho r»ng bé ®é ®o (®é chÝnh x¸c, ®é

håi t­ëng) mµ ®¹i diÖn lµ ®é ®o F cã hiÖu lùc cao h¬n cÆp ®é ®o (®é chÝnh x¸c,

hÖ sè lçi).

C©u hái vµ Bµi tËp

2.1. §Çu t­ CNTT cÇn h­íng tíi c¸c tiªu chÝ g× qua néi dung cña NghÞch lý hiÖu

qu¶ cña CNTT, luËn ®iÓm cña Carr vµ bµn luËn liªn quan cña céng ®ång.

2.2. Ph©n tÝch vai trß vµ kü n¨ng chÝnh cña ng­êi gi¸m ®èc th«ng tin (CIO) trong

tæ chøc.

2.3. Kh¸i niÖm kinh tÕ tri thøc, bèn cét trô cña kinh tÕ tri thøc vµ vai trß cña

CNTT ®èi víi bèn cét trô nµy.

2.4. Bèn d¹ng siªu tri thøc (meta-knowledge).

Page 53: KPDL_C1-6 & C10

105 106

2.5. Ma trËn chuyÓn hãa tri thøc SECI (Socialization – X· héi hãa,

Externalization – Ngo¹i hiÖn, Combination - KÕt hîp, Internalization - TiÕp

thu).

2.6. Nh÷ng néi dung chÝnh trong khung nh×n tri thøc doanh nghiÖp.

2.7. Vßng ®êi cña tri thøc doanh nghiÖp.

2.8. Kh¸i niÖm vµ c¸c thµnh phÇn chÝnh cña c«ng nghÖ tri thøc.

2.9. Tr×nh bµy c¸c néi dung chÝnh vÒ xu thÕ ph¸t triÓn c¸c m« h×nh ph¸t hiÖn tri

thøc tõ d÷ liÖu. Liªn hÖ víi vai trß chiÕn l­îc cña CNTT.

2.10. M« h×nh khai ph¸ d÷ liÖu theo chuÈn c«ng nghiÖp CRISP-DM.

2.11. M« h×nh qu¸ tr×nh khai ph¸ d÷ liÖu h­íng miÒn øng dông theo [CYZZ10].

2.12. Nh÷ng ®iÓm cÇn l­u ý khi ®Æt bµi to¸n khai ph¸ d÷ liÖu.

2.13. Kh¸i niÖm vµ c¸c tÝnh chÊt nªn cã cña mét ®é ®o hÊp dÉn trong khai ph¸ d÷

liÖu.

Page 54: KPDL_C1-6 & C10

107 108

Ch­¬ng 3. ChuÈn bÞ d÷ liÖu

3.1. Giíi thiÖu

Trong qu¸ tr×nh khai ph¸ d÷ liÖu, viÖc hiÓu ®­îc ®Æc tÝnh cña d÷ liÖu gióp

cho qu¸ tr×nh ph©n tÝch d÷ liÖu trë nªn hiÖu qu¶ h¬n rÊt nhiÒu. Kh¸i niÖm hiÓu

d÷ liÖu ë ®©y liªn quan chÆt chÏ tíi kh¸i niÖm chÊt l­îng cña d÷ liÖu. Trong thùc

tÕ khi x©y dùng kho d÷ liÖu chuÈn bÞ cho b­íc khai ph¸ d÷ liÖu, kh¶ n¨ng d÷ liÖu

cã thÓ bÞ nhiÔu, kh«ng ®Çy ®ñ, vµ kh«ng nhÊt qu¸n. §©y lµ nh÷ng vÊn ®Ò rÊt hay

x¶y ra trong nh÷ng n¬i cã tr÷ l­îng d÷ liÖu lín:

Tr­êng hîp d÷ liÖu kh«ng ®Çy ®ñ cã thÓ cã nhiÒu lý do c¶ kh¸ch

quan lÉn chñ quan. Ch¼ng h¹n nh­ rÊt nhiÒu th«ng tin cÇn quan

t©m vÒ kh¸ch mua hµng ta kh«ng thÓ dÔ dµng lÊy ®­îc (v× rÊt

nhiÒu ng­êi coi ®ã lµ th«ng tin riªng t­). HoÆc mét sè th«ng tin t¹i

thêi ®iÓm thu thËp ta kh«ng nghÜ nã quan träng nªn kh«ng lÊy.

HoÆc d÷ liÖu kh«ng thÓ thu thËp ®­îc do lçi thiÕt bÞ.

D÷ liÖu bÞ nhiÔu còng do nhiÒu nguyªn nh©n, ch¼ng h¹n nh­ lçi

thiÕt bÞ thu nhËn hoÆc truyÒn dÉn; khi nhËp d÷ liÖu ng­êi nhËp cã

thÓ nhËp sai;

D÷ liÖu kh«ng nhÊt qu¸n cã thÓ ph¸t sinh tõ viÖc kh«ng sö dông

chung mét chuÈn quy ­íc khi nhËp d÷ liÖu, hoÆc ®Þnh d¹ng d÷ liÖu

lµ kh¸c nhau (vÝ dô nh­ ®Þnh d¹ng ngµy th¸ng cã rÊt nhiÒu lo¹i).

V× lý do nµy mµ ta cÇn cã b­íc chuÈn bÞ d÷ liÖu nh»m ®¶m b¶o d÷ liÖu ®Çu

vµo cho c¸c thuËt to¸n khai ph¸ lµ chuÈn vµ chÝnh x¸c, v× chÊt l­îng cña d÷ liÖu

cã ¶nh h­ëng rÊt lín ®Õn kÕt qu¶ khai ph¸. Trong ch­¬ng nµy sÏ tr×nh bµy c¸c

ph­¬ng ph¸p chuÈn bÞ d÷ liÖu th«ng dông hay ®­îc dïng trong thùc tÕ lµ lµm

s¹ch d÷ liÖu, tÝch hîp d÷ liÖu, chuyÓn ®æi d÷ liÖu vµ lµm gi¶m d÷ liÖu.

3.2. HiÓu d÷ liÖu

§Ó khai ph¸ d÷ liÖu thµnh c«ng, tr­íc khi thùc hiÖn c¸c ph­¬ng ph¸p khai

ph¸ ta cÇn ph¶i cã c¸i nh×n tæng qu¸t vÒ d÷ liÖu, trªn c¬ së ®ã ta cã thÓ ph¸t hiÖn

ra c¸c ®Æc tÝnh cña d÷ liÖu, còng nh­ ph¸t hiÖn ra ®©u lµ d÷ liÖu nhiÔu hay d÷

liÖu ngo¹i lai. Quan träng h¬n ta cã thÓ t×m ra ®­îc ph­¬ng ph¸p tiÒn xö lý vµ

khai ph¸ d÷ liÖu nµo lµ phï hîp víi tËp d÷ liÖu ta ®ang xÐt. Mét trong nh÷ng tÝnh

chÊt cña d÷ liÖu ta cÇn quan t©m lµ xu h­íng tËp trung vµ ph©n t¸n cña d÷ liÖu.

§é tËp trung cña d÷ liÖu cã thÓ ®o ®­îc b»ng c¸c ®é ®o: trung b×nh (mean),

trung vÞ (median), mode vµ midrange. §é ph©n t¸n cña d÷ liÖu cã thÓ ®o ®­îc

th«ng qua c¸c ®é ®o quartile, interquartile range vµ variance. Nh÷ng ®é ®o trªn

®­îc gäi lµ nh÷ng th«ng tin tãm t¾t vÒ d÷ liÖu. Ta cã thÓ hiÓn thÞ d÷ liÖu tãm t¾t

trªn ®Ó cã ®­îc c¸i nh×n trùc quan vÒ ®Æc tÝnh cña d÷ liÖu.

3.2.1. §o ®é tËp trung cña d÷ liÖu

§é ®o trung b×nh: ®©y lµ ®é ®o phæ dông nhÊt, nã ®¹i diÖn cho träng t©m

cña d÷ liÖu. Gäi x1, x2, ... , xN lµ N phÇn tö d÷ liÖu cho mét thuéc tÝnh nµo ®ã,

ch¼ng h¹n thuéc tÝnh gi¸ (price), khi ®ã gi¸ trÞ trung b×nh cña tËp d÷ liÖu trªn lµ:

N

xxx

N

x

x N

N

ii

...211 (3.1)

§é ®o nµy còng ®· ®­îc tÝch hîp vµo nhiÒu hÖ qu¶n trÞ c¬ së d÷ liÖu, nã

chÝnh lµ hµm avg() trong ng«n ng÷ SQL. Trong mét sè tr­êng hîp mçi phÇn tö

d÷ liÖu cã träng sè wi kh¸c nhau, ta cã c«ng thøc t­¬ng øng cho gi¸ trÞ trung

b×nh nh­ sau:

Page 55: KPDL_C1-6 & C10

109 110

N

NNN

ii

N

iii

www

xwwxxw

w

xw

x

..

...

21

2211

1

1 (3.2)

Khi d÷ liÖu cã nhiÒu gi¸ trÞ bÊt th­êng, ch¼ng h¹n nh­ cã mét vµi phÇn tö

cã gi¸ trÞ cao v­ît lªn th× gi¸ trÞ trung b×nh sÏ bÞ ¶nh h­ëng. §Ó kh¾c phôc ®iÒu

nµy, mét trong nh÷ng gi¶i ph¸p ®¬n gi¶n lµ sö dông ®é ®o trung b×nh cã c¾t xÐn

(trimmed mean). Cô thÓ ta s¾p xÕp d÷ liÖu theo chiÒu t¨ng, sau ®ã lo¹i bá ®i mét

sè gi¸ trÞ cao nhÊt vµ thÊp nhÊt (vÝ dô lo¹i bá 2%). Gi¸ trÞ cßn l¹i ®­îc dïng ®Ó

tÝnh gi¸ trÞ trung b×nh.

§é ®o trung vÞ: Khi d÷ liÖu cã ph©n bè lÖch th× ®é ®o trung b×nh còng

kh«ng phï hîp, ta cã thÓ sö dông ®é ®o trung vÞ. Gi¶ sö ta cã N gi¸ trÞ kh¸c nhau

®­îc s¾p xÕp theo thø tù t¨ng dÇn, khi ®ã trung vÞ cña tËp d÷ liÖu nµy lµ phÇn tö

ë gi÷a (nÕu N lÎ), vµ b»ng trung b×nh cña 2 phÇn tö ë gi÷a (nÕu N ch½n). Trong

tr­êng hîp tæng qu¸t th× c¸ch tÝnh trªn kh«ng cßn ®óng n÷a, ta cã thÓ tÝnh xÊp xØ

trung vÞ nh­ sau. Ta nhãm d÷ liÖu vµo c¸c nhãm t­¬ng øng víi c¸c kho¶ng d÷

liÖu. VÝ dô ta cã thÓ nhãm tr­êng gi¸ (price) ë trªn vµo c¸c kho¶ng 10 000-20

000, 20 000 -30 000, ... Gäi freqmedian lµ sè l­îng (tÇn suÊt) c¸c phÇn tö d÷ liÖu

n»m trong nhãm chøa trung vÞ tÝnh theo c«ng thøc ë trªn; L1 lµ cËn d­íi cña c¸c

gi¸ trÞ d÷ liÖu; width lµ ®é lín cña nhãm chøa trung vÞ; (∑freq)l lµ tæng sè c¸c

phÇn tö d÷ liÖu cña c¸c nhãm cã gi¸ trÞ nhá h¬n nhãm ch­a trung vÞ; N lµ tæng

sè l­îng c¸c phÇn tö d÷ liÖu, khi ®ã c«ng thøc tÝnh trung vÞ cho c¶ tËp d÷ liÖu lµ:

widthfreq

lfreqNLmedian

median

))(2/

(1

(3.3)

Mode: lµ mét ®é ®o n÷a ®o ®é tËp trung cña d÷ liÖu, nã lµ tËp con d÷ liÖu

xuÊt hiÖn víi tÇn suÊt cao nhÊt trong tËp d÷ liÖu. Trong tr­êng hîp tæng qu¸t, cã

thÓ tån t¹i nhiÒu tËp con d÷ liÖu cïng xuÊt hiÖn víi tÇn suÊt cao nhÊt, khi ®ã ta

nãi d÷ liÖu lµ multimodal. Tr­êng hîp d÷ liÖu cã 1, 2 hay 3 th× c¸c tªn t­¬ng øng

víi nã lµ unimodal, bimodal, vµ trimodal. NÕu tËp d÷ liÖu cã c¸c phÇn tö d÷ liÖu

cã gi¸ trÞ hoµn toµn kh¸c nhau (tÇn suÊt xuÊt hiÖn cña c¸c phÇn tö d÷ liÖu lµ 1)

th× kh«ng tån t¹i mode. Trong tr­êng hîp d÷ liÖu cã 1 mode, th× ta cã c«ng thøc

tÝnh ®¬n gi¶n nh­ sau:

mean-mode=3(mean-median)

NÕu d÷ liÖu cã ph©n bè ®èi xøng th× c¸c gi¸ trÞ mean, median vµ mode lµ

trïng nhau, tr­êng hîp d÷ liÖu cã ph©n bè kh«ng ®èi xøng th× chóng cã c¸c gi¸

trÞ kh¸c nhau nh­ minh häa trªn h×nh 3.1.

H×nh 3.1 VÞ trÝ cña c¸c gi¸ trÞ mean, median vµ mode

Midrange: ®é ®o nµy còng ®­îc dïng ®Ó ®¸nh gi¸ ®é tËp trung cña d÷ liÖu,

nã lµ gi¸ trÞ trung b×nh cña gi¸ trÞ lín nhÊt (hµm max() trong SQL) vµ thÊp nhÊt

(hµm min() trong SQL) trong tËp d÷ liÖu.

3.2.2. §o ®é ph©n t¸n cña d÷ liÖu

Gäi x1, x2, ... , xN lµ N lµ tËp quan s¸t cho mét thuéc tÝnh nµo ®ã ®­îc s¾p

xÕp theo thø tù t¨ng dÇn, ch¼ng h¹n thuéc tÝnh gi¸ (price). MiÒn gi¸ trÞ (range)

cña tËp d÷ liÖu nµy lµ [Min, Max], trong ®ã Min lµ gi¸ trÞ nhá nhÊt, vµ Max lµ

gi¸ trÞ lín nhÊt trong tËp d÷ liÖu nµy. PhÇn tö thø k% lµ phÇn tö xi sao cho xi cã

gi¸ trÞ lín h¬n hoÆc b»ng c¸c phÇn tö n»m trong phÇn k% tÝnh tõ ®Çu d·y. Nh­

vËy trung vÞ (median) ë phÇn trªn lµ phÇn tö 50%. PhÇn tö hay ®­îc dïng h¬n

trung vÞ trong phÇn nµy lµ phÇn tø (quartile), phÇn tø thø nhÊt ký hiÖu lµ Q1 lµ

Page 56: KPDL_C1-6 & C10

111 112

phÇn tö 25%, phÇn tø thø 2 (Q2) lµ phÇn tö 50%, phÇn tø thø 3 (Q3) lµ phÇn tö

75%. C¸c gi¸ trÞ nµy thÓ hiÖn trung t©m, ®é bao phñ vµ h×nh d¹ng cña ph©n bè

d÷ liÖu. Kho¶ng c¸ch tõ phÇn tø thø nhÊt ®Õn phÇn tø thø 3 lµ ®é ®o ®¬n gi¶n thÓ

hiÖn sù bao phñ cña d÷ liÖu, hay nã chÝnh lµ miÒn gi¸ trÞ cña phÇn nöa gi÷a cña

d÷ liÖu. Kho¶ng c¸ch nµy ®­îc gäi lµ interquartile range (IQR):

IQR = Q3 – Q1

Gi¸ trÞ nµy còng rÊt h÷u Ých ®Ó ph©n tÝch d÷ liÖu cã ph©n bè lÖch. Ngoµi ra

nã cßn cã thÓ dïng ®Ó ph¸t hiÖn ra c¸c phÇn tö ngo¹i lai, phÇn tö ngo¹i lai lµ

phÇn tö cã gi¸ trÞ nhá h¬n 1.5IQR gi¸ trÞ phÇn tø thø nhÊt, hoÆc lín h¬n

1.5IQR gi¸ trÞ phÇn tø thø 3. V× phÇn tø thø 3 ch­a chøa th«ng tin vÒ d÷ liÖu

n»m ë cuèi d·y nªn trong thùc tÕ, ®Ó m« t¶ d÷ liÖu, ng­êi ta t¹o ra bé 5 tãm t¾t

d÷ liÖu (five-number summary) gåm: Min, Q1, Median, Q3, Max. Bé 5 tãm t¾t

nµy ®­îc biÓu diÔn b»ng mét boxplot nh­ h×nh 3.2 m« t¶ ph©n bè cña d÷ liÖu gi¸

b¸n mét mÆt hµng t¹i c¸c chi nh¸nh kh¸c nhau. Trong ®ã phÇn d­íi cïng lµ Min,

phÇn tiÕp theo (®¸y cña h×nh ch÷ nhËt) lµ Q1, ®o¹n th¼ng n»m trong h×nh ch÷

nhËt lµ Median, c¹nh trªn cña h×nh ch÷ nhËt lµ Q3, vµ cao nhÊt lµ Max.

NÕu ta nhËn thÊy kh«ng cã d÷ liÖu bÊt th­êng th× ta gi÷ nguyªn gi¸ trÞ cña

Max vµ Min, ng­îc l¹i ta thay gi¸ trÞ cña Max b»ng 1.5IQR+Q3 vµ Min= Q1-

1.5IQR. C¸c ®iÓm d÷ liÖu xuÊt hiÖn ngoµi kho¶ng nµy ®­îc coi lµ d÷ liÖu ngo¹i

lai. VÝ dô nh­ ë chi nh¸nh 1 trªn h×nh 3.2 ta cã 2 phÇn tö ngo¹i lai ë phÝa trªn

gi¸ trÞ Max.

H×nh 3.2 Boxplot cho d÷ liÖu gi¸ b¸n cho c¸c chi nh¸nh

Ph­¬ng sai vµ ®é lÖch chuÈn: ph­¬ng sai (variance) cña mét tËp d÷ liÖu

gåm N phÇn tö x1, x2, ... , xN lµ:

N

i

N

iii

N

ii x

Nx

Nxx

N 1 1

22

1

22 )(11

)(1

(3.4)

trong ®ã x lµ gi¸ trÞ trung b×nh. §é lÖch chuÈn (standard deviation) chÝnh

lµ c¨n bËc 2 cña ph­¬ng sai. §é lÖch chuÈn hay ®­îc dïng cïng gi¸ trÞ trung

b×nh khi ®é trung b×nh ®­îc lùa chän lµ trung t©m, nã thÓ hiÖn sù bao phñ (®é

Page 57: KPDL_C1-6 & C10

113 114

lÖch) cña d÷ liÖu quanh gi¸ trÞ trung b×nh. NÕu d÷ liÖu lµ gièng nhau th× =0,

ng­îc l¹i >0. Gi¸ trÞ cña cµng lín th× gi¸ trÞ cña d÷ liÖu cµng kh¸c nhau

nhiÒu.

3.2.3. HiÓn thÞ d÷ liÖu tãm t¾t

Ngoµi c¸c biÓu ®å, ®å thÞ dïng ®Ó hiÓn thÞ d÷ liÖu, ta cßn cã c¸c c¸ch hiÓn

thÞ c¸c th«ng tin tãm t¾t vÒ d÷ liÖu bao gåm: biÓu ®å tÇn suÊt (histogram), q-q

plot, scatter plot vµ loes curve. Boxplot còng lµ mét c¸ch hiÓn thÞ d÷ liÖu tãm t¾t.

VÝ dô vÒ biÓu ®å tÇn suÊt cã thÓ xem ë môc 3.6.2.

§å thÞ quantile plot: lµ mét ph­¬ng ph¸p hiÓn thÞ d÷ liÖu ®¬n gi¶n trªn d÷

liÖu mét chiÒu (univariate). Qua h×nh ¶nh hiÓn thÞ ta cã thÓ cã mét c¸i nh×n tæng

thÓ vÒ d÷ liÖu còng nh­ nh÷ng gi¸ trÞ bÊt th­êng trong d÷ liÖu. Gäi xi lµ tËp gi¸

trÞ d÷ liÖu (1 ≤ i ≤ N) ®­îc s¾p xÕp theo chiÒu t¨ng dÇn, mçi gi¸ trÞ xi ®­îc g¸n

víi gi¸ trÞ phÇn tr¨m fi lµ gi¸ trÞ xÊp xØ víi fi % (tØ lÖ % sè l­îng d÷ liÖu nhá h¬n

hoÆc b»ng xi) ®­îc ®Ò cËp ë trªn. Gäi lµ fi xÊp xØ v× cã thÓ kh«ng tån t¹i d÷ liÖu

thùc tháa m·n ®iÒu kiÖn trªn vµ gi¸ trÞ cña fi ®­îc tÝnh b»ng c«ng thøc sau:

fi=(0.5-i)/N. Nh­ vËy gi¸ trÞ cña fi =0.25 sÏ t­¬ng ®­¬ng víi Q1 , fi =0.5 sÏ t­¬ng

®­¬ng víi Q2, fi =0.75 sÏ t­¬ng ®­¬ng víi Q3.

Khi biÓu diÔn trªn ®å thÞ, gi¸ trÞ xi sÏ ®­îc vÏ t­¬ng øng víi fi. Gi¶ sö cã 2

tËp d÷ liÖu vÒ gi¸ b¸n cña mét chi nh¸nh t¹i 2 thêi ®iÓm kh¸c nhau, ®å thÞ

quantile plot sÏ cho chóng ta cã thÓ so s¸nh ®­îc ph©n bè d÷ liÖu t¹i 2 thêi ®iÓm

kh¸c nhau. H×nh 3.3 lµ mét ®å thÞ quantile plot vÒ gi¸ tiÒn cña mÆt hµng.

H×nh 3.3 §å thÞ quantile plot cho thuéc tÝnh gi¸ (price)

§å thÞ quantile-quantile plot (q-q plot): ®Ó so s¸nh ph©n bè d÷ liÖu cña 2

chi nh¸nh kh¸c nhau ta cã thÓ sö dông ®å thÞ nµy. Gäi x1, x2, ... , xN lµ N phÇn tö

d÷ liÖu ®· ®­îc s¾p xÕp cña chi nh¸nh thø nhÊt; y1, y2, ... , yM lµ M phÇn tö d÷

liÖu ®· ®­îc s¾p xÕp cña chi nh¸nh thø 2. NÕu N=M th× ta chØ cÇn vÏ xi t­¬ng

øng víi yi. NÕu M<N khi ®ã ta chØ vÏ M ®iÓm (i-0.5)/M cña d÷ liÖu x t­¬ng øng

víi y.

H×nh 3.4 minh häa ®å thÞ q-q plot cña d÷ liÖu cho thuéc tÝnh price ë 2 chi

nh¸nh kh¸c nhau. §Ó dÔ so s¸nh ta vÏ thªm ®­êng th¼ng ®i qua c¸c ®iÓm cã gi¸

trÞ b»ng nhau trªn 2 trôc sè. §iÓm thÊp nhÊt trong ®å thÞ lµ t­¬ng øng víi 0.03

quantile, c¸c « ®­îc t« ®Ëm t­¬ng øng víi Q1, trung vÞ vµ Q3. Qua ®å thÞ nµy ta

cã thÓ thÊy ngay ®­îc gi¸ b¸n t¹i chi nh¸nh 1 thÊp h¬n mét chót so víi chi

nh¸nh 2, nh­ng t¹i mét sè ®iÓm, ch¼ng h¹n nh­ ®iÓm cao nhÊt th× chi nh¸nh 1

l¹i cao h¬n chi nh¸nh 2.

Page 58: KPDL_C1-6 & C10

115 116

H×nh 3.4 §å thÞ q-q plot so s¸nh 2 chi nh¸nh víi nhau

§å thÞ scatter plot: lµ mét trong nh÷ng c«ng cô ®å häa m¹nh nhÊt, nã cho

phÐp ta cã thÓ kiÓm tra xem liÖu cã mèi quan hÖ, mÉu hay xu h­íng gi÷a 2

thuéc tÝnh sè. §å thÞ nµy ®¬n gi¶n chØ vÏ lªn mÆt ph¼ng c¸c ®iÓm t­¬ng øng víi

gi¸ trÞ cña cÆp thuéc tÝnh trªn (do ®ã cã thÓ nã chØ thÝch hîp khi sè l­îng d÷ liÖu

lµ nhá). H×nh 3.5 lµ ®å thÞ scatter plot cña tËp d÷ liÖu vÒ gi¸. §å thÞ nµy cã thÓ

cho ta c¸i nh×n trùc quan vÒ d÷ liÖu, tõ ®ã cã thÓ ph¸t hiÖn ra ®Æc tÝnh cña d÷

liÖu, sù t­¬ng quan gi÷a c¸c thuéc tÝnh vµ cã thÓ ph¸t hiÖn ra lu«n c¶ c¸c gi¸ trÞ

ngo¹i lai. Trong h×nh nµy ta kh«ng thÊy sù t­¬ng quan nµo gi÷a 2 thuéc tÝnh.

H×nh 3.6 lµ mét ®å thÞ scatter plot kh¸c cho thÊy tån t¹i sù t­¬ng quan gi÷a 2

thuéc tÝnh. H×nh bªn tr¸i lµ t­¬ng quan d­¬ng, h×nh bªn ph¶i lµ t­¬ng quan ©m.

Loes curve: lµ ®å thÞ xÊp xØ ph©n bè d÷ liÖu, nã lµ mét c«ng cô quan träng

cung cÊp cho ng­êi ph©n tÝch vÒ mèi quan hÖ gi÷a 2 thuéc tÝnh. Tõ loes lµ viÕt

t¾t cña tõ håi quy côc bé (local regression). H×nh 3.7 minh häa ®å thÞ loes curve

cho tËp d÷ liÖu ®­îc vÏ ë h×nh 3.5.

H×nh 3.5 §å thÞ scatter plot cho thuéc tÝnh gi¸

H×nh 3.6 §å thÞ scatter cã tån t¹i sù t­¬ng quan gi÷a 2 thuéc tÝnh

3.3. TiÒn xö lý d÷ liÖu

Cã nhiÒu c¸ch tiÒn xö lý d÷ liÖu kh¸c nhau nh»m môc tiªu t¨ng chÊt l­îng

d÷ liÖu vµ tõ ®ã cã thÓ lµm t¨ng hiÖu qu¶ cña c¸c kü thuËt khai ph¸ d÷ liÖu. Mçi

mét kü thuËt cô thÓ sÏ gióp c¶i thiÖn chÊt l­îng d÷ liÖu theo h­íng nhÊt ®Þnh vµ

hiÖu qu¶ cña nã phô thuéc rÊt nhiÒu vµo ®Æc tr­ng cña d÷ liÖu. Mét sè kü thuËt

tiÒn xö lý d÷ liÖu th­êng ®­îc ¸p dông bao gåm:

Page 59: KPDL_C1-6 & C10

117 118

H×nh 3.7 §å thÞ loes curve biÓu diÔn quan hÖ gi÷a 2 thuéc tÝnh

Kü thuËt lµm s¹ch d÷ (data cleaning) liÖu th­êng ®­îc sö dông ®Ó thªm

nh÷ng gi¸ trÞ bÞ thiÕu, lo¹i bá nhiÔu, x¸c ®Þnh vµ lo¹i bá c¸c gi¸ trÞ ngo¹i lai

vµ gi¶i quyÕt vÊn ®Ò kh«ng nhÊt qu¸n cña d÷ liÖu. HiÓn nhiªn ta sÏ kh«ng

thÓ tin t­ëng vµo kÕt qu¶ thu ®­îc tõ bÊt kú thuËt to¸n khai ph¸ d÷ liÖu nµo

nÕu ta biÕt ch¾c r»ng d÷ liÖu cßn ch­a ®­îc lµm s¹ch vµ cã chÊt l­îng tèt.

Mét sè kü thuËt khai ph¸ d÷ liÖu ®· tÝch hîp s½n c¸c m« ®un ®Ó lo¹i bá

nhiÔu vµ xö lý d÷ liÖu thiÕu, tuy nhiªn phÇn lín chóng ho¹t ®éng kh«ng thùc

sù hiÖu qu¶. V× vËy thay v× tËp trung vµo viÖc lµm s¹ch d÷ liÖu c¸c thuËt

to¸n khai ph¸ d÷ liÖu cã thÓ tËp trung vµo viÖc x©y dùng c¸c m« h×nh hiÖu

qu¶ h¬n. NhiÖm vô lµm s¹ch d÷ liÖu sÏ ®­îc thùc hiÖn trong qu¸ tr×nh tiÒn

xö lý d÷ liÖu tr­íc khi sö dông bÊt kú thuËt to¸n khai ph¸ d÷ liÖu nµo (xem

phÇn 3.4).

Kü thuËt tÝch hîp d÷ liÖu (data integration): cho phÐp trén (l¾p ghÐp/

tÝch hîp) d÷ liÖu tõ nhiÒu nguån kh¸c nhau vÒ mét kho chøa ®ång nhÊt vµ cã

tÝnh g¾n kÕt chÆt chÏ phôc vô cho qu¸ tr×nh khai ph¸ d÷ liÖu tiÕp theo. Nh­

chóng ta ®· biÕt, c¸c nguån d÷ liÖu kh¸c nhau th× tæ chøc vµ ®Þnh nghÜa d÷

liÖu hoµn toµn cã thÓ kh¸c nhau. VÝ dô: ®Ó chØ cïng mét thuéc tÝnh tªn

ng­êi cã nguån ®Þnh nghÜa lµ Name, nguån kh¸c ®Æt lµ TEN, hoÆc chia ra lµ

TEN, HO vµ DEM. Ngay c¶ trong miÒn gi¸ trÞ cña tõng thuéc tÝnh còng cã

thÓ ®­îc ®Þnh nghÜa kh¸c nhau, vÝ dô nh­ thuéc tÝnh TUOI = {(0...3), (4-

18), (19-39), (40,59), (60, …)} t­¬ng ®­¬ng víi {“s¬ sinh”, “trÎ em”,

“thanh niªn”, “trung niªn”, “ng­êi giµ”}. Qu¸ tr×nh khai ph¸ tri thøc sÏ

kh«ng thÓ thùc hiÖn, thùc hiÖn chËm hoÆc thùc hiÖn kh«ng chÝnh x¸c khi d÷

liÖu cã cµng nhiÒu d÷ liÖu d­ thõa. HiÓn nhiªn ta thÊy trong khi tÝch hîp d÷

liÖu c¸c kü thuËt lµm s¹ch d÷ liÖu ph¶i ®­¬c ¸p dông nh»m tr¸nh sù d­ thõa

d÷ liÖu. Kh«ng nh÷ng thÕ c¸c kü thuËt lµm s¹ch cßn ®­îc ¸p dông ®Ó ph¸t

hiÖn vµ lo¹i bá c¸c d÷ liÖu d­ thõa sau khi tÝch hîp d÷ liÖu tõ nhiÒu nguån

kh¸c nhau.

Thu gän (lµm gi¶m) d÷ liÖu (data reduction) nh»m gi¶m kÝch cì cña d÷

liÖu nhiÒu nhÊt cã thÓ mµ kh«ng lµm ¶nh h­ëng (hoÆc ¶nh h­ëng ë møc

chÊp nhËn ®­îc) tíi kÕt qu¶ ph©n tÝch. ViÖc thu gän d÷ liÖu th­êng x¶y ra

trong tr­êng hîp d÷ liÖu qu¸ lín tíi møc lµm gi¶m hiÖu n¨ng cña c¸c kü

thuËt khai ph¸ d÷ liÖu nh­ thêi gian ch¹y qu¸ l©u hoÆc kh«ng ®ñ bé nhí ®Ó

thùc hiÖn… Cã hai chiÕn l­îc thu gän d÷ liÖu lµ gi¶m chiÒu d÷ liÖu

(dimensionality reduction) vµ gi¶m sè l­îng d÷ liÖu (numerosity reduction).

Kü thuËt chuyÓn d¹ng d÷ liÖu (data transformation) cã thÓ øng dông víi

d÷ liÖu cã ph©n bæ kh«ng phï hîp víi c¸c thuËt to¸n ph©n tÝch d÷ liÖu dùa

trªn kho¶ng c¸ch nh­ m¹ng n¬ ron, ph©n líp K-l¸ng riÒng gÇn nhÊt,…. Víi

nh÷ng kü thuËt khai ph¸ d÷ liÖu nµy, th«ng th­êng d÷ liÖu cÇn ®­îc chuÈn

hãa vÒ cïng mét miÒn d÷ liÖu th× c¸c ®é ®o kho¶ng c¸ch míi ®­îc ¸p dông

mét c¸ch hiÖu qu¶. Ph­¬ng ph¸p rêi r¹c hãa (discretization) vµ t¹o c©y ph©n

cÊp kh¸i niÖm (concept hierarchy generation) d÷ liÖu còng lµ nh÷ng kü thuËt

rÊt hiÖu qu¶ trong viÖc chuyÓn d¹ng d÷ liÖu. VÝ dô thay v× biÓu diÔn tuæi

b»ng c¸c con sè, ta cã thÓ biÓu diÔn b»ng tËp hîp c¸c tõ “trÎ em”, “thanh

niªn”, “trung niªn” vµ “ng­êi giµ”.

Nh÷ng kü thuËt vµ nhãm kü thuËt trªn ®©y cã thÓ ®­îc ¸p dông ®ång thêi

víi nhau ®Ó t¨ng hiÖu qu¶ sö dông vµ chóng hoµn toµn kh«ng lo¹i trõ lÉn nhau.

H×nh vÏ 3.8 tæng kÕt c¸c kü thuËt tiÒn xö lý d÷ liÖu ®­îc tr×nh bµy ë trªn.

Page 60: KPDL_C1-6 & C10

119 120

Nãi chung, d÷ liÖu thùc tÕ th­êng chøa nhiÒu nhiÔu, kh«ng ®Çy ®ñ vµ

kh«ng nhÊt qu¸n. TiÒn xö lý d÷ liÖu gióp tang chÊt l­îng cña d÷ liÖu, tõ ®ã cã

thÓ c¶i tiÕn ®­îc ®é chÝnh x¸c vµ hiÖu qu¶ cña c¸c qu¸ tr×nh khai ph¸ d÷ liÖu ë

c¸c b­íc tiÕp theo. TiÒn xö lý d÷ liÖu lµ mét trong nh÷ng b­íc rÊt quan träng

trong qu¸ tr×nh khai ph¸ tri thøc bëi tÝnh ®óng ®¾n cña c¸c quyÕt ®Þnh phô thuéc

rÊt nhiÒu vµo chÊt l­îng cña d÷ liÖu. Ph¸t hiÖn ra sù bÊt th­êng vµ söa ch÷a sím

d÷ liÖu còng nh­ gi¶m d÷ liÖu ph©n tÝch cã thÓ thu ®­îc lîi Ých v« cïng lín

trong qu¸ tr×nh xö lý tri thøc ®Ó ®­a ra quyÕt ®Þnh.

3.4. Lµm s¹ch d÷ liÖu

Nh­ tr×nh bµy ë môc 3.1, d÷ liÖu th­êng kh«ng ®Çy ®ñ, chøa nhiÒu gi¸ trÞ

nhiÔu vµ kh«ng æn ®Þnh. Kü thuËt nµy t×m c¸ch tÝnh to¸n c¸c gi¸ trÞ cßn thiÕu,

lo¹i bá vµ lµm mÞn c¸c gi¸ trÞ nhiÔu trong qu¸ tr×nh x¸c ®Þnh ®Æc tr­ng, còng nh­

chØnh söa sù nhÊt qu¸n cña d÷ liÖu. ë phÇn nµy chóng t«i chØ tr×nh bµy mét sè

ph­¬ng ph¸p c¬ b¶n ®Ó lµm s¹ch d÷ liÖu bao gåm c¸ch kh«i phôc d÷ liÖu bÞ

thiÕu, c¸c kü thuËt lµm mÞn, quy tr×nh lµm s¹ch d÷ liÖu.

H×nh 3.8 – C¸c kü thuËt tiÒn xö lý dữ liÖu

Page 61: KPDL_C1-6 & C10

121 122

3.4.1. C¸c gi¸ trÞ bÞ thiÕu

Trong tr­êng hîp d÷ liÖu cã rÊt nhiÒu b¶n ghi cã c¸c thuéc tÝnh kh«ng cã

d÷ liÖu. LiÖu cã c¸ch nµo ®Ó lÊp ®Çy nh÷ng vÞ trÝ thiÕu d÷ liÖu nh­ vËy kh«ng?

Cã mét sè ph­¬ng ph¸p nh­ sau:

1. Bá qua nh÷ng b¶n ghi thiÕu d÷ liÖu: kü thuËt nµy th­êng ®­îc ¸p dông khi

thuéc tÝnh nh·n bÞ thiÕu (trong tr­êng hîp ph©n líp). C¸ch thøc nµy th­êng

kh«ng hiÖu qu¶, trõ tr­êng hîp b¶n ghi cã nhiÒu thuéc tÝnh thiÕu gi¸ trÞ. Kü

thuËt nµy ®Æc biÖt tåi trong tr­êng hîp sè l­îng b¶n ghi cã c¸c thuéc tÝnh

kh«ng cã gi¸ trÞ chiÕm mét sè l­îng ®¸ng kÓ so víi c¸c b¶n ghi ®Çy ®ñ.

Trong mét sè tr­êng hîp th× d÷ liÖu trong c¸c b¶n ghi kh«ng ®Çy ®ñ l¹i cã

thÓ cã mét ý nghÜa nµo ®ã trong qu¸ tr×nh ph©n tÝch d÷ liÖu.

2. X¸c ®Þnh c¸c gi¸ trÞ cßn thiÕu mét c¸ch thñ c«ng: nãi chung ®©y lµ mét kü

thuËt tèn kÐm vÒ mÆt thêi gian vµ nã thùc sù kh«ng kh¶ thi trong tr­êng hîp

d÷ liÖu lín víi nhiÒu gi¸ trÞ bÞ thiÕu.

3. Sö dông h»ng sè toµn côc: thay thÕ toµn bé c¸c gi¸ trÞ cßn thiÕu b»ng mét

h»ng sè ®­îc ®Þnh nghÜa tr­íc. Ph­¬ng ph¸p nµy thùc hiÖn kh¸ ®¬n gi¶n

tuy nhiªn hiÖu qu¶ cña nã kh«ng ®­îc chøng minh mét c¸ch râ rµng.

4. Sö dông c¸c ®é ®o h­íng träng t©m cña d÷ liÖu (vÝ dô nh­ tÝnh trung b×nh

céng hoÆc tÝnh trung vÞ,…). Víi c¸c d÷ liÖu ®èi xøng th«ng th­êng ¸p dông

kü thuËt tÝnh trung b×nh, cßn víi d÷ liÖu kh«ng ®èi xøng th× tÝnh trung vÞ

phï hîp h¬n.

5. Sö dông gi¸ trÞ b×nh qu©n hay trung vÞ cña mét thuéc tÝnh cho tÊt c¶ c¸c gi¸

trÞ cña cïng mét líp.

6. Sö dông gi¸ trÞ cã kh¶ n¨ng cao nhÊt ®Ó thay thÕ cho gi¸ trÞ thiÕu: ®iÒu nµy

cã thÓ x¸c ®Þnh ®­îc th«ng qua kü thuËt håi quy hoÆc, sö dông c¸c c«ng cô

suy diÔn dùa trªn lý thuyÕt Bayes hay quy n¹p dùa trªn c©y quyÕt ®Þnh.

C¸c ph­¬ng ph¸p tõ 3 ®Õn 6 cã thÓ bÞ ¶nh h­ëng bëi d÷ liÖu, do ®ã gi¸ trÞ

®­îc thay thÕ cã thÓ kh«ng chÝnh x¸c. Tuy vËy, kü thuËt sè 6 l¹i ®­îc sö dông

kh¸ phæ biÕn. Chóng ta cÇn l­u ý, trong nhiÒu tr­êng hîp, c¸c gi¸ trÞ bÞ thiÕu

kh«ng cã nghÜa lµ d÷ liÖu bÞ lçi. VÝ dô khi chóng ta ®i kh¸m bÖnh, ng­êi bÖnh

kh«ng cã thÎ b¶o hiÓm y tÕ sÏ ®­îc ®Ó trèng ë môc thÎ BHYT. Nãi chung, mÆc

dï chóng ta cã thÓ sö dông kü thuËt ®Ó lµm s¹ch d÷ liÖu sau khi nhËn ®­îc, tuy

nhiªn c¸c kü thuËt thu thËp d÷ liÖu còng cÇn ph¶i ®­îc c¶i tiÕn ®Ó gi¶m sè l­îng

c¸c gi¸ trÞ bÞ thiÕu còng nh­ lçi ngay t¹i b­íc thu thËp d÷ liÖu ban ®Çu.

3.4.2. D÷ liÖu bÞ nhiÔu

NhiÔu lµ nh÷ng lçi ngÉu nhiªn hoÆc nh÷ng sai lÖch trong c¸c gi¸ trÞ ®o ®¹c

®­îc. Cã nhiÒu ph­¬ng ph¸p ®· ®­îc sö dông ®Ó lo¹i bá nhiÔu, d­íi ®©y xin giíi

thiÖu mét sè ph­¬ng ph¸pth«ng dông.

+ Ph­¬ng ph¸p binning: ph­¬ng ph¸p nµy sÏ g¸n gi¸ trÞ cho nhãm d÷ liÖu

®· ®­îc s¾p xÕp b»ng c¸ch tham kh¶o c¸c gi¸ trÞ l©n cËn. C¸c gi¸ trÞ ®· ®­îc s¾p

xÕp ®­îc ph©n phèi vµo c¸c nhãm sè t­¬ng øng. TiÕp theo ta ¸p dông ph­¬ng

ph¸p lµm mÞn phï hîp víi tõng kiÓu d÷ liÖu. H×nh 3.9 m« t¶ mét sè ph­¬ng ph¸p

lµm mÞn. Trong vÝ dô nµy ta cã thuéc tÝnh price cã gi¸ trÞ tõ 4 cho ®Õn 34 vµ

®­îc ®¸nh gi¸ lµ d÷ liÖu nhiÔu. §Ó khö nhiÔu ta s¾p xÕp danh s¸ch gi¸ trÞ cña

thuéc tÝnh nµy råi chia thµnh 3 nhãm (trong tr­êng hîp nµy lµ chia sao cho sè

l­îng trong mçi nhãm lµ ®Òu nhau), sau ®ã ta g¸n l¹i gi¸ trÞ cho c¸c phÇn tö

trong tõng nhãm c¸c gi¸ trÞ míi. Tr­êng hîp thø nhÊt c¸c gi¸ trÞ míi nµy lµ gi¸

trÞ trung b×nh, tr­êng hîp thø 2 lµ g¸n gi¸ trÞ cho c¸c phÇn tö ë gi÷a b»ng gi¸ trÞ

cña phÇn tö ngoµi biªn.

Tr­êng gi¸ trÞ cña thuéc tÝnh price sau khi s¾p xÕp: 4, 8, 15, 21, 21, 24, 25, 28, 34

Ph©n chia d÷ liÖu trªn thµnh c¸c nhãm (bin) dùa theo sè l­îng

4, 8, 15

21, 21, 24

25, 28, 34

Lµm mÞn b»ng gi¸ trÞ trung b×nh cña tõng nhãm

9, 9, 9

22, 22, 22

29, 29, 29

Page 62: KPDL_C1-6 & C10

123 124

Lµm mÞn b»ng gi¸ trÞ biªn cña tõng nhãm

4, 4, 15

21, 21, 24

25, 25, 34

H×nh 3.9. Ph­¬ng ph¸p lµm mÞn d÷ liÖu Binning

T­¬ng tù, ta cã thÓ ¸p dông ph­¬ng ph¸p lµm mÞn dùa trªn gi¸ trÞ trung vÞ.

Trong ph­¬ng ph¸p lµm mÞn dùa trªn c¸c gi¸ trÞ biªn, th× gi¸ trÞ lín nhÊt vµ nhá

nhÊt ®­îc sö dông. Mçi gi¸ trÞ trong c¸c nhãm sè t­¬ng øng sÏ ®­îc thay thÕ

b»ng gi¸ trÞ lín nhÊt hay nhá nhÊt t­¬ng øng tïy thuéc vµo gi¸ trÞ nµo gÇn nã

h¬n. Ph­¬ng ph¸p nµy còng ®­îc sö dông nh­ lµ mét ph­¬ng ph¸p rêi r¹c hãa

d÷ liÖu sÏ ®­îc tr×nh bµy trong môc 3.7.

+ Ph­¬ng ph¸p håi quy (regression): håi quy lµ ph­¬ng ph¸p t×m ra mét

hµm sè biÓu diÔn d÷ liÖu, cã nhiÒu ph­¬ng ph¸p håi quy. Håi quy tuyÕn tÝnh

(linear regression) lµ ph­¬ng ph¸p t×m ra ®­êng th¼ng tèt nhÊt biÓu diÔn quan hÖ

gi÷a hai thuéc tÝnh, b»ng c¸ch nµy th× mét thuéc tÝnh cã thÓ suy diÔn ra thuéc

tÝnh cßn l¹i. Håi quy tuyÕn tÝnh ®a trÞ (multiple linear regression) lµ tr­êng hîp

më réng cña håi quy tuyÕn tÝnh trong ®ã cã nhiÒu h¬n hai thuéc tÝnh tham gia vµ

d÷ liÖu ®­îc biÓu diÔn trªn kh«ng gia ®a chiÒu.

H×nh 3.10 VÝ dô vÒ ph©n côm vµ gi¸ trÞ ngo¹i lai

+ Ph­¬ng ph¸p ph©n tÝch ngo¹i lai (outlier analysis): c¸c gi¸ trÞ ngo¹i lai cã

thÓ ®­îc ph¸t hiÖn th«ng qua ph­¬ng ph¸p ph©n côm (clustering), c¸c gi¸ trÞ

t­¬ng ®ång víi nhau sÏ ®­îc gom l¹i thµnh c¸c nhãm cã cïng tÝnh chÊt. Mét

c¸ch trùc quan, ta cã thÓ nhËn thÊy c¸c gi¸ trÞ n»m ngoµi c¸c côm cã thÓ ®­îc

coi lµ c¸c gi¸ trÞ ngo¹i lai nh­ m« t¶ trªn h×nh 3.10.

3.4.3. Lµm s¹ch d÷ liÖu ph¶i lµ mét quy tr×nh

Gi¸ trÞ bÞ thiÕu, nhiÔu vµ kh«ng nhÊt qu¸n lµm cho d÷ liÖu kh«ng cßn chÝnh

x¸c. Nh­ ®· tr×nh bµy ë c¸c phÇn tr­íc, chóng ta ®· t×m kiÕm c¸c ph­¬ng ph¸p

®Ó thùc hiÖn viÖc lo¹i bá c¸c gi¸ trÞ bÞ thiÕu vµ lµm mÞn d÷ liÖu.

Cã thÓ dÔ dµng thÊy ®©y lµ mét c«ng viÖc kh«ng hÒ ®¬n gi¶n, cã thÓ coi nã

lµ mét c«ng viÖc rÊt lín t­¬ng ®­¬ng víi mét quy tr×nh. B­íc ®Çu tiªn trong quy

tr×nh lµm s¹ch d÷ liÖu lµ ph¸t hiÖn ra c¸c bÊt th­êng trong d÷ liÖu. Sù bÊt th­êng

nµy cã thÓ ®Õn tõ nhiÒu nguån kh¸c nhau nh­ do thiÕt kÕ mÉu nhËp liÖu víi qu¸

nhiÒu tr­êng tïy chän, hay do lçi ng­êi nhËp liÖu, lçi do cè ý, hay th«ng tin

kh«ng ®­îc cËp nhËt. Sù bÊt th­êng còng cã thÓ b¾t nguån tõ thÓ hiÖn cña d÷

liÖu kh«ng nhÊt qu¸n hoÆc c¸ch sö dông c¸c ®Þnh d¹ng biÓu diÔn kh¸c nhau.

Mét nguyªn nh©n g©y sù bÊt th­êng hay gÆp kh¸c ®ã lµ do háng hãc ngµy trong

thiÕt bÞ thu nhËn d÷ liÖu hoÆc lçi hÖ thèng. Lçi còng cã thÓ gÆp ph¶i khi d÷ liÖu

®­îc sö dông sai víi môc ®Ých ban ®Çu. Sù bÊt th­êng d÷ liÖu còng cã thÓ ®­îc

sinh ra trong qu¸ tr×nh tÝch hîp d÷ liÖu.

C©u hái ®Æt ra lµ lµm thÕ nµo ®Ó thùc hiÖn viÖc ph¸t hiÖn ra sù bÊt th­êng

trong d÷ liÖu? Th«ng th­êng ta cã thÓ b¾t ®Çu b»ng viÖc sö dông tÊt c¶ nh÷ng tri

thøc s½n cã ®èi víi c¸c tÝnh chÊt cña d÷ liÖu. Nh÷ng hiÓu biÕt nµy cã thÓ ®­îc

hiÓu nh­ lµ siªu d÷ liÖu (metadata) hay b¶n chÊt nã lµ “d÷ liÖu vÒ d÷ liÖu”.

VÝ dô vÒ siªu d÷ liÖu lµ: kiÓu d÷ liÖu vµ miÒn gi¸ trÞ cho tõng thuéc tÝnh;

gi¸ trÞ cã thÓ cho mçi thuéc tÝnh. Sö dông mét sè ph­¬ng ph¸p ph©n tÝch thèng

kª ®¬n gi¶n nh­ t×m trung b×nh, trung vÞ, ®é lÖch chuÈn, … cã thÓ gióp t×m ra xu

h­íng cña d÷ liÖu vµ x¸c ®Þnh ®­îc nh÷ng dÞ th­êng trong d÷ liÖu; kiÓm tra xem

d÷ liÖu lµ ®èi xøng hay bÊt ®èi xøng; t×m kho¶ng biÕn thiªn cña c¸c gi¸ trÞ; t×m

Page 63: KPDL_C1-6 & C10

125 126

®é lÖch chuÈn cña mçi thuéc tÝnh; t×m sù phô thuéc gi÷a hai thuéc tÝnh bÊt kú…

Trong b­íc nµy, ta cã thÓ tù viÕt ch­¬ng tr×nh hoÆc sö dông c¸c c«ng cô cã s½n

®Ó thùc hiÖn. Tõ ®ã ta cã thÓ ph¸t hiÖn ra nhiÔu, sù bÊt th­êng, c¸c gi¸ trÞ kh«ng

b×nh th­êng cÇn ®­îc nghiªn cøu.

Lµ ng­êi ph©n tÝch d÷ liÖu, ta cÇn ph©n tÝch t×m hiÓu mäi sù m©u thuÉn

trong viÖc sö dông chuÈn hoÆc ®Þnh d¹ng d÷ liÖu. VÝ dô nh­ thuéc tÝnh thêi gian

cã thÓ ®­îc biÓu diÔn b»ng c¸c chuÈn kh¸c nhau nh­ n¨m tr­íc, th¸ng råi míi

®Õn ngµy, cã chuÈn l¹i biÓu diÔn ngµy tr­íc. HoÆc cïng mét chuÈn l¹i ®­îc biÓu

diÔn b»ng nhiÒu ®Þnh d¹ng kh¸c nhau nh­ “YYYY/MM/DD” vµ “YY/MM/DD”.

D÷ liÖu còng nªn ®­îc kiÓm tra dùa trªn mét sè luËt bao gåm quy t¾c duy

nhÊt, liªn tôc vµ quy t¾c NULL. Quy t¾c duy nhÊt ph¸t biÓu nh­ sau: mçi gi¸ trÞ

cña mét thuéc tÝnh bÊt kú ph¶i kh¸c víi tÊt c¶ c¸c gi¸ trÞ cßn l¹i cña thuéc tÝnh

®ã vÝ dô nh­ sè chøng minh th­. Do ®ã ta cã thÓ ph¸t hiÖn ra d÷ liÖu lçi nÕu cã 2

b¶n ghi cã cïng gi¸ trÞ cho thuéc tÝnh nµy. Quy t¾c liªn tôc kh«ng cã gi¸ trÞ nµo

bÞ mÊt gi÷a gi¸ trÞ lín nhÊt vµ nhá nhÊt trong cïng mét thuéc tÝnh, vµ c¸c gi¸ trÞ

nµy lµ duy nhÊt (vÝ dô nh­ sè thÎ sinh viªn). Quy t¾c NULL chØ râ c¸ch sö dông

cña c¸c ký tù trèng, dÊu hái (?), ký tù ®Æc biÖt hoÆc bÊt kú ký hiÖu nµo kh¸c

®­îc dïng ®Ó thÓ hiÖn tr¹ng th¸i kh«ng cã d÷ liÖu vµ c¸ch sö dông gi¸ trÞ nµy.

Nh­ ®· tr×nh bµy ë phÇn tr­íc, c¸c gi¸ trÞ bÞ thiÕu cã thÓ bao gåm (1) ng­êi

®­îc hái c¸c gi¸ trÞ nµy tõ chèi cung cÊp hoÆc kh«ng cã th«ng tin ®Ó cung cÊp

(vÝ dô nh­ ng­êi kh«ng cã hé chiÕu sÏ kh«ng thÓ ®iÒn sè hé chiÕu vµ ngµy cÊp),

(2) ng­êi nhËp liÖu kh«ng biÕt gi¸ trÞ chÝnh x¸c cña d÷ liÖu, hoÆc (3) d÷ liÖu sÏ

®­îc cung cÊp sau. Quy t¾c NULL sÏ chØ ra c¸ch thøc l­u d÷ liÖu trong tr­êng

hîp kh«ng cã d÷ liÖu.

Ngoµi ra ta cßn cã rÊt nhiÒu c«ng cô cã thÓ sö dông hç trî cho viÖc ph¸t

hiÖn sù bÊt th­êng trong d÷ liÖu (®éc gi¶ cã thÓ tham kh¶o c¸c c«ng cô nµy ë

môc 2.3 trong tµi liÖu [Han06]).

Mét sè tr­êng hîp d÷ liÖu kh«ng nhÊt qu¸n cã thÓ ®­îc söa ch÷a thñ c«ng

b»ng viÖc sö dông c¸c tham kh¶o tõ d÷ liÖu gèc. VÝ dô nh­ lçi nhËp liÖu cã thÓ

®­îc söa b»ng c¸ch tham kh¶o l¹i v¨n b¶n gèc. PhÇn lín c¸c lçi th­êng sÏ yªu

cÇu chuyÓn d¹ng d÷ liÖu. §iÒu nµy cã nghÜa lµ khi ta ph¸t hiÖn ra sù bÊt th­êng

cña d÷ liÖu, th«ng th­êng ta sÏ ph¶i ®Þnh nghÜa vµ sö dông mét hoÆc nhiÒu phÐp

biÕn ®æi ®Ó hiÖu chØnh chóng.

Cã mét quy tr×nh gåm hai b­íc: ph¸t hiÖn bÊt th­êng vµ chuyÓn ®æi d÷ liÖu

®Ó söa ch÷a bÊt th­êng nµy, hai b­íc nµy ®­îc lÆp ®i lÆp l¹i. Tuy vËy quy tr×nh

nµy kh«ng thÓ tr¸nh ®­îc sai sãt vµ tèn kÐm thêi gian. Mét sè phÐp biÕn ®æi cßn

lµm t¨ng sù bÊt th­êng cña d÷ liÖu. Mét sè bÊt th­êng chØ ®­îc ph¸t hiÖn sau khi

®­îc söa ch÷a, vÝ dô lçi nhËp d÷ liÖu n¨m nhÇm thµnh “20004” chØ cã thÓ ph¸t

hiÖn ra ®­îc khi ta chuyÓn nã vÒ ®Þnh d¹ng ngµy th¸ng. C¸c phÐp biÕn ®æi

th­êng ®­îc thùc hiÖn thµnh mét d·y c¸c chØ thÞ lÖnh. Ng­êi dïng chØ cã thÓ

kiÓm tra kÕt qu¶ thùc hiÖn sau khi c¸c phÐp biÕn ®æi ®­îc thùc hiÖn xong. Th«ng

th­êng th× c¸c phÐp biÕn ®æi nµy ®­îc thùc hiÖn lÆp ®i lÆp l¹i nhiÒu lÇn cho ®Õn

khi tháa m·n yªu cÇu. C¸c bé d÷ liÖu kh«ng thÓ tù ®éng thùc hiÖn ®­îc trªn c¸c

phÐp biÕn ®æi sÏ ®­îc ghi vµo tÖp mµ kh«ng cã gi¶i thÝch g× vÒ lý do phÐp biÕn

®æi kh«ng thùc hiÖn ®­îc. KÕt qu¶ lµ toµn bé quy tr×nh lµm s¹ch d÷ liÖu còng

chÞu thiÖt h¹i do thiÕu c¸c phèi hîp gi÷a c¸c b­íc.

C¸c c¸ch tiÕp cËn míi trong viÖc lµm s¹ch d÷ liÖu nhÊn m¹nh vµo viÖc c¶i

thiÖn sù phèi hîp gi÷a hai b­íc nµy. VÝ dô: bé c«ng cô Potter’s Wheel.

Mét c¸ch tiÕp cËn kh¸c còng t¨ng sù t­¬ng t¸c nµy lµ ph¸t triÓn bé ng«n

ng÷ tËp trung vµo c¸c phÐp biÕn ®æi d÷ liÖu. C«ng viÖc nµy tËp trung chñ yÕu vµo

c¸c ®Þnh nghÜa më réng cña ng«n ng÷ SQL vµ c¸c thuËt to¸n cho phÐp ng­êi sö

dông thùc hiÖn ph­¬ng ph¸p lµm s¹ch d÷ liÖu hiÖu qu¶ h¬n.

§ång thêi víi viÖc ph¸t hiÖn ra nh÷ng ®Æc tÝnh cña d÷ liÖu, chóng ta còng

ph¶i cËp nhËt nh÷ng ph¸t hiÖn nµy vµo metadata. Nh÷ng th«ng tin bæ sung nµy

sÏ gióp cho qu¸ tr×nh lµm s¹ch d÷ liÖu ngµy cµng hiÖu qu¶ h¬n víi d÷ liÖu ®·

cho.

Page 64: KPDL_C1-6 & C10

127 128

3.4. TÝch hîp d÷ liÖu

TÝch hîp d÷ liÖu lµ mét b­íc th­êng ®­îc sö dông trong khai ph¸ d÷ liÖu,

®©y lµ ph­¬ng ph¸p hîp nhÊt d÷ liÖu tõ nhiÒu nguån kh¸c nhau vÒ mét n¬i,

th«ng th­êng lµ kho d÷ liÖu (data warehouse). ViÖc tÝch hîp d÷ liÖu mét c¸ch

cÈn träng sÏ gióp gi¶m vµ tr¸nh ®­îc d­ thõa còng nh­ sù kh«ng nhÊt qu¸n cña

d÷ liÖu kÕt qu¶. TÝch hîp d÷ liÖu sÏ gióp c¶i tiÕn hiÖu n¨ng vµ tèc ®é cña qu¸

tr×nh khai ph¸ d÷ liÖu. Cã rÊt nhiÒu vÊn ®Ò cÇn ph¶i gi¶i quyÕt trong qu¸ tr×nh

tÝch hîp d÷ liÖu. D­íi ®©y sÏ giíi thiÖu mét sè vÊn ®Ò vµ c¸ch gi¶i quyÕt phæ

biÕn.

3.4.1. NhËn diÖn thùc thÓ

VÊn ®Ò ®Çu tiªn lµ sù kh«ng nhÊt qu¸n vÒ mÆt ng÷ nghÜa vµ cÊu tróc cña d÷

liÖu ®Æt ra nh÷ng th¸ch thøc rÊt lín trong tÝch hîp d÷ liÖu. TÝch hîp l­îc ®å vµ

®èi s¸nh c¸c ®èi t­îng cã thÓ rÊt phøc t¹p. Lµm thÕ nµo ®Ó cã thÓ so khíp, l¾p

ghÐp ®­îc tËp c¸c thùc thÓ tõ nhiÒu nguån d÷ liÖu kh¸c nhau? §©y lµ bµi to¸n

nhËn diÖn thùc thÓ (entity identification). VÝ dô cã 2 nguån d÷ liÖu, lµm thÕ nµo

®Ó x¸c ®Þnh ®­îc tr­êng customner_id trong mét b¶ng cña CSDL thø nhÊt vµ

tr­êng cus_number trong mét b¶ng cña CSDL thø 2 lµ hai tªn kh¸c nhau cña

cïng mét thuéc tÝnh? §Ó tr¶ lêi ®­îc c©u hái nµy ta cã thÓ tham kh¶o c¸c th«ng

tin metadata m« t¶ 2 tr­êng nµy, bao gåm: tªn tr­êng, kiÓu d÷ liÖu; ý nghÜa

(môc ®Ých) cña tr­êng;miÒn gi¸ trÞ cho phÐp; quy t¾c xö lý gi¸ trÞ null. Sau khi

xem xÐt ®Çy ®ñ c¸c th«ng tin trªn vµ thÊy th«ng tin ®ång nhÊt th× ta cã thÓ ghÐp

thuéc tÝnh customer_id vµ cus_number lµm mét thuéc tÝnh duy nhÊt vµ chóng ta

xö lý xong mét tr­êng trong qu¸ tr×nh nhËn diÖn thùc thÓ. C¸c tr­êng kh¸c trong

b¶ng cña 2 CSDL trªn còng ®­îc xö lý t­¬ng tù.

Trong qu¸ tr×nh so s¸nh ®Ó l¾p ghÐp tËp thuéc tÝnh cña bé d÷ liÖu nµy víi

tËp thuéc tÝnh cña bé d÷ liÖu kia, cÇn ®Æc biÖt quan t©m tíi cÊu tróc cña d÷ liÖu.

§iÒu nµy gióp ®¶m b¶o tËp c¸c phô thuéc hµm vµ c¸c rµng buéc toµn vÑn sÏ

®­îc kÕ thõa vµo trong bé d÷ liÖu sau khi tÝch hîp. VÝ dô: hÖ thèng A th× kh¸ch

hµng ®­îc gi¶m gi¸ trªn mçi hãa ®¬n, cßn hÖ thèng B, kh¸ch hµng sÏ ®­îc gi¶m

gi¸ trªn tõng mÆt hµng trong hãa ®¬n. D÷ liÖu cÇn ®­îc tÝch hîp bao gåm c¶ d÷

liÖu cña A vµ B, nÕu rµng buéc nµy kh«ng ®­îc kÕ thõa mét c¸ch phï hîp tr­íc

khi tÝch hîp, c¸c mÆt hµng trªn hÖ thèng míi sÏ kh«ng ®­îc gi¶m gi¸ mét c¸ch

phï hîp.

Mét tr­êng hîp n÷a cã thÓ x¶y ra trong qu¸ tr×nh tÝch hîp d÷ liÖu lµ cã thÓ

kh«ng cã sù t­¬ng ®ång vÒ sè l­îng tr­êng (thuéc tÝnh) gi÷a 2 b¶ng trong 2

CSDL chóng ta ®ang tÝch hîp. §iÒu nµy còng kh«ng cã g× ng¹c nhiªn v× lý do

trong CSDL nµy ta chØ quan t©m (vµ cÇn) mét sè thuéc tÝnh cña thùc thÓ nµo ®ã,

ng­îc l¹i trong CSDL kia ta l¹i quan t©m ®Õn mét tËp hîp thuéc tÝnh kh¸c. Khi

®ã c¸ch gi¶i quyÕt ®¬n gi¶n cã thÓ lµ t¹o ra mét b¶ng míi chøa ®Çy ®ñ c¶ tËp

thuéc tÝnh cña thùc thÓ vµ t×m c¸ch ®iÒn vµo c¸c gi¸ trÞ thiÕu.

3.4.2. Sù d­ thõa vµ ph©n tÝch ®é t­¬ng quan

Sù d­ thõa lµ mét vÊn ®Ò quan träng kh¸c th­êng x¶y ra trong qu¸ tr×nh

tÝch hîp d÷ liÖu. Mét thuéc tÝnh cã thÓ ®­îc coi lµ d­ thõa nÕu nh­ nã cã thÓ suy

diÔn ®­îc tõ mét hoÆc mét nhãm c¸c thuéc tÝnh kh¸c (vÝ dô nh­: ®iÓm trung

b×nh hoÆc, tæng thu nhËp…). Sù kh«ng nhÊt qu¸n trong viÖc ®Æt tªn c¸c thuéc

tÝnh cã thÓ g©y ra sù d­ thõa trong tËp d÷ liÖu.

Mét sè lo¹i d­ thõa cã thÓ ®­îc ph¸t hiÖn nhê ph­¬ng ph¸p ph©n tÝch ®é

t­¬ng quan. Víi hai thuéc tÝnh cho tr­íc, ph­¬ng ph¸p nµy cã thÓ cho biÕt møc

®é liªn quan gi÷a chóng dùa trªn d÷ liÖu cã ®­îc. Víi nh÷ng thuéc tÝnh cã gi¸

trÞ thuéc d¹ng ký tù, ta cã thÓ sö dông ph­¬ng ph¸p X2(chi-square). Víi nh÷ng

thuéc tÝnh cã tËp gi¸ trÞ cã d¹ng sè th× cã thÓ ¸p dông ph­¬ng ph¸p HÖ sè t­¬ng quan (correlation coefficient) hoÆc HiÖp ph­¬ng sai (covariance) ®Ó ph¸t hiÖn ra

møc ®é phô thuéc gi÷a hai thuéc tÝnh bÊt kú.

a) Ph­¬ng ph¸p X2 (chi-square)

Víi d÷ liÖu sè, ®é t­¬ng quan gi÷a 2 thuéc tÝnh A vµ B cã thÓ ®­îc t×m

th«ng qua ph­¬ng ph¸p Chi b×nh ph­¬ng. Gi¶ sö thuéc tÝnh A cã c gi¸ trÞ lÇn

l­ît a1, a2, …, ac, vµ thuéc tÝnh B cã r gi¸ trÞ t­¬ng øng b1, b2, …, bn. D÷ liÖu

Page 65: KPDL_C1-6 & C10

129 130

®­îc m« t¶ bëi A vµ B cã thÓ ®­îc xÕp thµnh 1 b¶ng víi c gi¸ trÞ cña A xÕp

thµnh cét vµ r gi¸ trÞ cña B xÕp thµnh hµng. Gäi (Ai, Bj) lµ sù kiÖn ®ång thêi A

=ai vµ B=bj. Mçi mét kh¶ n¨ng cã thÓ cña (Ai, Bj) ®Òu ®­îc ghi l¹i trong 1 « cña

b¶ng nµy. Gi¸ trÞ X2 ®­îc tÝnh nh­ sau

ij

ijijc

i

r

j e

eo

1 1

2 (3.5)

Víi oij gi¸ trÞ quan s¸t (gi¸ trÞ thùc tÕ) vµ eij lµ gi¸ trÞ kú väng cña sù kiÖn

(Ai, Bj) ®­îc tÝnh theo c«ng thøc sau:

n

bBcountaAcounte ji

ij

)()( (3.6)

Víi n lµ sè mÉu d÷ liÖu, count (A=ai) lµ sè l­îng mÉu cã gi¸ trÞ ai trong

thuéc tÝnh A, t­îng tù víi count(B=bj). C«ng thøc 3.5 sö dông ®Ó tÝnh tÊt c¶ c¸c

gi¸ trÞ trªn r c « cña b¶ng.

Ph­¬ng ph¸p nµy dïng ®Ó kiÓm tra gi¶ thiÕt A vµ B lµ ®éc lËp víi nhau

(kh«ng cã mèi liªn hÖ nµo gi÷a chóng) hay kh«ng. KiÓm tra nµy dùa trªn møc

®é quan träng víi (r-1) (c-1) møc ®é tù do. NÕu phÐp kiÓm tra lµ kh«ng ®óng

th× ®iÒu ®ã cã nghÜa lµ A vµ B lµ cã t­¬ng quan víi nhau vÒ mÆt thèng kª.

VÝ dô, ta cã ®iÒu tra 1500 ng­êi xem hä cã thÝch ®äc truyÖn viÔn t­ëng

(fiction) hay kh«ng. KÕt qu¶ cña cuéc ®iÒu tra ®­îc liÖt kª trong b¶ng 3.1, trong

®ã ta cã 2 thuéc tÝnh lµ giíi tÝnh, vµ së thÝch ®äc truyÖn:

Nam N÷ Tæng sè

Fiction 250 (90) 200 (360) 450

Nonfiction 50 (210) 1000 (840) 1050

Tæng sè 300 1200 1500

B¶ng 3.1 D÷ liÖu ®iÒu tra vÒ së thÝch ®äc truyÖn

Trong b¶ng nµy gi¸ trÞ kú väng eij (tÝnh theo c«ng thøc 3.2) ®­îc ghi ë

trong ngoÆc ®¬n, vÝ dô:

901500

450300)()(11

n

fictioncountnamcounte

Do ®ã ta cã thÓ tÝnh ra ®­îc gi¸ trÞ X2 nh­ sau:

93.507

840

)8401000(

360

)360200(

210

)21050(

90

)90250( 22222

Møc ®é tù do cña phÐp kiÓm tra ®èi víi b¶ng 22 lµ (2-1) (2-1)=1, ë møc

nµy gi¸ trÞ phñ ®Þnh gi¶ thiÕt ë møc ®é quan träng 0.001 lµ 10.827 (gi¸ trÞ nµy cã

thÓ tra b¶ng ë c¸c s¸ch thèng kª, b¶ng 3.2 liÖt kª mét sè gi¸ trÞ nµy). Gi¸ trÞ

507.93 > 10.827 cã nghÜa lµ gi¸ trÞ nµy ®· phñ ®Þnh gi¶ thiÕt giíi tÝnh vµ së thÝch

®äc truyÖn viÔn t­ëng lµ ®éc lËp nhau. Hay ta cã thÓ nãi hai thuéc tÝnh trªn lµ cã

®é t­¬ng quan cao trong tËp d÷ liÖu ë trªn.

0.5 0.10 0.05 0.02 0.01 0.001

1 0.455 2.706 3.841 5.412 6.635 10.827

2 1.386 4.605 5.991 7.824 9.210 13.815

3 2.366 6.251 7.815 9.837 11.345 16.268

4 3.357 7.779 9.488 11.668 13.277 18.465

5 4.351 9.236 11.070 13.388 15.086 20.51

B¶ng 3.2 Gi¸ trÞ møc x¸c suÊt X2

b) Ph­¬ng ph¸p HÖ sè t­¬ng quan

Víi c¸c thuéc tÝnh sè, ta cã theetr tÝnh to¸n ®é phô thuéc gi÷a chóng

b»ng ph­¬ng ph¸p HÖ sè t­¬ng quan do Karl Pearson ®Ò xuÊt:

Page 66: KPDL_C1-6 & C10

131 132

BB A

N

iii

A

N

iii

BAN

BANba

N

BbAa

r

11,

))((

(3.7)

Trong ®ã N lµ sè l­îng mÉu d÷ liÖu, ai vµ bi lÇn l­ît lµ c¸c gi¸ trÞ t­¬ng

øng cña thuéc tÝnh A vµ B ë mÉu thø i, A vµ B lµ gi¸ trÞ trung b×nh cña A vµ B,

ãA vµ ãB lµ c¸c ®é lÖch chuÈn t­¬ng øng cña A vµ B.

N

a

A

N

ii

1 vµ N

b

B

N

ii

1

L­u ý r»ng -1 ≤ rA,,B ≤ +1, nÕu rA,,B nhËn gi¸ trÞ d­¬ng th× A vµ B lµ ®ång

biÕn, tøc lµ nÕu gi¸ trÞ cña A t¨ng th× gi¸ trÞ cña B còng t¨ng theo. Gi¸ trÞ cña rA, B

cµng lín th× ®é phô thuéc cµng m¹nh. Do ®ã nÕu rA, B cã gi¸ trÞ ®ñ lín th× ta cã

thÓ lo¹i bá thuéc tÝnh A hoÆc B. NÕu kÕt qu¶ cña c«ng thøc 3.3 lµ 0 ®iÒu nµy cã

nghÜa lµ A ®éc lËp víi B (hay kh«ng cã sù liªn hÖ gi÷a chóng). Cßn nÕu gi¸ trÞ

nµy lµ ©m th× gi¸ trÞ cña thuéc tÝnh A nghÞch biÕn víi B. L­u ý r»ng sù t­¬ng

quan nµy kh«ng cã hµm ý nh©n qu¶. NÕu A vµ B t­¬ng quan víi nhau th× vai trß

cña A vµ B ë ®©y lµ t­¬ng ®­¬ng. VÝ dô: nÕu chóng ta t×m ra sù liªn quan gi÷a sè

l­îng bÖnh viÖn vµ sè « t« bÞnh mÊt c¾p trong vïng. §iÒu kh«ng cã nghÜa lµ sè

l­îng bÖnh viÖn lµ nguyªn nh©n g©y ra sè vô ®¸nh c¾p xe.

c) Ph­¬ng ph¸p hiÖp ph­¬ng sai

Trong lý thuyÕt s¾c xuÊt vµ thèng kª, ®é ®o t­¬ng quan vµ hiÖp ph­¬ng sai lµ hai ®é ®o cã cïng ý nghÜa nh»m ­íc l­îng xem hai thuéc tÝnh ¶nh h­ëng lÉn

nhau nh­ thÕ nµo. XÐt hai thuéc tÝnh A vµ B, víi N mÉu d÷ liÖu cã d¹ng {(a1, b1),

…, (aN, bN)}. HiÖp ph­¬ng sai (covariance) gi÷a A vµ B ®­îc ®Þnh nghÜa nh­

sau:

N

BbAa

BACov

N

iii

1

))((

),( (3.8)

So s¸nh c«ng thøc 3.7 vµ c«ng thøc 3.8 ta cã thÓ viÕt l¹i nh­ sau (®Ó ta cã

thÓ thÊy ®­îc sù t­¬ng ®ång cña 2 c«ng thøc):

B A

BA

BACovr

),(, (3.9)

Víi hai thuéc tÝnh A vµ B cã khuynh h­íng thay ®æi víi nhau. NÕu A lín

h¬n A th× B còng cã xu h­íng lín h¬n B th× Cov(A, B) cã gi¸ trÞ d­¬ng. Ng­îc

l¹i th× Cov(A, B) cã gi¸ trÞ ©m nÕu mét thuéc tÝnh cã khuynh h­íng cao h¬n gi¸

trÞ trung b×nh th× thuéc tÝnh cßn l¹i cã khuynh h­íng nhá h¬n gi¸ trÞ nµy cña nã.

3.4.3. Ph¸t hiÖn c¸c bé lÆp

Trong qu¸ tr×nh ph¸t hiÖn sù d­ thõa gi÷a c¸c thuéc tÝnh, viÖc ph¸t hiÖn vµ

lo¹i bá c¸c b¶n ghi lÆp l¹i (hay trïng nhau) còng lµ vÊn ®Ò ®¸ng ®­îc quan t©m.

Sù kh«ng nhÊt qu¸n th­êng gia t¨ng khi cã nhiÒu b¶n ghi bÞ lÆp do sai sãt trong

qu¸ tr×nh ®­a d÷ liÖu vµo hoÆc cËp nhËt d÷ liÖu kh«ng ®óng c¸ch. VÝ dô: trong

CSDL b¸n hµng, nÕu ta dïng tªn kh¸ch hµng vµ ®Þa chØ kh¸ch hµng lµm khãa,

khi ®ã do lçi nhËp liÖu, tr­êng ®Þa chØ cña cïng 1 kh¸ch hµng cã thÓ ®­îc nhËp

kh«ng ®óng theo mét ®Þnh d¹ng duy nhÊt, khi ®ã cïng mét kh¸ch hµng ta l¹i cã

thÓ tån t¹i nhiÒu b¶n ghi kh¸c nhau trong b¶ng (nh­ng vÒ b¶n chÊt nã lµ 1).

3.4.4. Ph¸t hiÖn xung ®ét trong d÷ liÖu vµ møc ®é trõu t­îng.

TÝch hîp d÷ liÖu còng bao hµm viÖc ph¸t hiÖn xung ®ét vµ thay ®æi møc ®é

trõu t­îng trong gi¸ trÞ cña d÷ liÖu. VÝ dô: víi cïng mét ®èi t­îng trong thÕ giíi

thùc th× mçi CSDL sÏ cã c¸ch biÓu diÔn, m« t¶ hay m· hãa kh¸c nhau. Ch¼ng

h¹n nh­ nhiÖt ®é cã thÓ biÓu diÔn theo nhiÒu ®é ®o kh¸c nhau (®é C hoÆc ®é F).

Th«ng tin vÒ ®iÓm sè cña häc sinh ë mçi tr­êng còng cã thÓ kh¸c nhau nh­ theo

thang ®iÓm 10, thang ®iÓm 4, hoÆc thang ®iÓm ch÷… C¸ch tÝnh ®iÓm kh¸c nhau

nh­ vËy sÏ g©y khã kh¨n trong viÖc chuyÓn ®æi d÷ liÖu tõ hÖ thèng nä sang hÖ

thèng kia vµ ng­îc l¹i. Trong qu¸ tr×nh tÝch hîp d÷ liÖu ta còng cÇn ph¶i xö lý

Page 67: KPDL_C1-6 & C10

133 134

tr­êng hîp nµy, cô thÓ lµ ph¶i chän mét ®Þnh d¹ng d÷ liÖu duy nhÊt vµ chuyÓn

®æi c¸c kiÓu d÷ liÖu kh¸c sang.

C¸c thuéc tÝnh còng cã thÓ cã møc ®é trõu t­îng kh¸c nhau gi÷a c¸c hÖ

thèng tïy theo nhu cÇu cña hÖ thèng ®ã. VÝ dô nh­ tæng sè sinh viªn cã thÓ lµ

sinh viªn cña mét líp trong ë trong hÖ thèng niªn chÕ nh­ng sÏ lµ tæng sè sinh

viªn cña mét líp-m«n häc trong hÖ thèng tÝn chØ.

3.5. ChuyÓn ®æi d÷ liÖu

3.5.1. C¸c chiÕn l­îc chuyÓn ®æi d÷ liÖu

Trong c¸c phÐp biÕn ®æi d÷ liÖu, d÷ liÖu sÏ ®­îc chuyÓn ®æi hoÆc hîp nhÊt

vµo c¸c ®Þnh d¹ng phï hîp cho viÖc khai ph¸ d÷ liÖu. ChiÕn l­îc cho c¸c phÐp

biÕn ®æi nµy bao gåm:

Lµm mÞn (smoothing): lo¹i bá nhiÔu trong d÷ liÖu (tr×nh bµy trong phÇn

3.4.1)

Tæng hîp (aggregation): thùc hiÖn c¸c thao t¸c tæng hîp (ch¼ng h¹n nh­

phÐp tÝnh tæng) trªn d÷ liÖu. VÝ dô ta cã thÓ tÝnh tæng doanh thu theo

ngµy, th¸ng hoÆc n¨m. Thao t¸c nµy th­êng ®­îc sö dông trong qu¸ tr×nh

x©y dùng khèi d÷ liÖu (data cube) ®Ó ph©n tÝch d÷ liÖu ë nhiÒu møc chi

tiÕt kh¸c nhau.

Kh¸i qu¸t hãa (generationization) d÷ liÖu: d÷ liÖu th« ban ®Çu sÏ ®­îc

thay thÕ b»ng c¸c kh¸i niÖm ë møc cao h¬n (trong c©y ph©n cÊp kh¸i

niÖm). VÝ dô nh­ thuéc tÝnh phè (street) cã gi¸ trÞ rêi r¹c, thuéc tÝnh nµy

cã thÓ ®­îc kh¸i qu¸t hãa lªn b»ng thuéc tÝnh thµnh phè (city) hay ®Êt

n­íc (country) tïy theo môc ®Ých. Thuéc tÝnh cã gi¸ trÞ sè lµ tuæi (age)

còng cã thÓ ®­îc kh¸i qu¸t hãa thµnh thuéc tÝnh ë møc cao h¬n nh­ trÎ

(youth), trung niªn (middle-age) vµ cao niªn (senior).

X©y dùng c¸c thuéc tÝnh (attribute construction): c¸c thuéc tÝnh ®­îc x©y

dùng thªm tõ d÷ liÖu gèc nh»m hç trî cho qu¸ tr×nh khai ph¸ d÷ liÖu.

ChuÈn hãa: biÕn ®æi miÒn gi¸ trÞ cña c¸c thuéc tÝnh vÒ nh÷ng miÒn gi¸ trÞ

nhá h¬n vÝ dô nh­ [0.0, 1.0] hoÆc [-1.0, 1.0] nh»m lµm cho c¸c gi¶i thuËt

khai ph¸ ho¹t ®éng hiÖu qu¶ h¬n.

Rêi r¹c hãa: khi nh÷ng gi¸ trÞ sè trong miÒn liªn tôc sÏ ®­îc chuyÓn vÒ

c¸c kho¶ng sè ®­îc g¸n nh·n (vd: nh­ 0-10, 11-20, …) hoÆc c¸c kho¶ng

g¸n nh·n (thiÕu niªn, thanh niªn vµ trung niªn, …). C¸c møc nµy hoµn

toµn cã thÓ ®­îc gom nhãm l¹i víi møc cao h¬n tïy yªu cÇu ®Ó t¹o lªn

kh¸i niÖm ph©n cÊp cho c¸c thuéc tÝnh.

Rêi r¹c hãa d÷ liÖu cã thÓ ph©n lo¹i dùa trªn c¸ch thøc thùc hiÖn rêi r¹c

hãa, nh­ cã sö dông th«ng tin ph©n líp hoÆc c¸ch thøc thùc hiÖn tõ trªn xuèng

(topdown), hay tõ d­íi lªn (bottom-up). NÕu ph­¬ng ph¸p rêi r¹c hãa dïng

th«ng tin ph©n líp nã ®­îc gäi lµ rêi r¹c hãa cã gi¸m s¸t, nÕu kh«ng th× ®­îc gäi

lµ kh«ng cã gi¸m s¸t.

3.5.2. ChuÈn hãa d÷ liÖu

C¸c ®¹i l­îng ®o ®¹c cã thÓ ¶nh h­ëng tíi ph©n tÝch d÷ liÖu. VÝ dô sù thay

®æi c¸c ®¹i l­îng gi÷a ®é C vµ ®é F trong ®o ®¹c nhiÖt ®é, gi÷a mÐt vµ inch

trong ®o ®é dµi, cã thÓ dÉn tíi c¸c kÕt qu¶ kh¸c nhau. Nãi chung khi chia nhá

mét thuéc tÝnh th× ®ång nghÜa víi viÖc më réng miÒn gi¸ trÞ cña thuéc tÝnh ®ã, sÏ

dÉn tíi viÖc thuéc tÝnh ®ã cã ¶nh h­ëng lín h¬n c¸c gi¸ thuèc tÝnh kh¸c. §Ó

tr¸nh sù phô thuéc vµo c¸ch chän ®¹i l­îng ®o l­êng, d÷ liÖu nªn ®­îc chuÈn

hãa tr­íc khi sö dông. Mét trong sè c¸c c¸ch th­êng dïng lµ chuyÓn miÒn d÷

liÖu vÒ n»m trong kho¶ng [-1, 1] hoÆc [0.0, 1.0].

Cã rÊt nhiÒu ph­¬ng ph¸p chuÈn hãa d÷ liÖu. ë ®©y chóng ta chØ tr×nh

bµy mét sè ph­¬ng ph¸p c¬ b¶n bao gåm chuÈn hãa min-max, z-score,…

Gäi A lµ thuéc tÝnh cã kiÓu sè víi n gi¸ trÞ v1, v2, …, vn.

ChuÈn hãa min-max: thùc hiÖn mét phÐp biÕn ®æi tuyÕn tÝnh trªn d÷ liÖu

gèc. Gi¶ sö minA vµ maxA lµ gi¸ trÞ nhá nhÊt vµ lín nhÊt cña thuéc tÝnh A.

Ph­¬ng ph¸p nµy chuyÓn mét gi¸ trÞ vi thµnh gi¸ trÞ 'iv trong miÒn [

'min A ,

maxA’] ®­îc tÝnh nh­ sau:

Page 68: KPDL_C1-6 & C10

135 136

'''' min)min(maxminmax

minAAA

AA

Aii

vv

(3.10)

Ph­¬ng ph¸p nµy b¶o tån ®­îc quan hÖ gi÷a c¸c gi¸ trÞ trong d÷ liÖu gèc.

D÷ liÖu sau khi chuÈn hãa cã thÓ bÞ lçi nÕu d÷ liÖu míi n»m ngoµi kho¶ng gi¸ trÞ

cña d÷ liÖu gèc.

VÝ dô: gi¶ sö gi¸ trÞ min vµ max cña thuéc tÝnh thu nhËp (income) lµ

12000$ vµ 98000$, ta muèn chuyÓn ®æi vÒ kho¶ng [0, 1]. Khi ®ã thu nhËp cã gi¸

trÞ 73600$ sÏ cã gi¸ trÞ míi lµ

716.00)01(1200098000

1200073600'

iv

ChuÈn hãa z-score: c¸c gi¸ trÞ cña thuéc tÝnh A sÏ ®­îc chuÈn hãa dùa trªn

gi¸ trÞ trung b×nh vµ ®é lÖch chuÈn cña A. Gi¸ trÞ vi’ sÏ ®­îc tÝnh to¸n dùa trªn vi

nh­ sau:

A

ii

Avv

' (3.11)

Víi A lµ gi¸ trÞ trung b×nh vµ A lµ ®é lÖch chuÈn. Ph­¬ng ph¸p chuÈn

hãa nµy th­êng ®­îc sö dông trong tr­êng hîp kh«ng x¸c ®Þnh ®­îc chÝnh x¸c

gi¸ trÞ lín nhÊt vµ gi¸ trÞ nhá nhÊt cña thuéc tÝnh hoÆc trong tr­êng hîp c¸c gi¸

trÞ ngo¹i lai chi phèi ph­¬ng ph¸p chuÈn hãa min-max.

n

Avn

ii

A

1

2

2

)(

(3.12)

Mét biÕn thÓ th­êng ®­îc sö dông trong chuÈn hãa nµy lµ thay thÕ A

b»ng gi¸ trÞ trung b×nh tuyÖt ®èi. Gi¸ trÞ nµy, ký hiÖu lµ sA ®­îc tÝnh nh­ sau:

n

iiA Av

nS

1

||1

(3.13)

ChuÈn hãa thay ®æi tû lÖ (scaling): Gi¸ trÞ míi v’=v/10j víi j lµ sè nguyªn

nhá nhÊt tháa m·n ®iÒu kiÖn max(|v’|)<1. VÝ dô: gi¶ sö thuéc tÝnh A cã gi¸ trÞ tõ

-986 ®Õn 917. Gi¸ trÞ tuyÖt ®èi lín nhÊt cña thuéc tÝnh nµy lµ 986 (xÊp xØ 103),

®Ó chuÈn hãa sang tØ lÖ míi ta cã thÓ chia cho 103 , khi ®ã gi¸ trÞ 917 sÏ cã gi¸ trÞ

míi lµ 0.917.

3.6. Ph­¬ng ph¸p thu gän d÷ liÖu

Ph­¬ng ph¸p thu gän d÷ liÖu cã thÓ ®­îc ¸p dông nh»m gi¶m l­îng d÷ liÖu

nhiÒu nhÊt cã thÓ mµ vÉn gi÷ ®­îc tÝnh toµn vÑn cña d÷ liÖu gèc. §iÒu nµy cã

nghÜa r»ng c¸c ph­¬ng ph¸p ph©n tÝch d÷ liÖu khi thùc hiÖn mét c¸ch hiÖu qu¶

h¬n trªn d÷ liÖu ®· thu gän mµ vÉn tr¶ l¹i kÕt qu¶ ph©n tÝch nh­ khi thùc hiÖn

trªn d÷ liÖu gèc (hoÆc gÇn tèt nh­ thùc hiÖn trªn d÷ liÖu gèc).

C¸c chiÕn l­îc thu gän d÷ liÖu bao gåm gi¶m sè chiÒu cña d÷ liÖu, gi¶m sè

l­îng d÷ liÖu (numerosity reduction) vµ nÐn d÷ liÖu.

Gi¶m chiÒu d÷ liÖu: lµ qu¸ tr×nh lµm gi¶m bít sè l­îng c¸c thuéc tÝnh theo

mét chiÕn l­îc nµo ®ã. C¸c ph­¬ng ph¸p gi¶m chiÒu d÷ liÖu bao gåm phÐp biÕn

®æi wavelet, PCA. TrÝch chän tËp c¸c thuéc tÝnh lµ mét trong c¸c ph­¬ng ph¸p

gi¶m chiÒu d÷ liÖu dùa trªn viÖc ph¸t hiÖn vµ lo¹i bá c¸c thuéc tÝnh thõa, thuéc

tÝnh Ýt phï hîp vµ kh«ng phï hîp.

Gi¶m sè l­îng d÷ liÖu: cho phÐp thay thÕ d÷ liÖu gèc b»ng mét c¸ch thÓ

hiÖn kh¸c víi kh«ng gian nhá h¬n d÷ liÖu gèc. Ph­¬ng ph¸p nµy cã thÓ cã hoÆc

kh«ng cã tham sè. Víi ph­¬ng ph¸p cã tham sè, m« h×nh ®­îc sö dông ®Ó ­íc

l­îng d÷ liÖu, v× vËy th«ng th­êng ta chØ cÇn l­u tr÷ c¸c tham sè cña d÷ liÖu mµ

kh«ng cÇn l­u toµn bé d÷ liÖu gèc (vÝ dô nh­ m« h×nh håi quy). Ph­¬ng ph¸p

kh«ng dïng tham sè bao gåm ph©n phèi theo tÇn suÊt, ph©n côm, ph­¬ng ph¸p

lÊy mÉu.

Page 69: KPDL_C1-6 & C10

137 138

3.6.1. Gi¶m chiÒu d÷ liÖu

Lùa chän tËp con thuéc tÝnh (attribute subset selection): cã nhiÒu tr­êng

hîp tËp d÷ liÖu chóng ta cÇn khai ph¸ cã chøa hµng tr¨m (thËm chÝ hµng ngh×n)

thuéc tÝnh. §Æc biÖt lµ cã nhiÒu thuéc tÝnh kh«ng cã ý nghÜa, hoÆc d­ thõa trong

qu¸ tr×nh khai ph¸ d÷ liÖu, ch¼ng h¹n nh­ thuéc tÝnh sè chøng minh th­ hay sè

®iÖn tho¹i. Nªn nÕu bá ®i ®­îc c¸c thuéc tÝnh nµy kh«ng nh÷ng lµm gi¶m ®­îc

chiÒu d÷ liÖu, lµm gi¶m ®­îc thêi gian xö lý mµ cßn cã thÓ lµm t¨ng ®­îc hiÖu

qu¶ cña c¸c gi¶i thuËt khai ph¸. Môc ®Ých cña ph­¬ng ph¸p lùa chän tËp con

thuéc thuéc tÝnh lµ t×m ra ®­îc tËp con thuéc tÝnh nhá nhÊt mµ vÉn biÓu diÔn

®­îc sù ph©n bè cña d÷ liÖu gèc ban ®Çu.

Cho n thuéc tÝnh, ta cã 2n tËp con, nªn viÖc t×m ra tËp con tèt nhÊt lµ mét

bµi to¸n cã chi phÝ rÊt cao nÕu ta xÐt tõng tËp con mét. Thay v× t×m kiÕm tËp con

thuéc tÝnh tèt nhÊt, ta cã thÓ sö dông c¸c thuËt to¸n dùa trªn kinh nghiÖm, vÝ dô

lµ thuËt to¸n tham lam (greedy), ®Ó lùa chän thuéc tÝnh tèt nhÊt t¹i mçi b­íc.

§©y lµ gi¶i ph¸p dùa vµo tèi ­u côc bé ®Ó hy väng t×m ra tèi ­u toµn côc. C¸c

ph­¬ng ph¸p nµy lµ mét lùa chän tèt trong thùc tÕ khi sè l­îng c¸c thuéc tÝnh

trong tËp d÷ liÖu lµ lín. C¸c thuéc tÝnh tèt nhÊt vµ xÊu nhÊt cã thÓ x¸c ®Þnh ®­îc

th«ng qua c¸c ®é ®o dùa trªn thèng kª. Cã rÊt nhiÒu ®é ®o, vÝ dô lµ ®é ®o ®é lîi th«ng tin (information gain) ®­îc ®Ò cËp ë môc 6.2 ch­¬ng 6. C¸c ph­¬ng ph¸p

dùa trªn kinh nghiÖm cã c¸c chiÕn l­îc sau:

Lùa chän dÇn tõng thuéc tÝnh (stepwise forward selection): thñ tôc b¾t ®Çu

tõ tËp rçng, t¹i mçi b­íc nã lùa chän thªm mét thuéc tÝnh ®­îc ®¸nh gi¸ lµ

tèt nhÊt (trong nh÷ng thuéc tÝnh cßn l¹i) vµ cho vµo tËp. Qu¸ tr×nh nµy lÆp

l¹i cho ®Õn hÕt c¸c thuéc tÝnh. Sau khi thñ tôc hoµn thµnh ta cã mét danh

s¸ch c¸c thuéc tÝnh ®· ®­îc xÕp h¹ng gi¶m dÇn theo ®é “tèt”, tïy vµo

tr­êng hîp cô thÓ ta cã thÓ quyÕt ®Þnh lÊy tËp con víi sè l­îng lµ bao nhiªu

tõ ®Çu danh s¸ch ®· ®­îc s¾p xÕp nµy.

Lo¹i bá dÇn tõng thuéc tÝnh (stepwise backward elimination): thñ tôc b¾t

®Çu tõ tËp toµn bé c¸c thuéc tÝnh, t¹i tõng b­íc lÆp nã lo¹i bá mét thuéc

tÝnh ®­îc ®¸nh gi¸ lµ xÊu nhÊt. KÕt qu¶ ta còng thu ®­îc mét danh s¸ch ®·

s¾p xÕp c¸c thuéc tÝnh theo thø tù gi¶m dÇn cña ®é “tèt” vµ viÖc lùa chän

l¹i gièng nh­ tr­êng hîp ë trªn.

KÕt hîp c¶ lùa chän vµ lo¹i bá thuéc tÝnh: gi¶i thuËt kÕt hîp c¶ 2 gi¶i thuËt

trªn l¹i ®Ó võa chän thuéc tÝnh tèt nhÊt võa lo¹i bá thuéc tÝnh xÊu nhÊt t¹i

mçi b­íc.

Sö dông c©y quyÕt ®Þnh: ta còng cã thÓ sö dông c©y quyÕt ®Þnh nh­ ID3,

C4.5 hay CART (xem ë ch­¬ng 6) ®Ó lùa chän danh s¸ch c¸c thuéc tÝnh

tèt. §iÓm m¹nh cña c©y quyÕt ®Þnh lµ nã sÏ kh«ng ®­a vµo c©y c¸c thuéc

tÝnh ®­îc ®¸nh gi¸ lµ “kh«ng liªn quan”, do ®ã ta cã thÓ sö dông lu«n c¸c

thuéc tÝnh xuÊt hiÖn ë trªn c©y lµm tËp thuéc tÝnh con tèt nhÊt mµ kh«ng

cÇn ph¶i xö lý thªm nh­ ë c¸c ph­¬ng ph¸p ë trªn.

Gi¶m sè chiÒu b»ng ph­¬ng ph¸p biÕn ®æi: mét ph­¬ng ph¸p kh¸c ®Ó gi¶m

sè chiÒu lµ biÕn ®æi (hay m· hãa) d÷ liÖu sang mét d¹ng kh¸c. NÕu d÷ liÖu sau

khi biÕn ®æi cã thÓ t¸i x©y dung l¹i ®­îc thµnh d÷ liÖu gèc th× ph­¬ng ph¸p biÕn

®æi ®ã ®­îc gäi lµ kh«ng mÊt m¸t (lossless), nÕu kh«ng th× ph­¬ng ph¸p ®ã ®­îc

gäi lµ biÕn ®æi cã mÊt m¸t (lossy). D­íi ®©y sÏ tr×nh bµy s¬ l­îc 2 ph­¬ng ph¸p

biÕn ®æi (cã mÊt m¸t) th«ng dông lµ phÐp biÕn ®æi rêi r¹c d¹ng sãng (wavelet),

vµ ph­¬ng ph¸p ph©n tÝch thµnh phÇn chÝnh (Principal Component Analysis).

PhÐp biÕn ®æi rêi r¹c d¹ng sãng (Discrete Wavelet Transform – DWT): lµ

mét ph­¬ng ph¸p xö lý tÝn hiÖu sè, ®­îc sö dông khi biÕn ®æi mét vÐc t¬ X

thµnh mét vÐc t¬ X’ kh¸c (cã cïng kÝch th­íc) theo hÖ sè wavelet. Tuy

r»ng vÐc t¬ kÕt qu¶ X’ sau khi biÕn ®æi cã cïng kÝch th­íc víi vÐc t¬ ban

®Çu, nh­ng ta cã thÓ lµm gi¶m sè chiÒu cña X’ b»ng c¸ch chØ gi÷ l¹i c¸c hÖ

sè wavelet cã träng sè lín. Ch¼ng h¹n víi mét ng­ìng ®Çu vµo, ta chØ gi÷

l¹i c¸c thµnh phÇn vÐc t¬ cã träng sè wavelet lín h¬n ng­ìng vµ lo¹i bá

nh÷ng thµnh phÇn cßn l¹i. Sau khi biÕn ®æi kh«ng gian míi cã thÓ rÊt th­a

so víi kh«ng gian ban ®Çu, do ®ã c¸c gi¶i thuËt chuyªn xö lý d÷ liÖu th­a

sÏ rÊt phï hîp víi phÐp biÕn ®æi wavelet. Khi ®· cã mét tËp c¸c hÖ sè

wavelet, ta cã thÓ x©y dùng l¹i d÷ liÖu xÊp xØ víi d÷ liÖu ban ®Çu tõ d÷ liÖu

sau khi ®­îc biÕn ®æi. Ph­¬ng ph¸p biÕn ®æi nµy kh¸ gièng víi ph­¬ng

ph¸p biÕn ®æi Fourier (Discrete Fourier Transform -DFT), nh­ng ­u ®iÓm

Page 70: KPDL_C1-6 & C10

139 140

cña DWT lµ t¹o ra mét vÐc t¬ xÊp xØ víi d÷ liÖu gèc tèt h¬n DFT. H¬n n÷a

nÕu biÕn ®æi Fourier chØ cã mét th× biÕn ®æi wavelet l¹i cã rÊt nhiÒu hä

hµm.

Ph©n tÝch thµnh phÇn chÝnh: Gi¶ sö c¸c phÇn tö d÷ liÖu ®­îc biÓu diÔn b»ng

mét vÐc t¬ n chiÒu, ph­¬ng ph¸p ph©n tÝch thµnh phÇn chÝnh (hay cßn gäi

lµ ph­¬ng ph¸p Karhunen-Loeve hay K-L cho gän) sÏ t×m k vÐc t¬ trùc

giao n chiÒu cã thÓ dïng ®Ó biÓu diÔn d÷ liÖu, víi k ≤ n. Do vËy d÷ liÖu ban

®Çu cã thÓ ®­îc biÓu diÔn b»ng mét kh«ng gian nhá h¬n b»ng phÐp chiÕu

trªn kh«ng gian k chiÒu. Kh¸c víi ph­¬ng ph¸p lùa chän tËp con thuéc tÝnh

– nã chän ra mét tËp con thuéc tÝnh tõ tËp thuéc tÝnh ban ®Çu, ph­¬ng

ph¸p ph©n tÝch thµnh phÇn chÝnh kÕt hîp b¶n chÊt cña c¸c thuéc tÝnh l¹i víi

nhau ®Ó t¹o ra thuéc tÝnh míi ®Ó thay thÕ. Chi tiÕt cña ph­¬ng ph¸p nµy

n»m ngoµi ph¹m vi cña cuèn gi¸o tr×nh nµy.

3.6.2. Gi¶m sè l­îng d÷ liÖu

Gi¶m sè l­îng d÷ liÖu lµ ph­¬ng ph¸p thay thÕ d÷ liÖu gèc b»ng mét c¸ch thÓ hiÖn kh¸c víi kh«ng gian nhá h¬n d÷ liÖu gèc. D­íi ®©y sÏ tr×nh bµy mét sè ph­¬ng ph¸p phæ biÕn.

Tæng hîp khèi d÷ liÖu (data cube aggregation): thùc hiÖn c¸c phÐp to¸n

tæng hîp (aggregation) trªn d÷ liÖu trong qu¸ tr×nh x©y dung khèi d÷ liÖu.

Gi¶ sö trong mét c¬ së d÷ liÖu b¸n hµng ta cã cét tiÒn (sales) cho tõng mÆt

hµng mµ kh¸ch hµng ®· mua. NÕu chØ muèn xem d÷ liÖu doanh sè b¸n

hµng cña mét ngµy ta cã thÓ tæng hîp tæng tiÒn cña tÊt c¶ c¸c mÆt hµng

trong ngµy l¹i. T­¬ng tù ta cã thÓ tæng hîp doanh sè theo th¸ng, quý, n¨m

tïy theo nhu cÇu ph©n tÝch sè liÖu. Nh­ vËy cø mçi lÇn tæng hîp th× sè

l­îng d÷ liÖu l¹i gi¶m ®i rÊt nhiÒu, ®Æc biÖt tuy d÷ liÖu gi¶m ®i nh­ng sè

liÖu cuèi cïng l¹i kh«ng hÒ bÞ ¶nh h­ëng. Ph­¬ng ph¸p nµy ®­îc ¸p dông

vµo trong qu¸ tr×nh x©y dùng khèi d÷ liÖu. H×nh 3.11 vµ 3.12 minh häa vÒ

ph­¬ng ph¸p nµy.

M« h×nh håi quy vµ tuyÕn tÝnh logarit: trong tr­êng hîp håi quy tuyÕn tÝnh

®¬n gi¶n, d÷ liÖu ®­îc m« h×nh hãa ®Ó cã thÓ biÓu diÔn ®­îc b»ng mét

®­êng th¼ng. Cô thÓ quan hÖ gi÷a 2 biÕn cã thÓ ®­îc biÓu diÔn b»ng

ph­¬ng tr×nh y= wx+b. Trong bµi to¸n khai ph¸ d÷ liÖu th× x vµ y lµ biÕn

biÓu diÔn c¸c thuéc tÝnh, cßn w vµ b ®­îc gäi lµ c¸c hÖ sè håi quy. Sau khi

x©y dùng ®­îc ph­¬ng tr×nh biÓu diÔn ®­êng th¼ng trªn th× ta chØ cÇn l­u

l¹i c¸c tham sè håi quy w vµ b mµ kh«ng cÇn ph¶i l­u tr÷ d÷ liÖu thùc sù,

kÕt qu¶ lµ ta lµm gi¶m ®­îc sè l­îng d÷ liÖu. Håi quy tuyÕn tÝnh logarit

(log-linear) xÊp xØ ph©n bè x¸c suÊt ®a chiÒu rêi r¹c. Cho mét tËp d÷ liÖu

®­îc biÓu diÔn b»ng c¸c vÐc t¬ n chiÒu (d÷ liÖu cã n thuéc tÝnh), ta cã thÓ

coi 1 phÇn tö d÷ liÖu lµ mét ®iÓm trong kh«ng gian n chiÒu. M« h×nh tuyÕn

tÝnh logarit cã thÓ ­íc l­îng x¸c suÊt cña tong ®iÓm trong kh«ng gian ®a

chiÒu cho mét tËp c¸c thuéc tÝnh ®­îc rêi r¹c hãa dùa trªn mét tËp con

chiÒu kh«ng gian nhá h¬n. Sau khi ­íc l­îng xong, ta còng chØ cÇn gi÷ l¹i

c¸c tham sè ­íc l­îng mµ kh«ng cÇn ph¶i l­u l¹i d÷ liÖu. Ngoµi ra v× m«

h×nh tuyÕn tÝnh logarit cã thÓ biÓu diÔn d÷ liÖu gèc b»ng mét kh«ng gian cã

sè chiÒu nhá h¬n nªn nã còng cã thÓ sö dông ®Ó lµm gi¶m sè chiÒu d÷ liÖu.

Ph­¬ng ph¸p håi quy vµ tuyÕn tÝnh logarit thuéc líp ph­¬ng ph¸p cã tham

sè.

BiÓu ®å tÇn suÊt (histogram): ph­¬ng ph¸p nµy xÊp xØ ph©n bè d÷

liÖu b»ng c¸ch chia d÷ liÖu thµnh c¸c nhãm (c¸c tËp kh«ng giao

nhau) dùa trªn mét thuéc tÝnh nµo ®ã, nÕu mét nhãm chøa c¸c

phÇn tö d÷ liÖu cã gi¸ trÞ thuéc tÝnh ®ang xÐt lµ b»ng nhau th× ta

gäi lµ nhãm duy nhÊt (singleton bucket). Sau khi chia xong th× ta

dïng c¸c nhãm d÷ liÖu nµy ®Ó biÓu diÔn d÷ liÖu thay v× d÷ liÖu

gèc, do ®ã sè l­îng d÷ liÖu sÏ ®­îc gi¶m ®i. VÝ dô ta cã gi¸ trÞ cho

thuéc tÝnh gi¸ (price) sau khi s¾p xÕp tÝnh b»ng USD lµ: 1, 1, 5, 5,

5, 5, 5, 8, 8, 10, 10, 10, 10, 12, 14, 14, 14, 15, 15, 15, 15, 15, 15,

18, 18, 18, 18, 18, 18, 18, 18, 20, 20, 20, 20, 20, 20, 20, 21, 21,

21, 21, 25, 25, 25, 25, 25, 28, 28, 30, 30, 30. NÕu ta chia tËp d÷

liÖu nµy thµnh c¸c nhãm cã gi¸ trÞ b»ng nhau th× ta thu ®­îc 13

nhãm nh­ H×nh 3.13. Do ®ã tõ tËp d÷ liÖu ban ®Çu lµ 52 phÇn tö ta

Page 71: KPDL_C1-6 & C10

141 142

chØ cßn 13 phÇn tö. Trong tr­êng hîp d÷ liÖu lµ liªn tôc th× mçi

mét nhãm sÏ cã mét miÒn gi¸ trÞ.

H×nh 3.11. D÷ liÖu n¨m ®­îc tæng hîp tõ d÷ liÖu quý

Cã nhiÒu tiªu chÝ ®Ó chia d÷ liÖu thµnh c¸c nhãm, d­íi ®©y giíi thiÖu

mét sè tiªu chÝ:

§é réng b»ng nhau (equal-width): miÒn gi¸ trÞ cho mçi nhãm

lµ b»ng nhau. VÝ dô mét thuéc tÝnh cã gi¸ trÞ tõ 1 ®Õn 100, nÕu

chia thµnh c¸c nhãm cã “®é réng” lµ 10 th× ta cã 10 nhãm

(100/10=10).

B»ng tuÇn suÊt (equal-frequency): sè l­îng c¸c phÇn tö d÷ liÖu

trong tõng nhãm lµ (xÊp xØ) b»ng nhau.

Ph©n côm (clustering): ph­¬ng ph¸p nµy sö dông c¸c gi¶i thuËt

ph©n côm ®Ó nhãm d÷ liÖu l¹i thµnh c¸c côm, c¸c côm nµy sÏ ®­îc

dïng lµm ®¹i diÖn cho d÷ liÖu gèc. C¸c gi¶i thuËt ph©n côm sÏ

®­îc tr×nh bµy ë ch­¬ng 5.

LÊy mÉu (sampling): ph­¬ng ph¸p nµy chØ ®¬n gi¶n lµ lÊy ngÉu

nhiªn mét tËp con cña d÷ liÖu. Gi¶ sö ta cã mét tËp d÷ liÖu lín D

gåm N phÇn tö d÷ liÖu, ta cã c¸c ph­¬ng ph¸p lÊy mÉu sau:

o LÊy mÉu ngÉu nhiªn ®¬n gi¶n kh«ng cã thay thÕ: ta lÊy ngÉu

nhiªn s phÇn tö tõ D (s < N), khi ®ã mçi phÇn tö sÏ cã x¸c suÊt

®­îc lÊy lµ 1/N.

LÊy mÉu ngÉu nhiªn ®¬n gi¶n cã thay thÕ: ta lÊy ngÉu nhiªn s phÇn tö tõ D (s <

N), ®iÓm kh¸c so víi ph­¬ng ph¸p trªn lµ: mét phÇn tö sau khi ®­îc lÊy mÉu nã

l¹i ®­îc bá vµo tËp D, do ®ã nã cã kh¶ n¨ng ®­îc lÊy mÉu nhiÒu h¬n 1 lÇn.

H×nh 3.12 Khèi d÷ liÖu ®­îc t¹o ra nhê c¸c thao t¸c tæng hîp

Page 72: KPDL_C1-6 & C10

143 144

H×nh 3.13. C¸c nhãm sau khi chia theo biÓu ®å tÇn suÊt

o LÊy mÉu côm: Khi D ®­îc ph©n thµnh M côm kh«ng giao

nhau, khi ®ã ta cã thÓ lÊy ngÉu nhiªn s côm (s < M).

o LÊy mÉu theo tÇng (stratified sampling): gi¶ sö D ®­îc ph©n

thµnh c¸c phÇn kh«ng giao nhau gäi lµ c¸c tÇng (strata). Ta sÏ

tiÕn hµnh lÊy mÉu ngÉu nhiªn ®¬n gi¶n trªn tõng tÇng. Ph­¬ng

ph¸p nµy ®¶m b¶o tÇng nµo còng ®­îc lÊy mÉu, do ®ã d÷ liÖu

mÉu thu ®­îc cã kh¶ n¨ng ®¹i diÖn tèt cho d÷ liÖu gèc.

C¸c ph­¬ng ph¸p lÊy mÉu cã ­u ®iÓm lµ chi phÝ thÊp nªn cã thÓ øng

dông trong nh÷ng tr­êng hîp cÇn tèc ®é xö lý.

3.7. Rêi r¹c hãa d÷ liÖu vµ sinh c©y kh¸i niÖm ph©n cÊp

Rêi r¹c hãa vµ sinh c©y ph©n cÊp kh¸i niÖm lµ ph­¬ng ph¸p lµm gi¶m sè

l­îng d÷ liÖu, ®ång thêi cho phÐp ng­êi dïng ph©n tÝch d÷ liÖu ë c¸c møc trõu

t­îng kh¸c nhau.

3.7.1. Ph­¬ng ph¸p ¸p dông cho d÷ liÖu sè

a) Ph­¬ng ph¸p binning

Ph­¬ng ph¸p nµy lµ ph­¬ng ph¸p ph©n t¸ch tõ trªn xuèng dùa trªn c¸c

nhãm sè. Ph­¬ng ph¸p nµy ®­îc tr×nh bµy kü trong phÇn lµm mÞn d÷ liÖu (phÇn

3.4) ë trªn. Ph­¬ng ph¸p nµy còng ®­îc sö dông ®Ó lµm rêi r¹c hãa d÷ liÖu. VÝ

dô nh­ gi¸ trÞ cña thuéc tÝnh cã thÓ ®­îc rêi r¹c hãa b»ng c¸ch nhãm theo c¸c

gi¸ trÞ b»ng nhau vÒ ®é réng hoÆc b»ng nhau vÒ tÇn sè, sau ®ã cã thÓ thay thÕ c¶

nhãm gi¸ trÞ ®ã b»ng gi¸ trÞ trung b×nh hoÆc trung vÞ. Ph­¬ng ph¸p nµy cã thÓ

®­îc ¸p dông lÆp l¹i ®Ó cã thÓ thu ®­îc sù rêi r¹c hãa kiÓu ph©n cÊp.

Ph­¬ng ph¸p nµy kh«ng sö dông th«ng tin vÒ ph©n líp nªn ®­îc gäi lµ

ph­¬ng ph¸p rêi r¹c hãa kh«ng cã gi¸m s¸t. Ph­¬ng ph¸p nµy kh¸ nh¹y c¶m víi

sè l­îng nhãm t¹o ra còng nh­ sù xuÊt hiÖn cña gi¸ trÞ ngo¹i lai.

b) Ph­¬ng ph¸p ph©n tÝch biÓu ®å tÇn suÊt

Còng gièng ph­¬ng ph¸p Binning, ph­¬ng ph¸p nµy còng lµ ph­¬ng ph¸p

rêi r¹c hãa kh«ng cã gi¸m s¸t. Ph­¬ng ph¸p nµy ph©n chia c¸c gi¸ trÞ cña thuéc

tÝnh thµnh tõng nhãm kh«ng giao nhau. Cã rÊt nhiÒu c¸ch ph©n chia kh¸c nhau

cã thÓ ®­¬c dïng ®Ó ®Þnh nghÜa biÓu ®å. Ph©n tÝch biÓu ®å cã thÓ ®­îc ¸p dông

lÆp ®i lÆp l¹i víi tõng khèi ®Ó cã thÓ tù ®éng t¹o ra ph©n cÊp ®a møc, vßng lÆp

nµy sÏ dõng l¹i khi ®¹t tíi møc ®­îc ®Þnh nghÜa tr­íc. BiÓu ®å tÇn suÊt còng cã

thÓ ®­îc ph©n r· dùa trªn ph©n tÝch nhãm dùa trªn ph©n bæ cña d÷ liÖu.

c) Ph­¬ng ph¸p ph©n côm, c©y quyÕt ®Þnh vµ ph©n tÝch t­¬ng quan

Ph©n côm, c©y quyÕt ®Þnh vµ ph©n tÝch t­¬ng quan còng th­êng ®­îc sö

dông ®Ó rêi r¹c hãa d÷ liÖu. Trong phÇn nµy chóng t«i chØ giíi thiÖu ng¾n gän

tõng ph­¬ng ph¸p.

Page 73: KPDL_C1-6 & C10

145 146

Ph©n côm lµ mét ph­¬ng ph¸p rêi r¹c hãa kh¸ phæ biÕn. C¸c ph­¬ng ph¸p

ph©n côm cã thÓ ®­îc sö dông ®Ò rêi r¹c hãa c¸c thuéc tÝnh sè b»ng c¸ch ph©n

nhá gi¸ trÞ cña thuéc tÝnh A vµo c¸c côm hoÆc c¸c nhãm. Ph­¬ng ph¸p ph©n

côm cho phÐp ph©n tÝch ph©n bè cña thuéc tÝnh A, tõ ®ã cã thÓ tr¶ l¹i c¸c kÕt

qu¶ rêi r¹c hãa cã chÊt l­îng tèt.

Ph©n côm cã thÓ ®­îc dïng ®Ó t¹o thµnh c¸c møc ph©n cÊp dùa theo c¶ hai

chiÕn thuËt tõ ph©n r· trªn xuèng vµ gom nhãm tõ d­íi lªn. VÒ mÆt lý thuyÕt th×

mçi mét nhãm lµ mét nót trong c©y ph©n cÊp, víi mçi nót cha sÏ ®­îc ph©n r·

thµnh mét sè côm con thÓ t¹o thµnh møc thÊp h¬n. Ng­îc l¹i, c¸c côm ®­îc

h×nh thµnh tõ viÖc nhãm mét vµi côm gÇn nhau t¹o thµnh nót cã møc cao h¬n.

C©y quyÕt ®Þnh dïng trong ph©n líp còng cã thÓ ®­îc dïng ®Ó rêi r¹c hãa

d÷ liÖu. Ph­¬ng ph¸p nµy thùc hiÖn theo c¸ch tiÕp cËn ph©n r· trªn xuèng.

Kh«ng gièng c¸c ph­¬ng ph¸p ®· giíi thiÖu ë trªn, c©y quyÕt ®Þnh rêi r¹c hãa

b»ng c¸ch tiÕp cËn häc cã gi¸m s¸t dùa trªn th«ng tin cña thuéc tÝnh ph©n líp.

VÝ dô víi tËp d÷ liÖu vÒ c¸c triÖu chøng cña bÖnh víi mçi ng­êi sÏ cã kÕt qu¶

chÈn ®o¸n t­¬ng øng. Ph©n bè cña kÕt qu¶ ph©n líp sÏ ®­îc sö dông ®Ó tÝnh to¸n

vµ x¸c ®Þnh c¸c vÞ trÝ ph©n t¸ch nót. Mét c¸ch trùc quan, ý t­ëng chÝnh cña lµ lùa

chän c¸c ®iÓm ph©n chia c¸c nót sao cho cã thÓ ph©n chia thµnh c¸c côm víi c¸c

bé d÷ liÖu cã cïng thuéc tÝnh nh·n. Lý thuyÕt vÒ ®é ®o Entropy th­êng ®­îc sö

dông cho môc ®Ých nµy. §Ó rêi r¹c hãa mét thuéc tÝnh sè A, ph­¬ng ph¸p sÏ lùa

chän gi¸ trÞ cña A sao cho tèi thiÓu hãa ®é ®o Entropy t¹i ®iÓm ph©n t¸ch, c«ng

viÖc nµy ®­îc lÆp l¹i cho tíi khi ®¹t møc rêi r¹c phï hîp.

TÝnh to¸n ®é t­¬ng quan còng cã thÓ sö dông ®Ó rêi r¹c hãa d÷ liÖu.

Ph­¬ng ph¸p tõ tr­íc tíi giê ®· ®­îc tr×nh bµy th­êng sö dông h­íng tiÕp cËn

ph©n r· tõ trªn xuèng. Ng­îc l¹i ph­¬ng ph¸p nµy lµ ph­¬ng ph¸p tæng hîp tõ

d­íi lªn b»ng c¸ch t×m c¸c l¸ng giÒng gÇn nhau nhÊt vµ ghÐp chóng l¹i víi nhau

thµnh nhãm lín h¬n. Còng gièng nh­ c¸ch tiÕp cËn dùa trªn c©y quyÕt ®Þnh,

ph­¬ng ph¸p nµy còng lµ ph­¬ng ph¸p häc cã gi¸m s¸t dùa trªn th«ng tin ph©n

líp. Quan ®iÓm c¬ b¶n cña h­íng tiÕp cËn nµy lµ ®Ó cã rêi r¹c hãa tèt, tÇn suÊt

cña c¸c líp liªn quan kh¸ phï hîp trong cïng mét kho¶ng. V× vËy nÕu hai

kho¶ng liÒn kÒ cã ph©n bè ph©n líp gièng nhau th× cã thÓ ®­îc ghÐp l¹i víi

nhau, nÕu kh«ng th× chóng kh«ng thÓ ghÐp ®­îc víi nhau. Ph­¬ng ph¸p dùa trªn

chi-test (®­îc tr×nh bµy ë môc 3.4 ë trªn) nµy ®­îc thùc hiÖn nh­ sau. §Çu tiªn,

mçi gi¸ trÞ riªng biÖt cña thuéc tÝnh sè A sÏ ®­îc coi lµ mét côm ®éc lËp. Hµm

X2 ®­îc thùc hiÖn víi tÊt c¶ c¸c nhãm liÒn kÒ nhau. C¸c nhãm víi gi¸ trÞ X2 nhá

nhÊt sÏ ®­îc ghÐp víi nhau (do gi¸ trÞ X2 cho biÕt ®é t­¬ng ®ång gi÷a hai thuéc

tÝnh, gi¸ trÞ cµng nhá cã nghÜa lµ ph©n bæ cµng gièng nhau). Qu¸ tr×nh gom

nhãm ®­îc lÆp l¹i tíi khi tiªu chuÈn dõng ®­îc ®Þnh nghÜa tr­íc.

3.7.Ph­¬ng ph¸p ¸p dông cho d÷ liÖu ph©n lo¹i

D÷ liÖu ph©n lo¹i (categorical data) (vÝ dô nh­ d÷ liÖu vÒ giíi tÝnh, mµu

s¾c, vÞ trÝ ®Þa lý) lµ d÷ liÖu rêi r¹c. §Æc ®iÓm cña lo¹i d÷ liÖu nµy lµ h÷u h¹n

nh­ng trong mét sè tr­êng hîp lµ rÊt lín, vµ ®Æc biÖt lµ kh«ng cã thø tù. ViÖc

x¸c ®Þnh thø tù cho lo¹i d÷ liÖu nµy cÇn ph¶i cã chuyªn gia ®Þnh nghÜa. VÝ dô

trong kho d÷ liÖu ta cã c¸c thuéc tÝnh ngâ, phè, tØnh (thµnh phè), quèc gia, khi

®ã ta cã thÓ ®Þnh nghÜa mét c©y ph©n cÊp (hay thø tù) gi÷a c¸c thuéc tÝnh nµy lµ:

ngâ < phè < tØnh < quèc gia. Khi nhãm d÷ liÖu ta còng cÇn ®Þnh nghÜa nh÷ng gi¸

trÞ nµo thuéc vµo nhãm nµo, vÝ dô nh­ phè nµo thuéc thµnh phè nµo, hay nh÷ng

phè nµo thuéc phÝa b¾c Hµ néi, nh÷ng phè nµo thuéc phÝa nam Hµ néi, ... Sau

khi ®Þnh nghÜa ®­îc c¸c nhãm vµ c©y ph©n cÊp nh­ trªn th× ta cã thÓ ¸p dông c¸c

thuËt to¸n xö lý t­¬ng tù nh­ thuéc tÝnh sè ë trªn.

3.8. Tæng kÕt

ChuÈn bÞ d÷ liÖu lµ mét c«ng viÖc cã vai trß quan träng trong qu¸ tr×nh ph©n tÝch d÷ liÖu. B¶n chÊt cña c«ng t¸c chuÈn bÞ d÷ liÖu lµ xö lý th« d÷ liÖu theo môc ®Ých khai ph¸ cô thÓ nµo ®ã cña ng­êi ph©n tÝch. Theo c¸ch tiÕp cËn nµy, viÖc xö lý d÷ liÖu nµy sÏ cã ¶nh h­ëng lín tíi kÕt qu¶ ph©n tÝch. ChuÈn bÞ d÷ liÖu ®­îc ph©n chia thµnh mét sè nhãm nh­ lµm s¹ch d÷ liÖu, tÝch hîp d÷ liÖu vµ thu gän d÷ liÖu vµ biÕn ®æi d÷ liÖu… tuy nhiªn c¸c ph­¬ng ph¸p nµy th­êng ®­îc sö dông kÕt hîp víi nhau nh»m lµm t¨ng hiÖu qu¶ cña giai ®o¹n khai ph¸ d÷ liÖu theo nhu cÇu cô thÓ cña ng­êi ph©n tÝch d÷ liÖu. Trong mçi nhãm l¹i cã rÊt nhiÒu ph­¬ng ph¸p cô thÓ kh¸c nhau mµ ë ®©y chóng t«i chØ giíi thiÖu mét

Page 74: KPDL_C1-6 & C10

147 148

sè ph­¬ng ph¸p ®iÓn h×nh. Tïy thuéc vµo ®Æc tÝnh d÷ liÖu vµ môc tiªu bµi to¸n, ph©n tÝch viªn cÇn lùa chän ph­¬ng ph¸p chuÈn bÞ d÷ liÖu t­¬ng øng vµ c«ng viÖc nµy th­êng rÊt khã ®¸nh gi¸ ®Þnh l­îng mét c¸ch chÝnh x¸c. Tuy nhiªn viÖc lùa chän ph­¬ng ph¸p thÝch hîp l¹i gióp cho qu¸ tr×nh ph©n tÝch, khai ph¸ d÷ liÖu trë nªn dÔ dµng vµ hiÖu qu¶ h¬n rÊt nhiÒu.

C©u hái vµ Bµi tËp

1. D÷ liÖu trong thùc tÕ th­êng kh«ng ®Çy ®ñ, mét sè mÉu cã thÓ bÞ thiÕu mét hoÆc mét vµi gi¸ trÞ. Tr×nh bµy mét sè ph­¬ng ph¸p gi¶i quyÕt vÊn ®Ò nµy?

2. Gi¶ sö d÷ liÖu cña thuéc tÝnh tuæi ®­îc gom l¹i theo nhãm nh­ sau:

Tuæi TÇn sè

1-5 200

6-15 450

16-20 300

21-50 1500

51-80 700

81-100 44 TÝnh gi¸ trÞ trung vÞ (xÊp xØ) cña tËp d÷ liÖu trªn.

3. Gi¶ sö gi¸ trÞ cña thuéc tÝnh tuæi lµ nh­ sau: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70

a. TÝnh gi¸ trÞ trung b×nh vµ trung vÞ cña tËp d÷ liÖu trªn b. TÝnh gi¸ trÞ mode vµ kÕt luËn tËp d÷ liÖu nµy cã ®Æc ®iÓm g×

(unimodal, bimodal, trimodal,...) c. TÝnh gi¸ trÞ midrange cña tËp d÷ liÖu. d. TÝnh gi¸ trÞ (xÊp xØ) Q1 vµ Q3. e. TÝnh bé 5 tãm t¾t cña tËp d÷ liÖu trªn. f. VÏ s¬ ®å boxplot

4. Sö dông tËp d÷ liÖu ë bµi 3. a. Sö dông ph­¬ng ph¸p lµm mÞn bin theo tÇn suÊt lµ 3. B×nh luËn

vÒ kÕt qu¶ thu ®­îc. b. Lµm c¸ch nµo ®Ó ph¸t hiÖn ®­îc tr­êng hîp ngo¹i lai trong tËp

d÷ liÖu nµy.

c. Sö dông mét ph­¬ng ph¸p lµm mÞn kh¸c cho tËp d÷ liÖu nµy. 5. Cho biÕt d÷ liÖu vÒ tuæi cã gi¸ trÞ nh­ sau: 13, 15, 16, 16, 19, 20, 20, 21,

22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70, thùc hiÖn mét sè yªu cÇu sau

a. Víi kü thuËt min-max, cho biÕt gi¸ trÞ cña tuæi 35 trong kho¶ng [0, 1]

b. Dïng kü thuËt z-score ®Ó chuyÓn gi¸ trÞ 35 víi ®é lÖch chuÈn lµ 12.94

6. Gi¶ sö d÷ liÖu kiÓm tra sù liªn quan gi÷a tuæi vµ sù bÐo ph× cña bÖnh viÖn trªn 18 ng­êi chän ngÉu nhiªn:

age 23 23 27 27 39 41 47 49 50

%fat 9.5 26.5 7.8 17.8 31.4 25.9 27.4 27.2 31.2

age 52 54 54 56 57 58 58 60 61

%fat 34.6 42.5 28.8 33.4 30.2 34.1 32.9 41.2 35.7

a. TÝnh gi¸ trÞ trung b×nh, trung vÞ, vµ ®é lÖch chuÈn cña hai thuéc tÝnh tuæi (age) vµ tØ lÖ bÐo (%fat) cho tËp d÷ liÖu trªn.

b. VÔ biÓu ®å boxplot cho 2 thuéc tÝnh trªn c. VÔ biÓu ®å scatter plot vµ q-q plot cho 2 thuéc tÝnh trªn d. ChuÈn hãa 2 thuéc tÝnh trªn b»ng z-score e. TÝnh hÖ sè t­¬ng quan gi÷a 2 thuéc tÝnh trªn. KÕt luËn xem 2

thuéc tÝnh nµy cã quan hÖ g× víi nhau hay kh«ng? 7. Sö dông l­îc ®å ®Ó tãm t¾t c¸c kü thuËt trÝch chän thuéc tÝnh

a. Më réng dÇn tËp con (forward selection) b. Lo¹i bá dÇn c¸c thuéc tÝnh (backward elimination) c. KÕt hîp hai ph­¬ng ph¸p trªn

Page 75: KPDL_C1-6 & C10

149 150

Ch­¬ng 4. Ph¸t hiÖn luËt kÕt hîp

4.1 Giíi thiÖu vÒ luËt kÕt hîp

MÉu phæ biÕn (frequent patterns) lµ c¸c mÉu (vÝ dô: tËp c¸c môc, chuçi

con hoÆc c¸c thµnh phÇn cÊu tróc con) mµ xuÊt hiÖn mét c¸ch th­êng xuyªn

trong mét tËp d÷ liÖu. VÝ dô nh­: mét tËp c¸c môc (nh­ b¸nh m× vµ s÷a), th­êng

®­îc mua cïng nhau trong c¸c hãa ®¬n hµng siªu thÞ, th× ta gäi lµ tËp môc phæ

biÕn (frequent Itemset). Mçi chuçi con th­êng xuÊt hiÖn lÇn l­ît trong c¬ së d÷

liÖu th× ®­îc coi lµ mét mÉu tuÇn tù (sequential pattern) vÝ dô nh­ kh¸ch hµng

th­êng mua laptop tr­íc sau ®ã cã thÓ mua m¸y ¶nh sè råi ®Õn thÎ nhí. Mét

thµnh phÇn cÊu tróc con nh­ ®å thÞ con, c©y con, m¹ng con… xuÊt hiÖn th­êng

xuyªn th× l¹i ®­îc gäi lµ mÉu phæ biÕn cã cÊu tróc (structured pattern). Trong

bµi to¸n khai ph¸ luËt kÕt hîp, chóng ta th­êng quan t©m ®Õn c¸c tËp môc phæ

biÕn nhiÒu h¬n.

Khai ph¸ luËt kÕt hîp lµ t×m ra c¸c mÉu cã tÇn suÊt cao, c¸c mÉu kÕt hîp,

liªn quan hoÆc c¸c cÊu tróc tån t¹i gi÷a c¸c tËp hîp ®èi t­îng trong c¬ sö d÷ liÖu

c¸c giao dÞch, c¬ së d÷ liÖu quan hÖ hoÆc c¸c kho chøa th«ng tin kh¸c. Nãi c¸ch

kh¸c lµ chóng ta ®i t×m tÊt c¶ c¸c tËp phæ biÕn tõ trong

Cho mét tËp c¸c giao t¸c, khai ph¸ luËt kÕt hîp cã nhiÖm vô t×m ra c¸c luËt

mµ dù ®o¸n sù xuÊt hiÖn cña mét ®èi t­îng dùa vµo sù xuÊt hiÖn cña c¸c ®èi

t­îng kh¸c trong giao t¸c. Nh­ng nã kh«ng cã kh¶ n¨ng khai ph¸ ra c¸c chuçi

®èi t­îng x¶y ra tuÇn tù ®¶m b¶o mét ®iÒu kiÖn nµo ®ã. §iÒu nµy sÏ ®­îc xö lý

trong bµi to¸n khai ph¸ c¸c mÉu tuÇn tù.

Mét trong nh÷ng vÝ dô ®iÓn h×nh cho bµi to¸n khai ph¸ luËt kÕt hîp lµ bµi

to¸n s¾p xÕp hµng hãa trong Siªu thÞ. Gi¶ sö b¹n lµ mét chñ cöa hµng. §Ó ®­a ra

chiÕn l­îc kinh doanh hiÖu qu¶, b¹n muèn quan t©m ®Õn thãi quen mua s¾m cña

kh¸ch hµng. Mét trong c¸c c©u hái ®Æt ra lµ “Nhãm nh÷ng mÆt hµng nµo mµ

kh¸ch hµng th­êng mua cïng trong mét lÇn ghÐ cöa hµng?” Sau khi xö lý trªn

khèi d÷ liÖu hãa ®¬n tõ x­a ®Õn nµy th× nhËn ra r»ng: cã 30 % hãa ®¬n cã tÝnh

tiÒn c¶ bia vµ t· lãt trÎ em, vµ cø 100 ng­êi mua t· lãt th× cã ®Õn 40 ng­êi mua

thªm bia. Nã gîi ý cho b¹n r»ng nªn ®Ó gian hµng bia vµ t· lãt gÇn nhau ®Ó tiÖn

cho kh¸ch hµng. Trong vÝ dô nµy , tËp {bia, t· lãt} lµ mét tËp phæ biÕn víi tÇn

suÊt 30%, luËt {40% ng­êi mua t· lãt th× mua lu«n c¶ bia} lµ mét luËt kÕt hîp.

Bµi to¸n ®Æt ra nh­ sau:

Cho biÕt T = {t1,t2,..., tn} lµ tËp c¸c giao dÞch (transaction) víi n lµ sè c¸c

giao dÞch cã trong T. TËp I = {i1, i2,…. , im} lµ mét tËp gåm m tËp môc kh¸c nhau

xuÊt hiÖn trong ti. Mçi giao dÞch ti lµ mét tËp c¸c môc xuÊt hiÖn ®ång thêi. Ta cã

ti I. Víi X vµ Y lµ c¸c tËp môc. LuËt kÕt hîp cã thÓ biÓu diÔn bëi c«ng thøc

sau:

X # Y, víi X I, Y I vµ X#Y=#

Mét giao dÞch ti thuéc T chøa mét tËp môc X nÕu X lµ tËp con cña ti.

XÐt c¬ së d÷ liÖu bao gåm 8 giao dÞch (n=8) vµ cã 5 môc d÷ liÖu kh¸c nhau

®­îc g¸n gi¸ trÞ lÇn l­ît lµ a, b, c, d, e, vËy ta cã m=5 vµ I= { a, b, c, d, e }. D÷

liÖu trong CSDL ®­îc ph©n bæ nh­ trong b¶ng 4.1

B¶ng 4.1. C¬ së d÷ liÖu vÝ dô gåm 5 giao dÞch

TID TËp môc trong giao dÞch

1 {a, b, c, d, e } 2 {b, c } 3 {a, b, f } 4 {a, b, g } 5 {a, f, h}

Page 76: KPDL_C1-6 & C10

151 152

§é hç trî cña X trong T lµ sè giao dÞch chøa X trong T (viÕt t¾t lµ

X.count). VÝ dô: a.count= 4, b.count = 4

Hai kh¸i niÖm hÕt søc c¬ b¶n ®Ó ®o ®é m¹nh cña mét luËt kÕt hîp lµ ®é hç trî vµ ®é tin cËy.

§é hç trî cña mét luËt X Y lµ tØ lÖ % c¸c giao dÞch trong T mµ chøa c¶

X vµ Y. Nã gióp x¸c ®Þnh møc ®é phæ biÕn cña c¸c giao dÞch chøa tËp môc

(X Y) trong tæng sè tÊt c¶ c¸c giao dÞch. C«ng thøc tÝnh ®é hç trî (support):

support (XY) = ( ).

( )X Y count

P X Yn

(

4.1)

§é tin cËy cña luËt X Y l¹i lµ tØ lÖ % c¸c giao dÞch trong T chøa c¶ X vµ

Y trªn tæng sè c¸c giao dÞch trong T chØ chøa X. Nã lµ ®¹i l­îng x¸c ®Þnh kh¶

n¨ng dù ®o¸n cña luËt vµ ®­îc tÝnh nh­ sau:

confidence (XY) = ( ).

( | ).

X Y countP X Y X

X count

(

4.2)

Bµi to¸n c¬ b¶n ®Æt ra: cho mét tËp c¸c giao dÞch T, t×m ra tÊt c¶ c¸c luËt

kÕt hîp trong T mµ cã ®é hç trî kh«ng nhá h¬n mét ng­ìng nµo ®ã(minsup) vµ

®ång thêi còng cã ®é tin cËy kh«ng nhá h¬n mét ng­ìng kh¸c (mincon). LuËt

®­îc sinh ra tháa m·n kh«ng nhá h¬n hai ng­ìng minsup vµ minconf ®­îc gäi lµ luËt m¹nh. Nh×n chung, bµi to¸n khai ph¸ luËt kÕt hîp th­êng ®­îc chia lµm 2

pha chÝnh:

Pha 1(T×m tÊt c¶ c¸c tËp môc phæ biÕn): Mçi tËp môc sÏ ®­îc tÝnh x¸c suÊt

xuÊt hiÖn, c¸c tËp môc phæ biÕn ph¶i tháa m·n ®é hç trî kh«ng nhá h¬n ®é hç

trî tèi thiÓu minsup

Pha 2 (Sinh ra c¸c luËt kÕt hîp m¹nh tõ c¸c tËp môc phæ biÕn ë pha 1): C¸c

luËt nµy ph¶i cã ®é tin cËy kh«ng nhá h¬n ®é tin cËy nhá nhÊt mincon

Kh¸c víi c¸c kiÓu khai ph¸ d÷ liÖu kh¸c, dùa vµo c¸c ng­ìng tèi thiÓu,

khai ph¸ luËt kÕt hîp lu«n chØ cã duy nhÊt mét tËp kÕt qu¶ cho dï ¸p dông bÊt k×

mét gi¶i thuËt nµo. Th¸ch thøc lín nhÊt cña khai ph¸ tËp môc phæ biÕn lµ nã

th­êng sinh ra mét l­îng v« cïng lín c¸c tËp môc tháa m·n ng­ìng minsup, ®Æc

biÖt khi minsup kh¸ nhá. §iÒu nµy do nÕu mét tËp môc lµ th­êng xuyªn th× mçi

tËp con cña nã còng th­êng xuyªn x¶y ra. Víi mét tËp môc dµi vµ tæ hîp cña c¸c

tËp môc con cña nã. VÝ dô: ta cã mét tËp môc th­êng xuyªn cã ®é dµi 100, sÏ

chøa 100 tËp môc cã ®é dµi 1, chøa …

Sè l­îng c¸c tËp th­êng xuyªn nh­ vËy lµ qu¸ lín ®Ó tÝnh to¸n nªn ng­êi ta

®­a ra mét sè kh¸i niÖm ®Ó gi¶i quyÕt vÊn ®Ò nµy bao gåm tËp th­êng xuyªn ®ãng vµ tËp th­êng xuyªn cùc ®¹i. Mét tËp môc ®­îc gäi lµ tËp th­êng xuyªn

®ãng trong tËp D nÕu nã võa ®ãng vµ th­êng xuyªn trong D. ???

4.2 Ph­¬ng ph¸p khai ph¸ tËp môc phæ biÕn

Apriori lµ mét thuËt gi¶i ®­îc do R. Agrawal, R. Srikant ®Ò xuÊt lÇn ®Çu

vµo n¨m 1994 nh»m khai ph¸ tËp môc phæ biÕn nhÞ ph©n. ThuËt to¸n nµy thùc

hiÖn lÆp l¹i viÖc t×m kiÕm theo møc, sö dông th«ng tin ë møc k ®Ó duyÖt møc

k+1. §Çu tiªn, tËp c¸c môc th­êng xuyªn cã ®é dµi lµ 1 ®­îc x©y dùng b»ng

viÖc duyÖt qua toµn bé d÷ liÖu ®Ó ®Õm sù xu©t hiÖn cña tõng phÇn tö vµ gi¸ trÞ

nµy ph¶i lín h¬n hoÆc b»ng ®é hç trî nhá nhÊt (minsup). KÕt qu¶ cña viÖc ®Õm

nµy ®­îc ký hiÖu lµ L1. TiÕp theo L1 nµy ®­îc sö dông ®Ó t×m L2 lµ tËp môc

th­êng xuyªn cã ®é dµi 2. T¸c vô nµy ®­îc thùc hiÖn lÆp l¹i ®Õn khi kh«ng t×m

®­îc tËp môc th­êng xuyªn cã ®é dµi k tháa m·n ®iÒu kiÖn minsup. L­u ý r»ng

mçi lÇn thùc hiÖn viÖc t×m tËp c¸c môc th­êng xuyªn Lk yªu cÇu duyÖt toµn bé

d÷ liÖu. Tõ tËp môc th­êng xuyªn nµy ta sinh ra luËt kÕt hîp m¹nh b»ng c¸ch

t×m c¸c luËt trong tËp môc th­êng xuyªn tháa m·n ng­ìng minconf.

Page 77: KPDL_C1-6 & C10

153 154

Apriori Algorithm

1. DuyÖt toµn bé CSDL giao dÞch ®Ó tÝnh gi¸ trÞ hç trî lµ phÇn tö cña tËp

phæ biÕn tiÒm n¨ng C1 cña 1-itemset, so s¸nh víi minsup, ®Ó cã ®­îc 1-itemset

(L1)

2. L1 nèi (phÐp join) L1 ®Ó sinh ra 2-itemset lµ tËp phæ biÕn tiÒm n¨ng.

Lo¹i bá c¸c tËp môc kh«ng ph¶i lµ tËp phæ biÕn thu ®­îc 2-itemset C2

3. DuyÖt toµn bé CSDL giao dÞch ®Ó tÝnh gi¸ trÞ hç trî cña mçi øng viªn

2-itemset, so s¸nh tõng phÇn tö víi minsup ®Ó thu ®­îc tËp môc th­êng xuyªn 2-

itemset (L2)

4. LÆp l¹i tõ b­íc 2 cho ®Õn khi tËp øng cö tiÒm n¨ng C= # (kh«ng t×m

thÊy tËp môc phæ biÕn)

5. Víi mçi môc phæ biÕn I, sinh tÊt c¶ c¸c tËp con s kh«ng rçng cña I

6. Víi mçi tËp con s kh«ng rçng cña I, sinh ra c¸c luËt s => (I-s) nÕu ®é

tin cËy (Confidence) cña nã # minconf

VÝ dô:

XÐt CSDL trong B¶ng 4.1, t×m tÊt c¶ c¸c luËt kÕt hîp ¸p dông thuËt to¸n trªn tháa m·n ®iÒu kiÖn minsup= 40% vµ minconf=80% TËp luËt sinh ra sau khi thùc hiÖn thuËt to¸n cã thÓ nh­ sau R1: ab (support=60%, confidence= 75%) R2: ba (support=60%, confidence= 75%) R3: fa (support=40%, confidence= 100%) R4: cb (support=40%, confidence= 100%)

4.3. ThuËt to¸n FP-Growth

4.3.1. ý t­ëng thuËt to¸n

ThuËt to¸n kinh ®iÓn Apriori t×m tËp môc phæ biÕn thùc hiÖn kh¸ hiÖu qu¶ tèt bëi rót gän kÝch th­íc c¸c tËp øng cö nhê kü thuËt tØa nh¸nh nh­ giíi thiÖu ë phÇn tr­íc. Tuy nhiªn, trong t×nh huèng mµ sè c¸c d÷ liÖu nhiÒu, ®é dµi cña giao dÞch dµi hoÆc ®é hç trî cùc tiÓu thÊp, c¸c thuËt to¸n Apriori gÆp ph¶i 2 chi phÝ lín:

- Chi phÝ cho sè l­îng khæng lå c¸c tËp øng cö. VÝ dô: nÕu cã 104 tËp 1-môc phæ biÕn th× thuËt to¸n Apriori sÏ cÇn sinh ra h¬n 107 c¸c øng cö 2-itemset vµ thùc hiÖn kiÓm tra s­ xuÊt hiÖn cña chóng. H¬n n÷a, ®Ó kh¸m ph¸ ®­îc mét sè mÉu phæ biÕn kÝch th­íc (®é dµi) lµ l, thuËt to¸n ph¶i kiÓm tra (2l-2 ) c¸c mÉu phæ biÕn tiÒm n¨ng. VÝ dô l=100, ch¼ng h¹n lµ

Page 78: KPDL_C1-6 & C10

155 156

{a1,a2,....,a100}, nã ph¶i sinh ra tæng sè 2100 1030 c¸c øng cö (®©y chÝnh lµ sè tËp con cña tËp cã 100 phÇn tö)

- §ßi hái lÆp l¹i nhiÒu lÇn duyÖt CSDL ®Ó kiÓm tra tËp rÊt lín c¸c øng cö. Sè lÇn duyÖt CSDL cña thuËt to¸n Apriori b»ng ®é dµi cña mÉu phæ biÕn dµi nhÊt t×m ®­îc. Trong tr­êng hîp mÉu phæ biÕn dµi h¬n vµ CSDL lín, cã nhiÒu b¶n ghi, ®iÒu nµy lµ kh«ng thÓ thùc hiÖn ®­îc. ThuËt to¸n Apriori chØ thÝch hîp cho c¸c CSDL th­a (sparse), víi c¸c CSDL cã mËt ®é dµy (dense) th× thuËt to¸n thùc hiÖn kÐm hiÖu qu¶ h¬n.

Nh»m kh¾c phôc c¸c nh­îc ®iÓm trªn, thuËt to¸n cã tªn lµ FP-growth ®­îc giíi thiÖu bëi Jiawei Hai Jian Pei vµ Yiwen Yin n¨m 2000. ThuËt to¸n t×m c¸c tËp phæ biÕn hiÖu qña h¬n thuËt to¸n Apriori b»ng viÖc sö dông mét kü thuËt kh¸c kh«ng cÇn sinh c¸c øng cö. Sù hiÖu qu¶ cña khai ph¸ nhËn ®­îc víi 3 kü thuËt chÝnh:

Thø nhÊt nã më réng cña cÊu tróc c©y prefix (prefix tree), ®­îc gäi lµ c©y mÉu phæ biÕn (frequent pattern tree hoÆc gäi t¾t lµ FP- tree) dïng ®Ó nÐn d÷ liÖu thÝch hîp. ChØ cã c¸c môc ®é dµi l (l-itemset) ë trong c©y vµ c¸c nót cña c©y ®­îc s¾p ®Æt ®Ó c¸c nót xuÊt hiÖn th­êng xuyªn h¬n cã thÓ dÔ dµng chia sÎ víi c¸c nót xuÊt hiÖn Ýt h¬n. CSDL lín ®­îc nÐn chÆt tíi cÊu tróc d÷ liÖu nhá h¬n (FP-tree), tr¸nh ®­îc chi phÝ lÆp l¹i duyÖt qua CSDL.

Thø hai, ph­¬ng ph¸p khai ph¸ ph¸t triÓn (growth) tõng ®o¹n dùa trªn Fp-tree gäi lµ ph­¬ng ph¸p FP – growth ®· ®­îc thùc hiÖn. B¾t ®Çu tõ mÉu phæ biÕn ®é dµi 1, FP-growth chØ xem xÐt c¬ së mÉu phô thuéc cña nã (condition pattern base) nh­ lµ CSDL con (sub-database) bao gåm tËp c¸c môc phæ biÕn cïng xuÊt hiÖn víi mÉu hËu tè (suffix pattern), x©y dùng condition FP-tree t­¬ng øng cña nã vµ thùc hiÖn khai ph¸ ®Ö qui trªn c©y nµy. MÉu ph¸t triÓn lµ nhËn ®­îc qua viÖc nèi mÉu hËu tè (suffix pattern) víi mét ®o¹n mÉu ®­îc sinh ra tõ condition FP-tree. Khai ph¸ dùa trªn FP-tree ®­îc thùc hiÖn theo c¸ch ph¸t triÓn (growth) c¸c ®o¹n mÉu ®Ó tr¸nh chi phÝ cho viÖc sinh ra sè l­îng lín c¸c tËp øng cö.

Thø ba, kü thuËt t×m kiÕm ®­îc dïng ë ®©y lµ dùa vµo kü thuËt chia ®Ó trÞ (divide-and-conquer method) ®Ó ph©n r· nhiÖm vô khai ph¸ thµnh tËp c¸c nhiÖm vô nhá h¬n víi giíi h¹n c¸c mÉu trong c¸c CSDL nh»m thu gän kh«ng gian t×m kiÕm.

Ph­¬ng ph¸p FP-growth ®· chøng tá ®­îc tÝnh hiÖu qu¶ cña nã vµ thÓ hiÖn khai ph¸ cho c¶ c¸c mÉu ng¾n vµ dµi, nhanh h¬n thuËt to¸n Apriori, lu«n chØ cÇn duyÖt CSDL 2 lÇn

4.3.2. ThuËt to¸n FP-growth.

1. DuyÖt CSDL lÇn thø nhÊt ®Ó tÝnh ®é hç trî cña tÊt c¶ 1-itemset. Lo¹i bá

nh÷ng môc cã ®é hç trî nhá h¬n minsup. C¸c môc cßn l¹i ®­îc s¾p theo thø tù gi¶m dÇn cña ®é hç trî (còng tøc lµ gi¶m dÇn theo sè lÇn xuÊt hiÖn trong CSDL), ta nhËn ®­îc danh s¸ch L c¸c môc ®· s¾p.

2. DuyÖt CSDL lÇn thø 2, víi mçi t¸c vô t, lo¹i c¸c môc kh«ng ®ñ ®é hç trî, c¸c môc cßn l¹i theo thø tù gièng nh­ xuÊt hiÖn trong L (tøc lµ thø tù gi¶m dÇn theo ®é hç trî) ®­îc ®­a vµo c©y FP-tree.

3. T×m c¸c tËp môc phæ biÕn trªn c©y FP-tree ®· x©y dùng mµ kh«ng cÇn duyÖt l¹i CSDL n÷a.

§Þnh nghÜa 4.1: CÊu tróc c©y FP-tree ®­îc ®Þnh nghÜa nh­ sau: - Gèc cña c©y nh·n null, c¸c ®­êng ®i trªn c©y biÓu diÔn mét tËp c¸c tiÒn

tè cña mét tËp môc - Mçi nót trong c©y cã chøa 3 thµnh phÇn: tªn môc, sè lÇn xuÊt hiÖn

(count), con trá. Trong ®ã, count lµ sè l­îng xuÊt hiÖn cña nh¸nh con (tõ NULL ®Õn nót nµy) trong c¸c giao dÞch, cßn con trá liªn kÕt (mòi tªn nÐt ®øt) ®Õn nót cã cïng tªn tiÕp theo cña nã.

- Mçi dßng trong b¶ng header chøa 2 tr­êng: tªn môc vµ nót rçng trá tíi ®Õn nót ®Çu tiªn cïng mét môc trªn c©y FP

H×nh 4.2- VÝ dô vÒ c©y FP (x©y dùng tõ d÷ liÖu ë b¶ng 4.1)

Ta x©y dùng hµm _ (( , ), )insert tree p P T víi T lµ gèc cña mét nh¸nh

con ta ®ang duyÖt ®Õn. NÕu T cã mét nót con lµ N tháa m·n N.tªn = p.tªn th×

Page 79: KPDL_C1-6 & C10

157 158

N.count t¨ng lªn 1. Ng­îc l¹i, ta t¹o mét nót con míi Q víi Q.tªn=P.tªn víi

Q.count = 1 . Gäi tiÕp hµm ®Ö quy insert_tree cho tËp con P vµ N hoÆc Q øng

víi tõng tr­êng hîp. Thñ tôc thªm mét d·y c¸c môc (®· s¾p gi¶m dÇn theo ®é hç

trî) cña mét t¸c vô vµo c©y thùc hiÖn ®Ö quy nh­ sau: Procedure insert_tree(string[p|P],tree cã gèc T) If T cã nót con N mµ N.itemname=p Then N.count++

else T¹o mét nót míi N; N.itemname:=p; N.count:=1 Thay ®æi nót liªn kÕt cho p bao gåm N; End if If p # rçng insert_tree(P,N);

VÝ dô: X©y dùng l¹i c©y FP tuÇn tù tõng b­íc 1 T×m tËp môc phæ biÕn trªn c©y FP-tree: Sau khi x©y dùng xong FP-tree cho CSDL, viÖc khai ph¸ t×m c¸c mÉu phæ biÕn chØ thùc hiÖn trªn c©y FP-tree mµ kh«ng cÇn duyÖt CSDL n÷a. KiÕn tróc cña c©y FP ®¶m b¶o mét kiÕn tróc d÷ liÖu kh¶ bÒn v÷ng. Tuy nhiªn nã kh«ng mÆc ®Þnh ®¶m b¶o ch¾c ch¾n r»ng nã cã ®é hiÖu qu¶ cao h¬n nhiÒu bëi v× nÕu vÉn ®¬n gi¶n sö dông c©y FP ®Ó sinh vµ kiÓm tra tÊt c¶ c¸c mÉu øng viªn th× chóng ta vÉn ph¶i ®èi mÆt víi mét l­îng tæ hîp lín c¸c øng viªn ®­îc sinh ra.

Mét gi¶i thuËt chia-®Ó-trÞ ®­îc x©y dùng gióp gi¶i quyÕt ®iÓm h¹n chÕ trªn.

Tr­íc hÕt, cÇn lµm râ mét sè bæ ®Ò, tÝnh chÊt hç trî cho gi¶i thuËt.

TÝnh chÊt 1(TÝnh chÊt liªn kÕt nót)

Víi bÊt cø môc phæ biÕn ai nµo, tÊt c¶ c¸c mÉu phæ biÕn cã phÇn tö cuèi

cïng lµ ai ®Òu cã thÓ ®­îc t×m ra th«ng qua c¸c liªn kÕt nót cña ai, b¾t ®Çu tõ nót

®Çu trªn b¶ng tiªu ®Ò c¸c môc

ThËt vËy, nÕu ta lo¹i bá c¸c nh¸nh kh«ng chøa d vµ c¸c nót con ®»ng sau d

nh­ trong H×nh 4.3(a) dùa vµo ®­êng liªn kÕt nót. TÊt c¶ th«ng tin vÒ c¸c mÉu

phæ biÕn cã phÇn tö cuèi lµ d ®Òu chøa trong ®å thÞ bªn ph¶i..

H×nh 4.3: M« t¶ tÝnh chÊt liªn kÕt nót

Ta cã c¸c mÉu ®iÒu kiÖn c¬ së(conditional pattern base) cho nót d lµ {(a:8, b:5, c:3), (a:8, b:5), (a:8, c:1), (a:8),(b:2, c:2, d:1)}. §ã lµ c¸c ®­êng kÐo tõ nót

gèc ®Õn d. Qua ®ã ta t×m ra ®­îc c©y ®iÒu kiÖn gäi lµ c©y FP ®iÒu

kiÖn(conditional FP-tree) bao gåm c¸c nót trªn H×nh 4.3(b) mµ cã tæng sè lÇn

xuÊt hiÖn trªn c¸c mÉu ®iÒu kiÖn c¬ së cña ai lín h¬n ®é hç trî tèi thiÓu. VÝ dô

trong H×nh 4.3(c), c¸c biÕn count ®· ®­îc ®iÒu chØnh øng víi c.count, nÕu

minsup = 4 th× ta cã c©y FP ®iÒu kiÖn lµ (a:4,b:5)|c, cßn nÕu minsup = 5 th× ta cã

c©y FP ®iÒu kiÖn lµ{(b:5)}|c

TÝnh chÊt 2 (TÝnh chÊt §­êng tiÒn tè -Prefix path)

Page 80: KPDL_C1-6 & C10

159 160

§Ó tÝnh c¸c mÉu phæ biÕn cho nót ai trªn ®­êng ®¬n P, chØ cÇn quan t©m

®Õn c¸c nót ®i tr­íc nót ai trªn ®­êng P, vµ c¸c nót ®ã cã cïng gi¸ trÞ count víi

nót ai nÕu coi nh­ c©y chØ bao gåm duy nhÊt ®­êng P.

ThËt vËy, víi nh¸nh ®Çu tiªn trong H×nh 4.3(c), ta cã ®­êng {(a:3,b:3)} cho

nót (c:3) . §­êng nµy gäi lµ transform prefixed path cña ai trªn P.

Bæ ®Ò Fragment Growth

Cho lµ mét tËp môc trong d÷ liÖu giao dÞch D, B lµ mÉu ®iÒu kiÖn cña , vµ lµ mét tËp môc trong B. Khi ®ã, ®é hç trî cña ( ) trong D

t­¬ng ®­¬ng víi ®é hç trî cña trong B .

ThËt vËy, trong H×nh 4.3 (b)(c) th× nót ai ë ®©y lµ c hoÆc d ®Òu n»m ë nót

l¸ vµ .ia count lµ lín nhÊt. Do ®ã ®é hç trî cña ( ) b»ng ®é hç trî

cña . Ngoµi ra, ta rót ra ®­îc nhËn xÐt lµ ®Ó ( ) lµ tËp môc phæ biÕn khi

vµ chØ khi còng lµ tËp môc phæ biÕn.

TÝnh chÊt 3 (Sinh ra mÉu trªn ®­êng FP-tree ®¬n)

Gi¶ sö mét c©y FP lµ T (nh­ H×nh 4.3 (a)) cã mét ®­êng ®¬n P. TËp tÊt c¶

c¸c mÉu phæ biÕn cña T cã thÓ t×m ®­îc b»ng c¸ch tæ hîp c¸c nót trªn P mµ cã

®é hç trî kh«ng nhá h¬n minsup

VÝ du, gi¶ sö ta cã c©y FP ®iÒu kiÖn lµ {(a:4,b:5) }|c th× ta cã thÓ kiÓm tra

c¸c tæ hîp {ac, bc ,abc}.

Procedure FP-Growth(Tree, ){// lµ 1 itemset

(1) If Tree chøa mét ®­êng ®¬n P

(2) then for each tæ hîp © cña c¸c nót trªn P do

(3) sinh ra mÉu cã ®é hç trî b»ng ®é

hç trî nhá nhÊt cña c¸c nót trong ©;

(4) End for;

(5) else for each ai trªn hµng ®Çu tiªn cña Tree do

(6) sinh ra mÉu ia víi ®é hç trî = ®é hç trî cña ai;

(7) x©y dùng mÉu ®iÒu kiÖn cña ;

(8) x©y dùng c©y FP ®iÒu kiÖn Tree ;

(9) if Tree

(10) then gäi ( , )FP growth Tree

(11) end for;

(12)end if;

VÝ dô minh häa:

§èi víi mçi item ta t¹o ra c¸c c©y con ®­êng cha (nh­ H×nh 4.4) dùa vµo

c¸c ®­êng mÉu ®iÒu kiÖn c¬ b¶n cña nã.

§èi víi mçi c©y con ®ã(øng víi mét item) ta sinh ra c©y FP ®iÒu kiÖn b»ng

c¸ch(vÝ dô mÉu víi c©y c¶ e trong H×nh 4.4(a))

CËp nhËt l¹i c¸c con ®Õm count . Lóc nµy chØ cã 2 ®­êng qua a , nh­ vËy

a.count = 2. T­¬ng tù ta cã b.count =1 vµ c.count = 1. Lo¹i bá c¸c nót e nh­

H×nh 4.5 Ta thùc hiÖn tiÕp tôc t×m c¸c tËp phæ biÕn møc 3 chøa de ë cuèi nh­

H×nh 4.7 (lµm t­¬ng tù víi ae, ce). Trong c©y FP ®iÒu kiÖn cña e, nh¸nh bªn ph¶i

NULL kh«ng chøa l¸ d, do vËy nh¸nh nµy bÞ c¾t ®i khi xem xÐt ®Õn c¸c tËp phæ

biÕn cã chøa de. Sau khi c¾t ta ®­îc h×nh 4.7b ë gi÷a ch­a c¸c ®­êng tiÕn tè cña

de.

Page 81: KPDL_C1-6 & C10

161 162

H×nh 4.5. C©y sau khi lo¹i bá nót e

TiÕp tôc xem xÐt ®Õn ®é hç trî cña c¸c môc trong c©y 4.7b, c.count=1 nhá

h¬n ®é hç trî tèi thiÓu nªn môc c bÞ c¾t ®i. Ta cßn l¹i h×nh 4.7c chøa c©y FP ®iÒu

kiÖn cho de vµ nã chØ cã duy nhÊt ®Ønh a (kh«ng tÝnh gèc). VËy ta cã thªm tËp

môc phæ biÕn {a,d,e}. Lo¹i bá nót cã ®é hç trî nhá h¬n ®é hç trî tèi thiÓu trong

c©y (H×nh 4.6). ë ®©y, ®é hç trî cña B lµ 1, trong khi minsup=2. Tõ c©y nµy ta

t×m ®­îc c¸c tËp phæ biÕn møc 2 chøa e ë cuèi : ae, de, ce

H×nh 4.6 C©y sau khi lo¹i bá nót e vµ tÝnh to¸n l¹i ®é hç trî

H×nh 4.7. TËp phæ biÕn møc 3

4.4 Mét sè thuËt to¸n song song

Mét sè thuËt to¸n song song ®· ®­îc ®Ò xuÊt vµ thö nghiÖm. C¸c thuËt to¸n

nµy ®­îc thiÕt kÕ trªn hÖ m¸y tÝnh song song kh«ng chia sÎ (shared-nothing

architecture) cã tÝnh chÊt nh­ sau:

HÖ cã N bé xö lý (BXL - processor), mçi BXL iP nµy cã b« nhí trong

(RAM) vµ bé nhí ngoµi (th­êng lµ æ ®Üa) ®éc lËp víi c¸c BXL cßn l¹i trong hÖ

thèng.

N BXL nµy cã thÓ truyÒn th«ng víi nhau nhê mét m¹ng tèc ®é cao sö dông

c¬ chÕ truyÒn th«ng ®iÖp (message passing).

Page 82: KPDL_C1-6 & C10

163 164

4.4.1. ThuËt to¸n ph©n phèi ®é hç trî

ThuËt to¸n song song ph©n phèi ®é hç trî dùa trªn nÒn thuËt to¸n Apriori

[AS94]. Trong thuËt to¸n nµy, N lµ sè BXL, iP lµ BXL thø i,

iD lµ phÇn d÷

liÖu ®­îc g¾n víi BXL iP (CSDL D ban ®Çu ®­îc chia ra lµm N phÇn, mçi

phÇn g¾n víi mét BXL). ThuËt to¸n bao gåm c¸c b­íc sau:

B­íc 1: víi k = 1, tÊt c¶ N BXL ®Òu nhËn ®­îc kL lµ tËp tÊt c¶ c¸c tËp

thuéc tÝnh phæ biÕn cã lùc l­îng b»ng 1.

B­íc 2: víi mäi k > 1, thuËt to¸n thùc hiÖn lÆp ®i lÆp l¹i c¸c b­íc sau:

Mçi BXL iP t¹o ra tËp c¸c tËp thuéc tÝnh øng cö viªn kC b»ng c¸ch

kÕt nèi c¸c tËp thuéc tÝnh phæ biÕn trong 1kL . Nhí r»ng, tÊt c¶ c¸c BXL ®Òu cã

th«ng tin vÒ 1kL gièng hÖt nhau nªn chóng sinh ra kC còng gièng hÖt nhau.

Mçi BXL iP duyÖt qua CSDL

iD cña riªng nã ®Ó cËp nhËt ®é hç trî

côc bé cho c¸c tËp thuéc tÝnh øng cö viªn trong kC . §©y chÝnh lµ qu¸ tr×nh c¸c

BXL thùc hiÖn song song víi nhau.

Sau khi ®· cËp nhËt xong ®é hç trî côc bé cho c¸c tËp thuéc tÝnh øng cö

viªn trong kC , c¸c BXL tiÕn hµnh truyÒn th«ng tin cho nhau ®Ó thu ®­îc ®é hç

trî toµn côc. ë b­íc nµy, c¸c BXL b¾t buéc ph¶i ®ång bé hãa víi nhau.

C¸c BXL c¨n cø vµo ®é hç trî tèi thiÓu minsup ®Ó chän ra tËp nh÷ng tËp

thuéc tÝnh phæ biÕn kL tõ tËp c¸c øng cö viªn kC .

Mçi BXL cã quyÒn kÕt thóc t¹i b­íc nµy hoÆc tiÕp tôc thùc hiÖn lÆp l¹i

b­íc 2.1.

H×nh 4.8 minh häa nguyªn lý lµm viÖc cña thuËt to¸n nµy.

H×nh 4.8. ThuËt to¸n Ph©n phèi ®é hç trî trªn 3 BXL

4.4.2. ThuËt to¸n ph©n phèi d÷ liÖu

¦u ®iÓm næi bËt cña thuËt to¸n ph©n phèi ®é hç trî lµ kh«ng cÇn truyÒn d÷

liÖu gi÷a c¸c BXL trong qu¸ tr×nh tÝnh to¸n. Do ®ã, chóng cã thÓ ho¹t ®éng ®éc

lËp vµ kh«ng ®ång bé víi nhau trong khi duyÖt d÷ liÖu trªn bé nhí hoÆc æ ®Üa

côc bé. Tuy nhiªn, nh­îc ®iÓm cña thuËt to¸n nµy lµ kh«ng khai th¸c hÕt søc

m¹nh tæng hîp cña N bé nhí øng víi N BXL cña toµn hÖ thèng. Gi¶ sö mçi

BXL cã dung l­îng bé nhí côc bé lµ |M| th× sè tËp thuéc tÝnh øng cö viªn ®­îc

c©p nhËt ®é hç trî trong mçi pha bÞ giíi h¹n bëi h»ng sè m phô thuéc |M|. Khi

sè BXL trong hÖ th«ng t¨ng tõ 1 ®Õn N, hÖ thèng sÏ cã mét bé nhí tæng hîp víi

dung l­îng N x |M|, nh­ng víi thuËt to¸n ph©n phèi ®é hç trî ë trªn, chóng ta

còng chØ ®Õm ®­îc m tËp thuéc tÝnh øng cö viªn do tÝnh chÊt cña thuËt to¸n lµ tÊt

c¶ c¸c BXL ®Òu cã tËp kC gièng hÖt nhau.

ThuËt to¸n ph©n phèi d÷ liÖu (data distribution) ®­îc thiÕt kÕ víi môc ®Ých

tËn dông ®­îc søc m¹nh tæng hîp cña bé nhí hÖ thèng khi sè BXL t¨ng lªn.

Page 83: KPDL_C1-6 & C10

165 166

Trong thuËt to¸n nµy, mçi BXL tiÕn hµnh cËp nhËt ®é hç trî cho mét sè c¸c tËp

thuéc tÝnh øng cö viªn cña riªng nã. Do ®ã, khi sè BXL trong hÖ thèng t¨ng lªn,

thuËt to¸n nµy cã thÓ cËp nhËt ®é hç trî cho rÊt nhiÒu c¸c tËp thuéc tÝnh øng cö

viªn trong mét pha. Nh­îc ®iÓm cña thuËt to¸n nµy lµ mçi BXL ph¶i truyÒn vµ

nhËn d÷ liÖu ë mçi pha nªn nã chØ kh¶ thi khi hÖ thèng cã mét m«i tr­êng

truyÒn th«ng nhanh vµ æn ®Þnh gi÷a c¸c nót trong hÖ thèng. ThuËt to¸n song

song ph©n phèi d÷ liÖu (data distribution) còng dùa trªn nÒn thuËt to¸n Apriori

[AS94]. Trong thuËt to¸n nµy, N lµ sè BXL, iP lµ BXL thø i,

iD lµ phÇn d÷

liÖu ®­îc g¾n víi BXL iP (CSDL D ban ®Çu ®­îc chia ra lµm N phÇn, mçi

phÇn g¾n víi mét BXL). ThuËt to¸n bao gåm c¸c b­íc sau:

B­íc 1: t­¬ng tù nh­ trong thuËt to¸n ph©n phèi ®é hç trî

B­íc 2: víi k > 1:

Mçi BXL iP t¹o tËp c¸c tËp thuéc tÝnh øng cö viªn kC tõ tËp c¸c tËp

thuéc tÝnh phæ biÕn 1kL . Nã kh«ng thao t¸c tÊt c¶ trªn kC mµ chØ gi÷ l¹i mét

phÇn cña kC ®­îc chia ®Òu cho N BXL. PhÇn ®­îc gi÷ l¹i cho BXL iP ®­îc

x¸c ®Þnh nhê ®Þnh danh tiÕn tr×nh (process identification) mµ kh«ng c©n truyÒn

th«ng gi÷ c¸c tiÕn tr×nh. C¸c ikC ®­îc chia tháa m·n: Øj

kik CC (víi mäi i

# j) vµ

kik

N

iCC

1

BXL iP chØ ®Õm ®é hç trî cho c¸c tËp môc øng cö viªn trong i

kC b»ng

c¸ch sö dông d÷ liÖu côc bé iD cña nã vµ d÷ liÖu nhËn ®­îc tõ c¸c BXL kh¸c

trong hÖ thèng.

Sau khi ®Õm xong ®é hç trî, mçi BXL iP chän ra tËp nh÷ng tËp thuéc tÝnh

phæ biÕn côc bé ikL tõ i

kC t­¬ng øng. Nhí r»ng Øjk

ik LL (víi mäi i # j) vµ

kik

N

iLL

1

H×nh 4.9 - ThuËt to¸n ph©n phèi d÷ liÖu trªn 3 BXL

C¸c BXL tiÕn hµnh trao ®æi ikL cho nhau sao cho tÊt c¶ c¸c BXL ®Òu nhËn

®­îc kL ®Ó sinh kC cho lÇn lÆp tiÕp theo. B­íc nµy cÇn sù ®ång bé hãa gi÷a

c¸c BXL. Sau khi nhËn ®­îc b­íc kL , mçi BXL cã thÓ ®éc lËp quyÕt ®Þnh

ngõng lµm viÖc hoÆc tiÕp tôc thùc hiÖn b­íc lÆp tiÕp theo. H×nh 4.9 minh häa

nguyªn lý lµm viÖc cña thuËt to¸n nµy.

4.4.3. ThuËt to¸n ph©n phèi tËp øng cö viªn

H¹n chÕ cña hai thuËt to¸n trªn (count & data distribution) ë chç do mäi

giao dÞch hoÆc b¶n ghi trong CSDL ®Òu cã thÓ hç trî mét tËp thuéc tÝnh øng cö

viªn nµo ®ã nªn c¸c giao dÞch hay b¶n ghi ph¶i ®­îc ®èi s¸nh víi tÊt c¶ c¸c tËp

thuéc tÝnh øng cö viªn. §iÒu nµy dÉn ®Õn viÖc thuËt to¸n ph©n phèi ®é hç trî

ph¶i l­u gi÷ tËp c¸c tËp øng cö viªn gièng nhau trªn mäi BXL vµ thuËt to¸n ph©n

phèi d÷ liÖu ph¶i göi d÷ liÖu cho nhau trong qu¸ tr×nh cËp nhËt ®é hç trî. H¬n

n÷a, hai thuËt to¸n nµy ph¶i tiÕn hµnh ®ång bé hãa ë cuèi mçi pha thùc hiÖn

song song ®Ó trao ®æi ®é hç trî côc bé hoÆc tËp c¸c tËp phæ biÕn cho nhau. Yªu

cÇu ®ång bé hãa trong suèt thêi gian thùc hiÖn cña thuËt to¸n sÏ lµm gi¶m hiÖu

Page 84: KPDL_C1-6 & C10

167 168

suÊt thùc hiÖn cña hÖ thèng do c¸c BXL hoµn thµnh c«ng viÖc sím ph¶i “chê

®îi” c¸c BXL hoµn thµnh c«ng viÖc muén h¬n. Nguyªn nh©n cña vÊn ®Ò nµy lµ

do hai thuËt to¸n trªn míi chia c«ng viÖc cho c¸c BXL mét c¸ch “c«ng b»ng”

chø ch­a chia mét c¸ch võa “c«ng b»ng” võa “kh«n ngoan”.

ThuËt to¸n ph©n phèi tËp øng cö viªn (candidate distribution) cè g¾ng chia

tËp øng cö viªn sao cho c¸c BXL cã thÓ ®éc lËp lµm viÖc vµ h¹n chÕ tèi ®a c«ng

viÖc ®ång bé hãa. B¾t ®Çu mét pha l nµo ®ã (l ®­îc x¸c ®Þnh dùa theo kinh

nghiÖm), thuËt to¸n nµy chia tËp thuéc tÝnh phæ biÕn Ll-1 cho c¸c BXL sao cho

mçi BXL iP cã thÓ t¹o ra tËp øng cö viªn imC (m # l) ®éc lËp víi c¸c BXL

kh¸c j)iØ,( jm

im CC . §ång thêi, d÷ liÖu còng ®­îc chia l¹i sao cho

mçi BXL iP cã thÓ cËp nhËt ®é hç trî cho c¸c tËp øng cö viªn trong i

mC ®éc

lËp víi c¸c BXL kh¸c. §óng thêi gian ®ã, d÷ liÖu ®­îc ph©n chia l¹i sao cho mçi

BXL iP cã thÓ cËp nhËt ®é hç trî cho c¸c tËp thuéc tÝnh øng cö viªn trong imC

mét c¸ch ®éc lËp víi c¸c BXL kh¸c. Nhí r»ng, sù ph©n chia d÷ liÖu phô thuéc

rÊt nhiÒu vµo b­íc ph©n chia tËp øng cö viªn tr­íc ®ã. NÕu ph©n chia tËp øng cö

viªn kh«ng “khÐo lÐo” th× chóng ta kh«ng thÓ cã mét ph©n ho¹ch d÷ liÖu cho c¸c

BXL mµ chØ cã mét ph©n chia t­¬ng ®èi – nghÜa lµ cã thÓ cã nh÷ng phÇn d÷

liÖu trïng lÆp trªn c¸c BXL.

Sau khi ph©n ho¹ch 1kL , c¸c BXL lµm viÖc ®éc lËp víi nhau. ViÖc cËp

nhËt ®é hç trî cho tËp c¸c øng cö viªn côc bé kh«ng ®ßi hái c¸c BXL ph¶i

truyÒn th«ng víi nhau. ChØ cã mét sù phô thuéc duy nhÊt gi÷a c¸c BXL lµ chóng

ph¶i göi cho nhau nh÷ng th«ng tin cÇn cho viÖc c¾t tØa c¸c øng cö viªn kh«ng

cÇn thiÕt. Tuy nhiªn, nh÷ng th«ng tin nµy cã thÓ ®­îc truyÒn cho nhau theo chÕ

®é dÞ bé vµ c¸c BXL kh«ng cÇn ph¶i ®îi ®Ó nhËn ®Çy ®ñ th«ng tin nµy tõ c¸c

BXL kh¸c. C¸c BXL cè g¾ng c¾t tØa ®­îc cµng nhiÒu cµng tèt nhê vµo nh÷ng

th«ng tin ®Õn tõ c¸c BXL kh¸c. Nh÷ng th«ng tin ®Õn muén sÏ ®­îc sö dông cho

lÇn c¾t tØa tiÕp theo. ThuËt to¸n ph©n phèi tËp øng cö viªn bao gåm nh÷ng b­íc

sau:

B­íc 1 (k < l): sö dông mét trong hai thuËt to¸n ph©n phèi ®é hç trî hoÆc

ph©n phèi d÷ liÖu.

B­íc 2 (k = l):

Ph©n chia 1kL cho N BXL. Chóng ta sÏ xem xÐt c¸ch ph©n chia ë phÇn

sau. Qu¸ tr×nh ph©n chia nµy lµ gièng hÖt nhau vµ ®­îc thùc hiÖn song song trªn

c¸c BXL.

Mçi BXL iP sÏ sö dông i

kL 1 ®Ó t¹o ra ikC cña nã.

iP sÏ cËp nhËt ®é hç trî cho c¸c tËp øng cö viªn trong ikC vµ CSDL sÏ

®­îc ph©n chia l¹i ngay sau ®ã.

Sau ®ã, iP thùc hiÖn trªn d÷ liÖu côc bé vµ tÊt c¶ d÷ liÖu nhËn ®­îc tõ c¸c

BXL kh¸c. Nã t¹o ra N-1 bé ®Öm nhËn dÞ bé ®Ó nhËn c¸c jkL tõ c¸c BXL kh¸c.

Nh÷ng jkL nµy cÇn thiÕt cho b­íc c¾t tØa c¸c tËp øng cö viªn trong i

kC 1 .

iP sinh ra ikL tõ i

kC vµ truyÒn th«ng lan truyÒn (broadcast) dÞ bé tíi N-1

bé vi xö lý kh¸c.

B­íc 3 (k > l):

Mçi BXL iP thu thËp tÊt c¶ nh÷ng tËp phæ biÕn tõ c¸c BXL kh¸c. Th«ng

tin vÒ c¸c tËp phæ biÕn nµy sÏ ®­îc dïng ®Ó c¾t tØa. C¸c tËp thuéc tÝnh nhËn ®­îc

tõ BXL j sÏ cã ®é dµi k-1, nhá h¬n k-1 (nÕu lµ BXL chËm), hoÆc lín h¬n k-1

(nÕu lµ BXL nhanh). iP t¹o ra i

kC dùa vµo ikL 1 . Mét tr­êng hîp cã thÓ x¶y ra lµ

iP kh«ng

nhËn ®­îc jkL 1 tõ c¸c BXL kh¸c, do ®ã

iP cÇn ph¶i “cÈn thËn” trong kho¶ng

thêi gian c¾t tØa. iP thùc hiÖn duyÖt d÷ liÖu ®Ó cËp nhËt ®é hç trî cho c¸c tËp thuéc tÝnh

trong ikC . Sau ®ã nã tÝnh to¸n i

kL tõ ikC vµ truyÒn dÞ bé th«ng tin vÒ i

kL tíi N-

1 BXL cßn l¹i trong hÖ thèng.

Page 85: KPDL_C1-6 & C10

169 170

ChiÕn l­îc ph©n chia d÷ liÖu: Chóng ta xem xÐt c¸ch ph©n chia d÷ liÖu cña

thuËt to¸n nµy th«ng qua mét vÝ dô ®¬n gi¶n sau ®©y.

Cho L3 = {ABC, ABD, ABE, ACD, ACE, BCD, BCE, BDE, CDE}.

L4 = {ABCD, ABCE, ABDE, ACDE, BCDE},

L5 = {ABCDE},

L6 = #.

Chóng ta xÐt tËp # = {ABC, ABD, ABE} víi c¸c thµnh viªn cña nã cã

chung ph©n ®Çu lµ AB. Nhí r»ng, c¸c tËp thuéc tÝnh ABCD, ABCE, ABDE vµ

ABCDE còng cã chung tiÒn tè AB.

Do ®ã, gi¶ sö r»ng c¸c thuéc tÝnh trong tËp thuéc tÝnh ®­îc s¾p theo thø tù

tõ vùng, chóng ta cã thÓ ph©n chia c¸c tËp phæ biÕn trong kL dùa vµo tiÒn tè cã

®é dµi k-1 ®Çu tiªn cña c¸c tËp, nhê vËy c¸c BXL cã thÓ lµm viÖc ®éc lËp víi

nhau.

Cµi ®Æt thuËt to¸n nµy trong thùc tÕ phøc t¹p h¬n rÊt nhiÒu bëi hai lý do. Lý

do thø nhÊt lµ mét BXL cã thÓ ph¶i nhËn c¸c tËp thuéc tÝnh phæ biÕn ®­îc tÝnh

to¸n bëi c¸c BXL kh¸c cho b­íc c¾t tØa tiÕp theo. Trong vÝ dô trªn, BXL ®­îc

g¸n tËp øng cö viªn # ph¶i biÕt BCDE cã ph¶i lµ tËp phæ biÕn hay kh«ng míi

quyÕt ®Þnh ®­îc cã c¾t tØa tËp ABCDE hay kh«ng, nh­ng tiÒn tè cña BCDE lµ

BC nªn BCDE l¹i thuéc vÒ mét BXL kh¸c. Lý do thø hai lµ chóng ta ph¶i tÝnh

to¸n c©n b»ng t¶i cho c¸c BXL trong hÖ thèng.

4.4.4. ThuËt to¸n sinh luËt song song

Cho mét tËp phæ biÕn h, ch­¬ng tr×nh con sinh luËt kÕt hîp sÏ sinh ra luËt

d¹ng a => (h – a), trong ®ã a lµ mét tËp con kh¸c rçng cña h. §é hç trî cña luËt

chÝnh lµ ®é hç trî cña tËp phæ biÕn h (tøc lµ s(h)), cßn ®é tin cËy cña luËt lµ tû sè

s(h)/s(a).

§Ó sinh luËt hiÖu qu¶, chóng ta tiÕn hµnh duyÖt c¸c tËp con cña h cã kÝch

th­íc lín tr­íc tiªn vµ sÏ tiÕp tôc xÐt c¸c tËp con nhá h¬n khi luËt võa sinh tháa

m·n ®é tin cËy tèi thiÓu (minconf). VÝ dô, h lµ tËp phæ biÕn ABCD, nÕu luËt

ABC => D kh«ng tháa m·n ®é tin cËy tèi thiÓu th× luËt AB => CD còng kh«ng

tháa m·n do ®é hç trî cña AB lu«n lín h¬n hoÆc b»ng ABC. Nh­ vËy chóng ta

kh«ng cÇn xÐt c¸c luËt mµ vÕ tr¸i lµ tËp con cña ABC v× chóng kh«ng tháa m·n

®é tin cËy tèi thiÓu.

ThuËt to¸n sinh luËt tuÇn tù [AS94] thÓ hiÖn ý t­ëng trªn nh­ sau:

Forall frequent itemset 1, khk do

Call gen_rules( kk hh , );

// The gen_rules generates all valid rules ¸=>(l-¸),

// for all ma

Procedure gen_rules( kh :frequent k-itemset, ma :frequent m-itemset)

1 itemsetsmA )1{( }| 11 mmm aaa

1 Forall Aam 1 do

3 conf = s( kh )/s( 1ma );

4 if (conf # minconf) then

5 output the rule 1ma => ( 1 mk ah );

6 if (m – 1 > 1) then

7 Call gen_rules( 1, mk ah );

8 end 9 end

§Ó sinh luËt song song, chóng ta chia tËp c¸c tËp thuéc tÝnh phæ biÕn cho

tÊt c¶ c¸c BXL trong hÖ thèng. Mçi BXL sinh luËt trªn c¸c tËp phæ biÕn ®­îc

ph©n chia cho nã sö dông thuËt to¸n trªn. Trong thuËt to¸n sinh luËt song song,

®Ó tÝnh ®é tin cËy cña mét luËt, BXL cã thÓ cÇn ph¶i tham chiÕu ®Õn ®é hç trî

cña mét tËp phæ biÕn n»m trªn mét BXL kh¸c. V× lý do nµy, c¸c BXL nªn cã

th«ng tin vÒ toµn bé c¸c tËp phæ biÕn truíc khi thùc hiÖn thuËt to¸n sinh luËt

song song.

Page 86: KPDL_C1-6 & C10

171 172

4.4.5. Mét sè thuËt to¸n kh¸c

Ngoµi ba thuËt to¸n nªu trªn, c¸c nhµ nghiªn cøu trong lÜnh vùc nµy ®· ®Ò

xuÊt thªm kh¸ nhiÒu thuËt to¸n khai ph¸ luËt kÕt hîp song song kh¸c.

ThuËt to¸n ph©n phèi d÷ liÖu th«ng minh (Intelligent Data Distribution

Algorithm) [HKK97] ®­îc ®Ò xuÊt dùa trªn thuËt to¸n ph©n phèi d÷ liÖu víi mét

b­íc c¶i tiÕn trong viÖc truyÒn d÷ liÖu gi÷a c¸c BXL trong thêi gian tÝnh to¸n.

Thay v× truyÒn d÷ liÖu gi÷a cÆp BXL, c¸c BXL trong thuËt to¸n nµy ®­îc tæ chøc

thµnh mét vßng logic vµ chóng tiÕn hµnh truyÒn d÷ liÖu theo vßng trßn nµy.

ThuËt to¸n MLFPT (Multiple Local Frequent Pattern Tree) [ZHL98] lµ

thuËt to¸n dùa trªn FP-growth. ThuËt to¸n nµy gi¶m ®­îc sè lÇn duyÖt qua

CSDL, kh«ng cÇn t¹o ra tËp øng cö viªn vµ c©n b»ng t¶i gi÷a c¸c BXL trong hÖ

thèng.

ThuËt to¸n khai ph¸ luËt kÕt hîp song song do [ZPO01] ®Ò xuÊt kh¸c víi

c¸c thuËt to¸n kh¸c ë chç nã lµm viÖc trªn hÖ thèng ®a xö lý ®èi xøng (SMP, cßn

®­îc gäi lµ shared-everything system) thay v× trªn hÖ song song ph©n t¸n kh«ng

chia sÎ tµi nguyªn (shared-nothing system).

4.5 Mét sè øng dông cña luËt kÕt hîp

Ngoµi viÖc ¸p dông c¸c kÜ thuËt ph©n tÝch luËt kÕt hîp ®Ó hç trî kinh

doanh, t×m hiÓu thãi quen mua s¾m cña kh¸ch hµng nh­ trªn. LuËt kÕt hîp còng

®­îc ¸p dông ®Ó ph¸t hiÖn th«ng tin trong mét sè lÜnh vùc kh¸c nh­ :

C¸c kh¸i niÖm cã liªn quan: Coi c¸c tõ lµ c¸c môc vµ tµi liÖu lµ mét giao

dÞch (vÝ dô trang web, blogs, tweets…). Mét tµi liÖu sÏ chøa rÊt nhiÒu tõ trong

®ã. NÕu ta bá qua tÊt c¶ nh÷ng tõ th«ng dông nh­ ‘vµ’, ‘nh­ng’… chóng ta cã

thÓ t×m ra trong c¸c cÆp tõ th­êng xuyªn xuÊt hiÖn cïng nhau ®­îc mét sè cÆp tõ

mµ cã quan hÖ kÕt hîp víi nhau. VÝ dô c¸c cÆp nh­ {Brad, Angelina}, {Mac,

Angen}…

Vi ph¹m b¶n quyÒn: ta coi mçi môc lµ mét tµi liÖu vµ mçi giao dÞch lµ mét

c©u. Thø tù nµy ng­îc so víi thùc tÕ suy nghÜ th«ng th­êng. Nh­ng ®èi víi bµi

to¸n t×m ra viÖc sao chÐp tr¸i phÐp th× thø tù nµy bÞ ®¶o ng­îc lµ cã ý ®å. Bëi v×

ta thÊy nhiÒu tµi liÖu cã thÓ cïng chøa mét c©u. Ta cÇn ph¶i t×m c¸c cÆp môc (tµi

liÖu) mµ cã cïng trong mét giao dÞch (c©u). Cã thÓ hiÓu r»ng giao dÞch ®­îc g¸n

nh·n lµ mét c©u vµ giao dÞch nµy chøa c¸c môc lµ c¸c tµi liÖu. Trong thùc tÕ, chØ

cÇn ph¸t hiÖn c¸c tµi liÖu cã 1-2 c©u gièng nhau th× còng lµ dÊu hiÖu thuËn lîi ®Ó

t×m vi ph¹m b¶n quyÒn tµi liÖu.

DÊu hiÖu sinh häc: Coi c¸c môc lµ d÷ liÖu gåm 1 bé 2 thuéc tÝnh lµ gen

(hoÆc protein m¸u) vµ bÖnh tËt. Mçi giao dÞch lµ mét tËp d÷ liÖu vÒ mét bÖnh

nhËn nh­ bé gen, ph©n tÝch sinh hãa m¸u vµ lÞch sö bÖnh. Mét tËp môc phæ biÕn

bao gåm mét bÖnh vµ mét hoÆc nhiÒu gen, protein quy ®Þnh. Nã cã kh¶ n¨ng gîi

ý, hç trî chuÈn ®o¸n bÖnh tËt cña ng­êi bÖnh.

HÖ hç trî ra quyÕt ®Þnh trong chøng kho¸n: mçi giao dÞch lµ mét tËp c¸c

m· cæ phiÕu trong mçi phiªn vµ chØ lÊy c¸c m· mµ ng­êi dïng quan t©m. Mçi

môc lµ mét mét m· cæ phiÕu. Trong mét giao dÞch, mçi môc (m· cæ phiÕu) chØ

xuÊt hiÖn nÕu gi¸ cña nã t¨ng trong phiªn ®ã. HÖ hç trî sÏ gîi ý nhµ ®Çu t­

nh÷ng m· cæ phiÕu nµo cã kh¶ n¨ng cao sÏ t¨ng cïng nhau trong mét phiªn.

Mét sè kü thuËt míi nh­ luËt kÕt hîp hiÕm, luËt kÕt hîp ©m… ®· ®­îc ph¸t

triÓn trong thêi gian gÇn ®©y nh»m t¨ng kh¶ n¨ng cña luËt kÕt hîp vµ më réng

ph¹m vi øng dông cña luËt kÕt hîp

C©u hái vµ Bµi tËp

4.1. Cho CSDL D víi 4 thuéc tÝnh z, y, z vµ t víi mçi thuéc tÝnh cã 3 gi¸ trÞ kh¸c nhau. Cho biÕt cã thÓ t¹o ra ®­îc bao nhiªu luËt nÕu chØ cã 1 thuéc tÝnh ë bªn ph¶i luËt?

4.2. Gi¶ sö L3 bao gåm danh s¸ch sau {{a, b, c}, {a, b, d}, {a, c, d}, {b, c, d}, {b, c, w}, {b, c, x}, {p, q,

r}, {p, q, s}, {p, q, t}, {p, r, s}, {q, r, s}}

Page 87: KPDL_C1-6 & C10

173 174

TËp môc nµo sÏ bÞ lo¹i bá ë b­íc nèi tiÕp theo C4? Vµ tËp nµo sÏ bÞ lo¹i bá ë b­íc tØa bít L4?

4.3. Cho biÕt CSDL giao dÞch gåm 5000 giao dÞch vµ ta thu ®­îc 1 luËt t­¬ng øng LR víi c¸c ®é hç trî sau

Count (L) = 3400 Count (R) = 4000 Count (L U R) = 3000

T×m ®é hç trî vµ ®é tin cËy cña luËt trªn? 4.4. Cho CSDL giao dÞch gåm 8 giao dÞch víi thø tù giao dÞch nh­ sau:

TID TËp môc trong giao dÞch

1 {a, b, c} 2 {a, b, c, d, e } 3 {b } 4 {c, d, e } 5 {b} 6 {b, c, d } 7 {c, d, e} 8 {c, e}

T×m tÊt c¶ c¸c luËt cã thÓ sinh ra ®­îc bíi minsup=25% vµ minconf=80%

Ch­¬ng 5. Ph©n côm d÷ liÖu

5.1. Giíi thiÖu

5.1.1. Bµi to¸n ph©n côm

Mét trong nh÷ng bµi to¸n quan träng trong lÜnh vùc khai ph¸ d÷ liÖu lµ bµi

to¸n ph©n côm. Trong nhiÒu tr­êng hîp ta cã mét tËp d÷ liÖu lín ch­a cã nh·n

(®¸nh dÊu xem mét phÇn tö d÷ liÖu lµ thuéc líp nµo), lý do lµ viÖc g¸n nh·n cho

c¸c phÇn tö d÷ liÖu lµ rÊt tèn kÐm. VÝ dô trong c¬ së d÷ liÖu cña ng©n hµng chøa

mét sè l­îng lín c¸c giao dÞch cña kh¸ch hµng, viÖc g¸n nh·n cho c¸c kh¸ch

hµng nµo thuéc kh¸ch hµng tiÒm n¨ng cã thÓ mang l¹i lîi nhuËn cho ng©n hµng

lµ ®iÒu rÊt khã thùc hiÖn. Mét trong nh÷ng gi¶i ph¸p ®Ó xö lý vÊn ®Ò nµy lµ tù

®éng nhãm c¸c phÇn tö d÷ liÖu cã ®é t­¬ng tù nhau (gièng nhau) vµo cïng mét

côm. C¸c phÇn tö trong cïng mét côm sÏ cã ®é t­¬ng tù lín, vµ ®é t­¬ng tù gi÷a

c¸c phÇn tö trong cïng mét côm sÏ lín h¬n ®é t­¬ng tù gi÷a nã víi mét phÇn tö

d÷ liÖu trong côm kh¸c. Hay nãi mét c¸ch kh¸c, c¸c phÈn tö gi÷a c¸c côm kh¸c

nhau sÏ cã ®é kh¸c biÖt h¼n víi nhau. §é ®o kh¸c biÖt ®­îc ®o dùa trªn gi¸ trÞ

cña c¸c thuéc tÝnh m« t¶ phÈn tö d÷ diÖu, th«ng th­êng ng­êi ta th­êng sö dông

®é ®o kho¶ng c¸ch ®Ó ®o ®é kh¸c biÖt.

Ph©n côm còng lµ mét viÖc rÊt tù nhiªn, gièng nh­ viÖc chóng ta ph©n lo¹i

®éng vËt thµnh c¸c loµi, c¸c hä kh¸c nhau (hay c¸c nhãm cã cïng mét sè ®Æc

®iÓm nµo ®ã, vµ c¸c ®Æc ®iÓm nµy l¹i rÊt kh¸c víi c¸c lo¹i kh¸c). Trong líp häc

ng­êi ta cã thÓ ph©n ra c¸c nhãm sinh viªn häc giái, häc kh¸, häc kÐm, … Ph©n

côm ®­îc sö dông réng r·i trong rÊt nhiÒu lÜnh vùc (bµi to¸n) nh­ nghiªn cøu thÞ

tr­êng, nhËn d¹ng mÉu, ph©n tÝch d÷ liÖu, xö lý ¶nh, … Trong kinh doanh, ph©n

Page 88: KPDL_C1-6 & C10

175 176

côm cã thÓ gióp ta ph©n kh¸ch hµng thµnh c¸c nhãm kh¸c nhau ®ång thêi cho ta

biÕt c¸c ®Æc tr­ng cña c¸c nhãm ng­êi dïng nµy, tõ ®ã c«ng ty sÏ cã c¸c chÝnh

s¸ch kh¸c nhau cho c¸c nhãm kh¸ch hµng nµy.

ViÖc ph©n côm d÷ liÖu lµ bµi to¸n cÇn ®­îc mét c¸ch tù ®éng, do ®ã nã

thuéc vµo líp c¸c bµi to¸n häc kh«ng gi¸m s¸t (unsupervised learning).

5.1.2. C¸c ph­¬ng ph¸p ph©n côm

ViÖc ph©n lo¹i c¸c gi¶i thuËt ph©n côm lµ bµi to¸n kh«ng ®¬n gi¶n, lý do lµ

cã nhiÒu tiªu chÝ ph©n lo¹i, h¬n n÷a cã nhiÒu gi¶i thuËt cã cïng mét sè ®Æc tr­ng

nªn viÖc ph©n lo¹i còng kh«ng thÓ t¸ch b¹ch ®­îc. Hay nãi c¸ch kh¸c, gi÷a c¸c

ph©n lo¹i lµ cã sù giao nhau. D­íi ®©y liÖt kª mét sè c¸ch ph©n lo¹i c¸c ph­¬ng

ph¸p ph©n côm:

1. Ph©n côm ph¼ng vµ ph©n côm ph©n cÊp: ph©n côm ph¼ng chØ ®¬n gi¶n chia

tËp d÷ liÖu thµnh mét sè tËp con kh«ng giao nhau. Ph©n côm ph¼ng cßn

®­îc gäi lµ ph­¬ng ph¸p ph©n côm ph©n vïng (partitioning), lý do lµ khi

biÓu diÔn trªn mÆt ph¼ng th× mçi mét côm sÏ t­¬ng øng víi mét vïng. Mét

trong c¸c gi¶i thuËt thuéc líp gi¶i thuËt ph©n côm ph¼ng lµ k-means. Cßn

ph©n côm ph©n cÊp t¹o ra mét c©y ph©n cÊp cña c¸c côm: trªn mçi nót

trong c©y sÏ t­¬ng øng víi mét côm, côm ë nót cha sÏ lµ hîp cña c¸c côm

nót con. ViÖc ph©n ho¹ch cã thÓ thùc hiÖn theo hai c¸ch (hay hai ph­¬ng

ph¸p): gép (agglomerative) hay chia/t¸ch (divisive).

Ph­¬ng ph¸p ph©n côm gép, ban ®Çu sÏ coi tõng phÇn tö d÷ liÖu lµ

c¸c côm ®¬n. Gi¶i thuËt sÏ lÇn l­ît gép (ghÐp) c¸c côm ®¬n cã ®é

t­¬ng tù nhau cao vµo thµnh mét côm lín h¬n. Qu¸ tr×nh gép c¸c

côm sÏ ®­îc lÆp ®i lÆp l¹i cho ®Õn khi chóng ta thu ®­îc mét côm

duy nhÊt (nót gèc) hoÆc tháa m·n 1 ®iÒu kiÖn dõng nµo ®ã (xem

chi tiÕt ë phÇn gi¶i thuËt). Ph­¬ng ph¸p ph©n côm gép cßn ®­îc

gäi lµ ph©n côm tõ d­íi lªn (bottom-up), lý do lµ c©y ph©n cÊp

®­îc x©y dùng tõ l¸ ®Õn gèc (tõ d­íi lªn trªn).

Ph­¬ng ph¸p ph©n côm chia, ban ®Çu sÏ coi toµn bé tËp d÷ liÖu lµ

mét côm (nót gèc), côm nµy sÏ ®­îc chia nhá ra thµnh c¸c côm

con. Tõng côm con sÏ ®­îc tiÕp tôc chia nhá ra thµnh c¸c côm

nhá h¬n. Qu¸ tr×nh chia tiÕp tôc cho ®Õn khi mçi côm chØ chøa

mét phÇn tö d÷ liÖu hoÆc tháa m·n ®iÒu kiÖn dõng nµo ®ã. Gi¶i

thuËt nµy còng cßn ®­îc gäi lµ ph­¬ng ph¸p ph©n côm tõ trªn

xuèng, lý do lµ viÖc x©y dùng c©y ph©n cÊp ®­îc tiÕn hµnh tõ gèc

®Õn l¸ (tõ trªn xuèng d­íi).

Mét trong nh÷ng nh­îc ®iÓm cña ph­¬ng ph¸p ph©n côm ph©n cÊp lµ

khi mét phÇn tö ®· ®­îc ph©n vµo mét côm th× nã sÏ kh«ng bao giê ®­îc

ph©n l¹i vµo côm kh¸c. Do ®ã nÕu viÖc ph©n ®ã lµ sai th× nã sÏ t¹o ra lçi vµ

lçi ®ã sÏ kh«ng ®­îc chØnh söa.

2. Ph©n côm dùa vµo mËt ®é (density-based): phÇn lín c¸c gi¶i thuËt ph©n

côm th­êng dùa vµo ®é ®o kho¶ng c¸ch ®Ó quyÕt ®Þnh viÖc ph©n d÷ liÖu

vµo c¸c côm, dÉn ®Õn c¸c côm ®­îc t¹o ra th­êng cã d¹ng h×nh cÇu (cã

t©m lµ träng t©m cña côm). Do ®ã ph­¬ng ph¸p nµy chØ phï hîp khi c¸c

côm ®­îc ph©n bè theo h×nh cÇu. Tuy nhiªn ®iÒu nµy sÏ kh«ng ®¸p øng

®­îc c¸c thÓ lo¹i d÷ liÖu kh¸c nhau trong thùc tÕ (chóng cã thÓ tån t¹i ë

bÊt kú h×nh d¹ng nµo). Ph­¬ng ph¸p ph©n côm nµy sÏ dùa vµo mËt ®é

ph©n bè cña d÷ liÖu ®Ó quyÕt ®Þnh g¸n mét phÇn tö d÷ liÖu vµo c¸c côm.

MËt ®é ë ®©y ®­îc ®Þnh nghÜa lµ sè l­îng c¸c phÇn tö l©n cËn (neighbour)

trong mét b¸n kÝnh nµo ®ã vµ t©m lµ phÇn tö ®ang xÐt. Mét côm sÏ ®­îc

tiÕp tôc cã thªm phÇn tö d÷ liÖu ®ang xÐt nÕu mËt ®é cña nã lín h¬n 1

ng­ìng nµo ®ã. Mét sè c¸c gi¶i thuËt ph©n côm thuéc líp nµy lµ

DBSCAN, OPTICS vµ DENCLUE.

3. Ph­¬ng ph¸p ph©n côm dùa trªn l­íi (grid-based): ph­¬ng ph¸p nµy chia

kh«ng gian d÷ liÖu thµnh mét c¸i l­íi (grid) chøa mét sè l­îng h÷u h¹n

c¸c « (cell). Toµn bé c¸c thao t¸c ph©n côm sÏ ®­îc thùc hiÖn dùa trªn c¸c

« nµy. ¦u ®iÓm cña ph­¬ng ph¸p nµy lµ thêi gian xö lý, do nã chØ phô

thuéc vµo sè l­îng c¸c « chø kh«ng phô thuéc vµo sè l­îng c¸c phÇn tö d÷

liÖu. Gi¶i thuËt ph©n côm thuéc líp nµy lµ STING.

Page 89: KPDL_C1-6 & C10

177 178

4. Ph­¬ng ph¸p ph©n côm dùa trªn m« h×nh (model): Ph­¬ng ph¸p nµy gi¶

thiÕt lµ cã mét m« h×nh t­¬ng øng biÓu diÔn mét côm, gi¶i thuËt sÏ t×m c¸c

phÇn tö d÷ liÖu ®Ó ph©n vµo c¸c côm sao cho phï hîp víi m« h×nh nhÊt.

Gi¶i thuËt ph©n côm dùa trªn m« h×nh th­êng t¹o ra c¸c côm b»ng c¸ch

x©y dùng c¸c hµm mËt ®é ph¶n ¸nh sù ph©n bè cña d÷ liÖu trong kh«ng

gian. Gi¶i thuËt nµy còng cã thÓ ®­îc sö dông ®Ó t×m ra sè l­îng côm tèi

­u mét c¸ch tù ®éng dùa vµo thèng kª. Gi¶i thuËt cùc ®¹i kú väng

Expectation Maximization (EM) lµ thuéc líp ph©n côm dùa trªn m« h×nh.

5. Ph©n côm ®¬n ®Þnh (deterministic) vµ ph©n côm x¸c suÊt (probability):

Trong ph©n côm ®¬n ®Þnh, mçi mét phÇn tö d÷ liÖu chØ phô thuéc vµo mét

côm (hay x¸c suÊt cña phÇn tö ®ã thuéc vµo trong côm nã ®­îc ph©n lµ

100%, cßn x¸c suÊt cña nã thuéc vµo c¸c côm kh¸c lµ 0%). ViÖc chØ cho

phÐp mét phÇn tö d÷ liÖu thuéc vµo mét líp trong mét sè tr­êng hîp lµ

kh«ng chÝnh x¸c. VÝ dô nÕu chóng ta ph©n nh÷ng ng­êi cã tuæi nhá h¬n

hoÆc b»ng 30 lµ thuéc líp trÎ, cßn lín h¬n 30 lµ thuéc líp giµ lµ kh«ng tù

nhiªn. V× 2 ng­êi (mét ng­êi 30 ng­êi kia 31) chØ h¬n nhau 1 tuæi ®·

thuéc 2 líp kh¸c nhau. Ph­¬ng ph¸p ph©n côm x¸c suÊt sÏ g¸n x¸c suÊt mµ

mét phÇn tö d÷ liÖu thuéc vµo mét líp, x¸c suÊt nµy cã gi¸ trÞ n»m trong

kho¶ng [0,1]. Trong tr­êng hîp nµy ng­êi 30 tuæi sÏ cã mét x¸c suÊt (>0)

thuéc líp giµ vµ ng­îc l¹i ng­êi 31 tuæi còng sÏ cã mét x¸c suÊt (>0)

thuéc vµo líp trÎ. VÝ dô vÒ gi¶i thuËt ph©n côm thuéc lo¹i ph­¬ng ph¸p

nµy lµ ph©n ph­¬ng ph¸p ph©n côm mê (fuzzy).

6. Ph©n côm d÷ liÖu cã sè chiÒu lín (high-dimensional data): trong mét sè

miÒn øng dông, sè l­îng chiÒu cña d÷ liÖu lµ rÊt lín, ch¼ng h¹n nh­ xö lý

v¨n b¶n (text) hay xö lý d÷ liÖu chuçi DNA. §Æc ®iÓm cña lo¹i d÷ liÖu nµy

lµ sè chiÒu lín, cã nhiÒu chiÒu lµ kh«ng liªn quan, d÷ liÖu th­a (v× sè chiÒu

lín), mËt ®é d÷ liÖu nhá. Do ®ã ta cÇn mét líp gi¶i thuËt ®Ó gi¶i quyÕt lo¹i

d÷ liÖu nµy. Mét sè gi¶i thuËt thuéc líp nµy lµ CLIQUE vµ PROCLUS. ý

t­ëng cña c¸c gi¶i thuËt nµy lµ t×m ra mét tËp con c¸c thuéc tÝnh (chiÒu) cã

liªn quan vµ thao t¸c trªn tËp c¸c thuéc tÝnh ®ã.

7. Ph©n côm dùa trªn rµng buéc (constraint-based): gi¶i thuËt thuéc líp nµy

sÏ ®­îc bæ sung thªm mét sè rµng buéc khi thùc thi. Mçi mét rµng buéc sÏ

thÓ hiÖn mét yªu cÇu (kú väng) cña ng­êi dïng hay nã m« t¶ thuéc tÝnh

(property) cña côm kÕt qu¶. Ph­¬ng ph¸p nµy cho phÐp sù t­¬ng t¸c gi÷a

ng­êi dïng vµ gi¶i thuËt. VÝ dô trong d÷ liÖu giao dÞch cña mét siªu thÞ

ng­êi ta chØ muèn ph©n côm c¸c kh¸ch hµng mçi lÇn mua cã sè tiÒn lín 3

triÖu.

8. Ph©n côm theo l« (batch) vµ ph©n côm gia t¨ng (incremental): Ph­¬ng

ph¸p ph©n lo¹i nµy dùa vµo c¸ch thøc xö lý d÷ liÖu cña gi¶i thuËt. Trong

ph©n theo l«, toµn bé tËp d÷ liÖu ®­îc sö dông ®Ó t¹o ra c¸c côm. NÕu

chóng ta cã thªm 1 phÇn tö d÷ liÖu míi, th× nã sÏ t¹o ra mét tËp d÷ liÖu

míi vµ gi¶i thuËt ph©n côm l¹i ph¶i thùc thi trªn tËp d÷ liÖu míi nµy ®Ó

ph©n côm l¹i. Do ®ã gi¶i thuËt ph©n côm theo l« chØ phï hîp khi tËp d÷

liÖu lµ Ýt biÕn ®æi (nÕu kh«ng th× ®é phøc t¹p thuËt to¸n sÏ cao). Trong

ph©n côm gia t¨ng, gi¶i thuËt ph©n côm lÊy tõng phÇn tö d÷ liÖu vµ cËp

nhËt c¸c côm ®Ó ph©n vµo côm thÝch hîp. Khi cã thªm phÇn tö d÷ liÖu míi

th× nã chØ lµm nhiÖm vô ph©n phÇn tö ®ã vµo côm thÝch hîp chø kh«ng cÇn

ph¶i ph©n côm l¹i nh÷ng phÇn tö d÷ liÖu ®· ®­îc ph©n tr­íc ®ã. Gi¶i thuËt

nµy rÊt thÝch hîp khi tËp d÷ liÖu lµ lu«n lu«n biÕn ®æi.

V× sè l­îng c¸c gi¶i thuËt ph©n côm lµ rÊt lín nªn trong ch­¬ng nµy chØ tËp

trung giíi thiÖu mét sè gi¶i thuËt ®iÓn h×nh. Mét sè ký hiÖu ®­îc sö dông chung

cho c¸c gi¶i thuËt ph©n côm trong ch­¬ng lµ: D -tËp d÷ liÖu cÇn ph©n côm, nã

gåm n phÇn tö d÷ liÖu; Mét phÇn tö d÷ liÖu p (viÕt t¾t tõ point) ®­îc biÓu diÔn

b»ng d thuéc tÝnh (chiÒu).

5.2. Mét sè ®é ®o c¬ b¶n dïng trong ph©n côm

5.2.1. §é ®o t­¬ng ®ång

Gi¶ sö trong mét miÒn d÷ liÖu D, mét phÇn tö d÷ liÖu p ®­îc biÓu diÔn

b»ng mét vector cã sè chiÒu lµ n (p1, p2, …, pn), trong ®ã mçi chiÒu biÓu diÔn

Page 90: KPDL_C1-6 & C10

179 180

mét thuéc tÝnh m« t¶ phÇn tö d÷ liÖu p. Tïy vµo kiÓu gi¸ trÞ biÓu diÔn mµ ®é

t­¬ng tù gi÷a hai phÇn tö d÷ liÖu p1 vµ p2 cã thÓ ®­îc tÝnh to¸n b»ng c¸c c¸ch

kh¸c nhau.

Tr­êng hîp c¸c gi¸ trÞ thuéc tÝnh ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ nhÞ

ph©n pi{0,1}, ta lËp b¶ng m« t¶ sè l­îng c¸c thuéc tÝnh cã cïng gi¸ trÞ

vµ c¸c thuéc tÝnh kh«ng cïng gi¸ trÞ nh­ b¶ng 5.1. Khi ®ã ®é ®o Jaccard

x¸c ®Þnh ®é t­¬ng tù gi÷a 2 phÇn tö d÷ liÖu p1 vµ p2 ®­îc ®Þnh nghÜa nh­

sau:

cba

a ppJaccard

)2

,1

( (5.1)

B¶ng 5.1 Ma trËn kÒ

PhÇn tö d÷ liÖu p2

PhÇn tö d÷ liÖu p1 Tæng

1 0

1 a b a+b

0 c d c+d

Tæng a+c b+d a+b+c+d

Tr­êng hîp thuéc tÝnh Ai cã gi¸ trÞ pi ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi

r¹c pi{0,1, …,m} th× ta biÕn thuéc tÝnh Ai thµnh m thuéc tÝnh nhÞ ph©n

sau ®ã ¸p dông c«ng thøc Jaccard ë trªn ®Ó ®o ®é t­¬ng tù. VÝ dô thuéc

tÝnh mµu (color) cã c¸c gi¸ trÞ rêi r¹c lµ {xanh, ®á, vµng}, khi ®ã ta biÕn

thuéc thÝnh mµu nµy thµnh 3 thuéc tÝnh xanh, ®á, vµng víi gi¸ trÞ cña

c¸c thuéc tÝnh nµy lµ c¸c gi¸ trÞ nhÞ ph©n {0, 1};

Tr­êng hîp gi¸ trÞ biÓu diÔn pi c¸c thuéc tÝnh lµ liªn tôc (hay lµ c¸c sè

thùc), th× mét trong c¸c c«ng thøc hay dïng ®Ó ®o ®é t­¬ng tù lµ ®é ®o

cosin():

n

ii

n

ii

n

iii

pp

pp

pp

ppppin

1

22

1

21

121

21

2121 ),(cos (5.2)

5.2.2. §é ®o kh¸c biÖt

Trong nhiÒu tr­êng hîp ta cã thÓ sö dông ®é ®o kh¸c biÖt (dissimilarity)

thay cho ®é t­¬ng tù: mét trong nh÷ng ®é ®o kh¸c biÖt lµ ®é ®o kho¶ng c¸ch

(distance). T­¬ng tù nh­ ®é t­¬ng tù, tïy thuéc vµo gi¸ trÞ biÓu diÔn c¸c thuéc

tÝnh mµ c¸c ®é ®o kho¶ng c¸ch sÏ ®­îc tÝnh to¸n b»ng nh÷ng c«ng thøc kh¸c

nhau.

Tr­êng hîp c¸c gi¸ trÞ thuéc tÝnh ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ nhÞ

ph©n pi{0,1}. Tr­êng hîp nµy ta cßn ph©n nhá ra lµ thuéc tÝnh ®èi xøng (symmetric) vµ thuéc tÝnh bÊt ®èi xøng (asymmetric). Thuéc tÝnh

®èi xøng lµ thuéc tÝnh mµ gi¸ trÞ cña nã dï lµ 0 hay 1 th× ý nghÜa cña nã

còng kh«ng t¹o sù kh¸c biÖt nhau. VÝ dô trong mét c¬ së giao dÞch mua

hµng th× thuéc tÝnh giíi tÝnh (nam ®­îc biÓu diÔn b»ng gi¸ trÞ 1, n÷ lµ

gi¸ trÞ 0), th× chóng ta kh«ng thÊy sù kh¸c biÖt vÒ ng­êi mua cho dï ®ã

lµ nam hay n÷. Tuy nhiªn nÕu ta xÐt thuéc tÝnh biÓu diÔn mét giao dÞch

cã mua mÆt hµng m¸y tÝnh hay kh«ng, th× thuéc tÝnh nµy b»ng 1 (cã

mua) vµ b»ng 0 (kh«ng mua) cã ý nghÜa kh¸c h¼n nhau. Hay mét vÝ dô

vÒ thuéc tÝnh chøa kÕt qu¶ xÐt nghiÖm m¸u xem mét bÖnh nh©n cã bÞ

viªm gan B hay kh«ng, nÕu cã bÞ nhiÔm th× gi¸ trÞ lµ 1 vµ kh«ng bÞ

nhiÔm gi¸ trÞ b»ng 0 sÏ cã ý nghÜa kh¸c h¼n nhau. Do ®ã, c¸c c«ng thøc

tÝnh ®é ®o kho¶ng c¸ch còng sÏ kh¸c nhau dùa vµo b¶ng ma trËn kÒ nh­

b¶ng 5.1.

o NÕu lµ thuéc tÝnh ®èi xøng th× kho¶ng c¸ch d ®­îc tÝnh b»ng

c«ng thøc:

Page 91: KPDL_C1-6 & C10

181 182

dcba

cbppd

),( 21 (5.3)

o NÕu lµ thuéc tÝnh bÊt ®èi xøng th× kho¶ng c¸ch d ®­îc tÝnh

b»ng c«ng thøc:

cba

cbppd

),( 21 (5.4)

Tr­êng hîp thuéc tÝnh Ai cã gi¸ trÞ pi ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi

r¹c pi{0,1, …,m} th× ta biÕn thuéc tÝnh Ai thµnh m thuéc tÝnh nhÞ ph©n

sau ®ã ¸p dông c«ng thøc kho¶ng c¸ch ë trªn ®Ó ®o ®é kh¸c biÖt. Mét

ph­¬ng ph¸p kh¸c ®¬n gi¶n h¬n lµ t×m sè l­îng c¸c thuéc tÝnh mµ p1 vµ

p2 cã cïng gi¸ trÞ. Gi¶ sö chóng cã p thuéc tÝnh cã gi¸ trÞ gièng nhau, th×

®é ®o kho¶ng c¸ch ®­îc tÝnh b»ng:

n

qnppd

),( 21 (5.5)

trong ®ã n lµ sè l­îng c¸c thuéc tÝnh.

Tr­êng hîp gi¸ trÞ biÓu diÔn pi c¸c thuéc tÝnh lµ liªn tôc (hay lµ c¸c sè

thùc), th× ta cã mét sè c¸c c«ng thøc ®o kho¶ng c¸ch nh­ sau:

o §é ®o kho¶ng c¸ch Manhattan:

n

iii ppppd

12121 ||),( (5.6)

o §é ®o kho¶ng c¸ch Euclide:

n

iii ppppd

1

22121 ||),( (5.7)

o §é ®o kho¶ng c¸ch Minkowski:

q

n

i

qii ppppd

1

2121 ||),( (5.8)

NÕu ®Ó ý th× ta sÏ thÊy ®é ®o kho¶ng c¸ch Manhattan lµ tr­êng

hîp ®Æc biÖt cña ®é ®o Minkowski víi q=1, cßn tr­êng hîp q=2 th× nã

chÝnh lµ ®é ®o Euclide.

C¸c ®é ®o kho¶ng c¸ch trªn ®Òu cã ®Æc ®iÓm sau:

TÝnh x¸c ®Þnh d­¬ng (positive definiteness): d(pi, pj)>0 nÕu ij vµ d(pi,

pi)=0

TÝnh ®èi xøng (symmetric): d(pi, pj)=d(pj, pi)

TÝnh bÊt ®¼ng thøc tam gi¸c (triangle inequality): d(pi, pj)#d(pi,

pk)+d(pk, pj)

VÝ dô vÒ c¸ch tÝnh mét sè ®é ®o ®­îc minh häa nh­ sau: Gi¶ sö ta cã mét

c¬ së d÷ liÖu trong bÖnh viÖn chøa kÕt qu¶ c¸c xÐt nghiÖm cña c¸c bÖnh nh©n

nh­ b¶ng 5.2.

B¶ng 5.2 B¶ng kÕt qu¶ xÐt nghiÖm

No Tªn Giíi tÝnh

Chãng mÆt

Ho XN1 XN2 XN3 XN4

1 Nam M Y N P N N N

2 V©n F Y N P N P N

3 Th¾ng M Y P N N N N

trong ®ã giíi tÝnh M lµ nam (male), F lµ n÷ (female); Thuéc tÝnh chãng mÆt

®­îc biÓu diÔn b»ng gi¸ trÞ Y (cã)/ N (kh«ng); c¸c xÐt nghiÖm XN cã gi¸ trÞ P

(d­¬ng tÝnh- positive) vµ N (©m tÝnh – negative). LËp b¶ng ma trËn kÒ ta cã thÓ

tÝnh ®­îc ®é kh¸c biÖt cña c¸c phÇn tö d÷ liÖu nh­ sau:

d(Nam, V©n)=(0+1)/(2+0+1)=0.33

d(Nam, Th¾ng)=(1+1)/(1+1+1)=0.67

d(Th¾ng, V©n)=(1+2)/(1+1+2)=0.75

Tr­êng hîp gi¸ trÞ cña c¸c thuéc tÝnh ®­îc biÓu diÔn b»ng c¸c sè thùc,

trong nhiÒu tr­êng hîp cã thÓ ta sÏ cÇn ph¶i chuÈn hãa tr­íc khi tÝnh to¸n nh»m

Page 92: KPDL_C1-6 & C10

183 184

lµm t¨ng ®é chÝnh x¸c. §éc gi¶ cã thÓ tham kh¶o t¹i ch­¬ng 3 cña tµi liÖu

[Han06].

5.3. ThuËt to¸n ph©n côm ph¼ng

5.3.1. ThuËt to¸n k-means

Gi¶i thuËt k-means thuéc líp ph©n côm ph¼ng, ®Çu vµo cho thuËt to¸n k-

means lµ tËp d÷ liÖu D gåm n phÇn tö d÷ liÖu, sè l­îng c¸c côm ®Çu ra k. §Çu ra

cña gi¶i thuËt lµ k côm d÷ liÖu. Gi¶i thuËt k-means ®­îc tr×nh bµy nh­ sau:

§Çu vµo: tËp d÷ liÖu D, sè l­îng c¸c côm k

§Çu ra: tËp d÷ liÖu ®· ®­îc ph©n thµnh k côm

ThuËt to¸n k-means

1. Chän ngÉu nhiªn k phÇn tö trong D lµm träng t©m ban ®Çu cho c¸c côm.

2. Ph©n c¸c phÇn tö d÷ liÖu trong D vµo c¸c côm dùa vµo ®é t­¬ng ®ång cña nã víi träng t©m cña c¸c côm. PhÇn tö d÷ liÖu sÏ ®­îc ph©n vµo côm cã ®é t­¬ng ®ång lín nhÊt.

3. TÝnh l¹i träng t©m cña c¸c côm.

4. Nh¶y ®Õn b­íc 2 cho ®Õn khi qu¸ tr×nh héi tô (kh«ng cã sù g¸n l¹i c¸c phÇn tö d÷ liÖu gi÷a c¸c côm, hay träng t©m cña c¸c côm lµ kh«ng ®æi).

§iÓm mÊu chèt cña gi¶i thuËt lµ ë b­íc 2, c¸c phÇn tö d÷ liÖu ®­îc di

chuyÓn gi÷a c¸c côm ®Ó lµm cùc ®¹i hãa ®é t­¬ng tù gi÷a c¸c phÇn tö d÷ liÖu

bªn trong 1 côm (hay cùc ®¹i hãa ®é t­¬ng tù trong néi t¹i mét côm, hay cùc

tiÓu hãa kho¶ng c¸ch gi÷a c¸c phÇn tö d÷ liÖu trong néi t¹i mét côm). §é ®o

t­¬ng tù trong néi t¹i mét côm ®­îc tÝnh b»ng c«ng thøc:

k

i Cpi

i

mpsimJ1

),( (5.9)

Trong ®ã, Ci vµ mi lÇn l­ît lµ ký hiÖu côm thø i vµ träng t©m cña nã. Vµ

sim(p,mi) lµ ®é t­¬ng tù gi÷a p vµ mi. Träng t©m mi cña Ci ®­îc tÝnh theo c«ng

thøc sau:

Cp

CC

pm

|| (5.10)

Nãi mét c¸ch kh¸c, gi¶i thuËt k-means ho¹t ®éng sao cho hµm ®iÒu kiÖn

(criterion function) cña nã lµ héi tô. Th«ng th­êng hµm héi tô ®­îc chän lµ hµm

tæng b×nh ph­¬ng lçi (squared-error) ®­îc ®Þnh nghÜa nh­ sau:

C Cp

CmpE 2|| (5.11)

Gi¶i thuËt k-means tr¶ vÒ sè l­îng biÕn thÓ c¸c côm lµ tèi thiÓu, nh­ng nã

kh«ng ®¶m b¶o t×m ®­îc gi¸ trÞ cùc ®¹i toµn côc cña hµm J nh­ng ta cã thÓ ch¹y

thuËt to¸n mét sè lÇn ®Ó thu ®­îc gi¸ trÞ cùc ®¹i côc bé. Gi¶i thuËt k-means ph©n

c¸c phÇn tö d÷ liÖu vµo c¸c côm dùa vµo träng t©m cña c¸c côm, do ®ã nã cã tªn

lµ k-means (mean lµ gi¸ trÞ trung b×nh).

H×nh 5.1 Minh häa ho¹t ®éng cña gi¶i thuËt k-means

Mét vÝ dô m« pháng ho¹t ®éng cña gi¶i thuËt k-means ®­îc minh häa trªn

h×nh 5.1. Ban ®Çu ta cã tËp d÷ liÖu nh­ h×nh a), vµ gi¶ sö sè l­îng c¸c côm k =3.

ThuËt to¸n lùa chän 3 phÇn tö d÷ liÖu ngÉu nhiªn lµm träng t©m cña c¸c côm

(®­îc ®¸nh dÊu b»ng dÊu + bªn c¹nh). C¸c phÇn tö d÷ liÖu sÏ ®­îc g¸n vµo 3

Page 93: KPDL_C1-6 & C10

185 186

côm dùa vµo ®é t­¬ng tù cña nã víi 3 träng t©m nµy. Chóng ta thu ®­îc 3 côm

®­îc khoanh b»ng ®­êng ®øt nÐt. ë h×nh b) m« t¶ qu¸ tr×nh c¸c träng t©m ®­îc

tÝnh l¹i dùa vµo c¸c phÇn tö trong 1 côm, sau ®ã c¸c phÇn tö d÷ liÖu l¹i ®­îc g¸n

l¹i dùa vµo 3 träng t©m míi (®­îc ®¸nh dÊu b»ng dÊu +). H×nh c) diÔn t¶ qu¸

tr×nh t­¬ng tù vµ cuèi cïng ta thu ®­îc 3 côm ®Çu ra (®­îc khoanh b»ng ®­êng

liÒn nÐt).

KÕt qu¶ cuèi cïng cña k-means phô thuéc rÊt nhiÒu vµo c¸ch lùa chän k

phÇn tö d÷ liÖu ban ®Çu lµm träng t©m cña k côm. Bëi v× sù lùa chän k côm ban

®Çu lµ hoµn toµn ngÉu nhiªn, nªn kÕt qu¶ thu ®­îc sau sau ch¹y k-means c¸c

lÇn kh¸c nhau lµ cã thÓ kh¸c nhau. Nh­ vËy ta cã thÓ ch¹y thuËt to¸n k-means

mét sè lÇn vµ lÊy kÕt qu¶ cña lÇn ch¹y cã gi¸ trÞ cña hµm J lµ lín nhÊt. Ngoµi ra

còng cã mét sè c¸c ®Ò xuÊt ®Ó c¶i tiÕn thuËt to¸n k-means b»ng c¸ch c¶i tiÕn

viÖc x©y dùng c¸c träng t©m ban ®Çu [Cui].

Trong thùc tÕ khi ta gÆp tr­êng hîp d÷ liÖu qu¸ lín, hoÆc gi¶i thuËt kh«ng

héi tô (träng t©m cña c¸c côm cø liªn tôc thay ®æi) dÉn ®Õn thêi gian ch¹y

ch­¬ng tr×nh cã thÓ rÊt lín. Trong tr­êng hîp nµy ng­êi ta cã thÓ sö dông mét sè

®iÒu kiÖn dõng sau ®©y:

Khi sè l­îng vßng lÆp v­ît qua mét ng­ìng nµo ®ã. §iÒu kiÖn nµy cã

thÓ lµm cho chÊt l­îng cña gi¶i thuËt ph©n côm kh«ng ®­îc tèt v× nã

ch­a ch¹y ®ñ sè vßng lÆp cÇn thiÕt.

Khi gi¸ trÞ cña J nhá h¬n 1 ng­ìng nµo ®ã (®¶m b¶o chÊt l­îng cña c¸c

côm ®ñ tèt, hay nã ®· ch¹y ®­îc ®ñ sè vßng lÆp cÇn thiÕt). Trong thùc

tÕ ®iÒu kiÖn nµy th­êng ®­îc dïng kÕt hîp víi ®iÒu kiÖn sè vßng lÆp ë

trªn.

Khi hiÖu cña gi¸ trÞ cña J trong hai vßng lÆp liªn tiÕp (Ji - Ji+1) nhá h¬n

1 ng­ìng nµo ®ã. Ng­êi ta còng hay kÕt hîp ®iÒu kiÖn nµy víi ®iÒu kiÖn

vßng lÆp ®Ó tr¸nh ch­¬ng tr×nh bÞ ch¹y lÆp.

Gi¶ sö sè lÇn lÆp cña gi¶i thuËt lµ t th× ®é phøc t¹p cña thuËt to¸n lµ O(nkt),

trong ®ã n lµ sè l­îng c¸c phÇn tö d÷ liÖu, k lµ sè l­îng c¸c côm vµ. Th«ng

th­êng trong thùc tÕ th× t << n vµ k << n. Víi ®é phøc t¹p nµy th× thuËt to¸n thùc

hiÖn kh¸ nhanh trªn tËp d÷ liÖu lín. Nh­ ®· ®Ò cËp ë trªn, gi¶i thuËt k-means dùa

trªn ®é ®o t­¬ng tù, nªn nã phï hîp víi miÒn d÷ liÖu mµ c¸c côm ph©n bè theo

h×nh cÇu vµ nã ho¹t ®éng kh«ng tèt trong miÒn d÷ liÖu mµ c¸c côm ®­îc ph©n

bè theo h×nh d¹ng bÊt kú.

5.3.2 ThuËt to¸n k-mediods

Mét nh­îc ®iÓm n÷a cña gi¶i thuËt k-means lµ nã nh¹y c¶m víi c¸c d÷ liÖu

ngo¹i lÖ (outlier). Gi¶ sö trong tËp d÷ liÖu cã mét sè phÇn tö cã gi¸ trÞ lín

(nh­ng b¶n th©n chóng chØ lµ c¸c tr­êng hîp ngo¹i lÖ chø kh«ng ph¶i lµ phæ

biÕn), khi ®ã c¸c phÇn tö nµy sÏ cã ¶nh h­ëng lín ®Õn träng t©m cña c¸c côm

mµ nã thuéc vµo. HÖ qu¶ lµ c¸c côm sÏ kh«ng ®­îc tèi ­u vµ tæng b×nh ph­¬ng

lçi sÏ cao. Gi¶i thuËt k-mediods ®­îc ®Ò xuÊt ®Ó tr¸nh nh­îc ®iÓm trªn. Trong

gi¶i thuËt nµy, thay v× tÝnh to¸n träng t©m cña côm , nã lùa chän 1 phÇn tö cô thÓ

trong côm lµm träng t©m cña côm. TiÕp ®Õn thay v× sö dông hµm ®iÒu kiÖn lµ

tæng b×nh ph­¬ng lçi E nh­ c«ng thøc 5.11, hµm tæng sè lçi tuyÖt ®èi (absolute-

error) ®­îc dïng lµm hµm ®iÒu kiÖn, nã ®­îc tÝnh lµ tæng sè lçi tuyÖt ®èi trªn

toµn bé tËp d÷ liÖu nh­ c«ng thøc 5.12:

k

i Cpi

i

opE1

2|| (5.12)

Trong ®ã p lµ phÇn tö d÷ liÖu trong côm Ci vµ oi lµ phÇn tö ®­îc chän lµm

träng t©m cña Ci. Gi¶i thuËt sÏ lÆp ®i lÆp l¹i cho ®Õn khi oi sÏ trïng víi träng t©m

cña côm hoÆc rÊt gÇn träng t©m cña côm (trong tr­êng hîp tæng qu¸t). Chi tiÕt

h¬n vÒ gi¶i thuËt k-mediods nh­ sau: ban ®Çu c¸c phÇn tö ®¹i diÖn cho c¸c côm

oi ®­îc chän ngÉu nhiªn. Sau ®ã g¸n c¸c phÇn tö cßn l¹i vµo c¸c côm dùa vµo ®é

t­¬ng ®ång gi÷a chóng víi oi. Chän mét phÇn tö trong côm orandom lµm phÇn tö

®¹i diÖn cña côm, sau ®ã kiÓm tra tõng phÇn tö p cßn l¹i trong tËp d÷ liÖu vµ

thùc hiÖn c¸c hµnh ®éng t­¬ng øng víi 4 tr­êng hîp sau:

Page 94: KPDL_C1-6 & C10

187 188

1. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm j ®­îc ®¹i diÖn bëi oj. NÕu

oj bÞ thay thÕ bëi orandom vµ p l¹i cã ®é t­¬ng ®ång lín nhÊt víi mét phÇn

tö ®¹i diÖn oi (ij), th× p ®­îc g¸n vµo côm oi.

2. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm j ®­îc ®¹i diÖn bëi oj. NÕu

oj bÞ thay thÕ bëi orandom vµ p l¹i cã ®é t­¬ng ®ång lín nhÊt víi mét phÇn

tö ®¹i diÖn orandom, th× p ®­îc g¸n vµo côm orandom.

3. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm i ®­îc ®¹i diÖn bëi oi. NÕu

mét phÇn tö ®¹i diÖn oj cña côm j (ij) bÞ thay thÕ bëi orandom vµ p vÉn cã

®é t­¬ng ®ång lín nhÊt víi oi, th× p vÉn ®­îc g¸n vµo côm oi.

4. PhÇn tö d÷ liÖu p hiÖn t¹i ®ang thuéc vÒ côm i ®­îc ®¹i diÖn bëi oi. NÕu

mét phÇn tö ®¹i diÖn oj cña côm j (ij) bÞ thay thÕ bëi orandom vµ p l¹i cã

®é t­¬ng ®ång lín nhÊt víi mét phÇn tö ®¹i diÖn orandom, th× p ®­îc g¸n

vµo côm orandom.

C¸c tr­êng hîp trªn ®­îc minh häa trªn h×nh 5.2. Gi¶ sö Et lµ tæng sè lçi

tuyÖt ®èi tr­íc khi chän orandom vµ Et+1 lµ tæng sè lçi tuyÖt ®èi sau khi chän

orandom, gi¸ trÞ =Et+1 - Et ®­îc gäi lµ hµm chi phÝ (cost function). NÕu <0 tøc lµ

tØ lÖ lçi gi¶m do ®ã ta chän orandom ®Ó thay thÕ cho phÇn tö ®¹i diÖn tr­íc ®ã cña

côm, ng­îc l¹i (>0) th× phÇn tö ®¹i diÖn tr­íc ®ã cña côm vÉn ®­îc gi÷

nguyªn. Qu¸ tr×nh nµy lÆp l¹i víi c¸c phÇn tö kh¸c ®­îc chän lµm orandom.

Gi¶i thuËt ®Çu tiªn thuéc líp gi¶i thuËt k-mediods lµ gi¶i thuËt ph©n vïng

quanh träng t©m Partition Around Mediods (PAM). Gi¶i thuËt PAM ®­îc tr×nh

bµy nh­ sau:

§Çu vµo: tËp d÷ liÖu D, sè l­îng c¸c côm k

§Çu ra: tËp d÷ liÖu ®· ®­îc ph©n thµnh k côm

ThuËt to¸n PAM

1. Chän ngÉu nhiªn k phÇn tö trong D lµm phÇn tö ®¹i diÖn oi cho c¸c côm.

2. Ph©n c¸c phÇn tö d÷ liÖu trong D vµo c¸c côm dùa vµo ®é t­¬ng ®ång cña nã víi c¸c oi. PhÇn tö d÷ liÖu sÏ ®­îc ph©n vµo côm cã ®é t­¬ng ®ång lín nhÊt.

3. Chän ngÉu nhiªn mét phÇn tö d÷ liÖu kh«ng ph¶i lµ phÇn tö ®¹i diÖn orandom

4. TÝnh to¸n hµm chi phÝ nÕu thay thÕ phÇn tö ®¹i diÖn oj b»ng orandom

5. NÕu <0 th× thay thÕ oj b»ng orandom

6. Nh¶y ®Õn b­íc 2 cho ®Õn khi qu¸ tr×nh héi tô (kh«ng cã sù thay ®æi phÇn tö ®¹i diÖn).

§é phøc t¹p cña mçi vßng lÆp trong gi¶i thuËt PAM lµ O(k(n-k)2), do ®ã

cã thÓ dÔ dµng nhËn ra r»ng khi n lín th× ®é phøc t¹p cña gi¶i thuËt lµ rÊt lín.

Mét sè biÕn thÓ cña gi¶i thuËt k-means kh¸c lµ gi¶i thuËt k-modes, hay k-

meadian chóng ta cã thÓ tham kh¶o thªm ë c¸c tµi liÖu [ZZ].

H×nh 5.2 C¸c tr­êng hîp x¶y ra khi thay thÕ mét phÇn tö ®¹i diÖn trong gi¶i thuËt PAM

5.3.3. T×m sè l­îng côm thÝch hîp

C¸c gi¶i thuËt ph©n côm ph¼ng tr×nh bµy ë trªn cÇn x¸c ®Þnh sè l­îng c¸c

côm cè ®Þnh tõ tr­íc, tuy nhiªn trong nhiÒu tr­êng hîp ta kh«ng thÓ biÕt tr­íc

®­îc sè l­îng côm nh­ thÕ nµo lµ cho chÊt l­îng tèt nhÊt. Do vËy rÊt h÷u Ých

nÕu gi¶i thuËt cung cÊp cho chóng ta sè l­îng c¸c côm nh­ thÕ nµo lµ tèi ­u

nhÊt. Mét ph­¬ng ph¸p ®Ó x¸c ®Þnh sè l­îng côm tèi ­u lµ dùa vµo hµm môc

tiªu (objective function) nµo ®ã. Mét vÝ dô vÒ hµm môc tiªu lµ hµm gi¸ trÞ J

(c«ng thøc 5.9). §Ó t×m ra sè côm tèi ­u chÊp nhËn ®­îc, ta t×m gi¸ trÞ cùc ®¹i

(cã thÓ lµ côc bé) cña gi¸ trÞ J. Cho gi¶i thuËt k-means thùc hiÖn víi c¸c tham sè

k (sè l­îng c¸c côm) kh¸c nhau, gi¸ trÞ k nµo cho gi¸ trÞ cña J cao nhÊt th× ®ã lµ

sè côm tèi ­u. Tuy nhiªn chóng ta còng ph¶i c©n ®èi víi thêi gian thùc hiÖn cña

gi¶i thuËt.

Page 95: KPDL_C1-6 & C10

189 190

NÕu ta chän hµm môc tiªu chÝnh lµ hµm tæng sè b×nh ph­¬ng lçi E (c«ng

thøc 5.11), gäi E(k) lµ gi¸ trÞ tæng sè b×nh ph­¬ng lçi khi ph©n d÷ liÖu thµnh k

côm, gi¸ trÞ côm tèi ­u sÏ lµ )(minarg kEk

. Nh­ng ta cã thÓ nhËn ra r»ng E(k)

sÏ cã gi¸ trÞ lµ 0 khi k=n (n lµ tæng sè phÇn tö d÷ liÖu), tøc lµ mçi côm sÏ gåm 1

phÈn tö d÷ liÖu. Tuy nhiªn khi sè côm b»ng n th× l¹i kh«ng ph¶i lµ c¸i ta cÇn t×m.

Ph­¬ng ph¸p kh¸c ®Ó t×m sè côm tèi ­u lµ thªm gi¸ trÞ ph¹t (penalty) cho

sè l­îng côm, khi ®ã hµm môc tiªu sÏ ®­îc tÝnh nh­ sau:

])([minarg kkEkk

(5.13)

trong ®ã lµ mét träng sè, ta cã thÓ thÊy gi¸ trÞ ®ñ lín cña ( >0) ë ®©y

cã t¸c dông tr¸nh ®­îc tr­êng hîp sè côm tèi ­u sÏ lµ n nh­ tr­êng hîp ë trªn. ë

®©y ta m« h×nh hãa bµi to¸n ph©n côm, trong ®ã ®é phøc t¹p (complexity) cña

ph©n côm cã phô thuéc vµo sè l­îng côm (hay mét hµm cña sè l­îng côm). Tuy

nhiªn ë ®©y ta l¹i gÆp ph¶i vÊn ®Ò lµ lµm sao x¸c ®Þnh ®­îc gi¸ trÞ phï hîp cho

. Mét trong nh÷ng ph­¬ng ph¸p x¸c ®Þnh lµ dùa vµo thùc nghiÖm vµ gi¸ trÞ ®ã

sÏ ®­îc dïng cho cïng 1 miªn d÷ liÖu khi tËp d÷ liÖu thay ®æi. VÝ dô ta ph©n

côm d÷ liÖu thu ®­îc tõ mét tËp hîp c¸c phÇn tö d÷ liÖu, khi ta x¸c ®Þnh ®­îc

gi¸ trÞ th× gi¸ trÞ nµy sÏ ®­îc sö dông trong nh÷ng lÇn ph©n côm d÷ liÖu míi

(khi néi dung c¸c phÇn tö d÷ liÖu tõ c¸c website nguån thay ®æi). Chó ý trong

tr­êng hîp nµy chóng ta chØ thõa kÕ gi¸ trÞ chø kh«ng thõa kÕ sè l­îng côm k.

5.4. ThuËt to¸n ph©n côm ph©n cÊp

Kh¸c víi c¸c gi¶i thuËt ph©n côm ph»ng, c¸c thuËt to¸n ph©n côm ph©n cÊp

sÏ t¹o ra mét c©y ph©n cÊp c¸c côm d÷ liÖu. C¸c gi¶i thuËt ph©n côm ph©n cÊp

th­êng ®­îc chia lµm 2 lo¹i: ph©n côm tõ d­íi lªn (l¸ ®Õn gèc) vµ tõ trªn xuèng

(gèc xuèng l¸).

5.4.1 Ph©n côm ph©n cÊp gép

Gi¶i thuËt ®Çu tiªn chóng ta t×m hiÓu lµ gi¶i thuËt ph©n côm tõ d­íi lªn cã

tªn lµ ph©n côm gép (Hierarchical Agglomerative clustering – HAC). MÆc dï

cã nhiÒu d¹ng thøc liªn quan tíi ph­¬ng ph¸p ph©n côm tõ d­íi lªn, song mét t­

duy rÊt tù nhiªn ®Ó t×m ra c¸c côm lµ:

1. B¾t ®Çu tõ mçi phÇn tö d÷ liÖu ®­îc coi nh­ mét côm (t¹i thêi ®iÓm nµy

th× sè l­îng côm b»ng chÝnh sè l­îng c¸c phÇn tö d÷ liÖu);

2. Sau ®ã tõng b­íc gép c¸c côm ®· cã thµnh c¸c côm lín h¬n víi yªu cÇu

ph¶i ®¶m b¶o ®é t­¬ng tù gi÷a c¸c phÇn tö d÷ liÖu néi bé trong mçi côm

cao (sè l­îng côm gi¶m dÇn);

3. ThuËt to¸n ngõng l¹i khi hoÆc ®· ®¹t ®­îc sè l­îng côm mong muèn

hoÆc chØ cßn mét côm duy nhÊt chøa toµn bé d÷ liÖu hay tháa m·n mét

®iÒu kiÖn dõng nµo ®ã.

ThuËt to¸n ph©n côm ph©n cÊp gép (Hierarchical agglomerative clustering-

HAC) lµ thuËt to¸n ph©n côm ph©n cÊp tõ d­íi lªn ®­îc sö dông rÊt réng r·i vµ

®­îc tÝch hîp vµo c¸c øng dông truy t×m th«ng tin (Information Retrieval)

[Markov07]. HAC chØ yªu cÇu ®Þnh nghÜa hµm kho¶ng c¸ch gi÷a c¸c côm. Ta

còng cã thÓ dïng ®é t­¬ng tù ®Ó thay thÕ ®é ®o kho¶ng c¸ch. Chó ý lµ gi¸ trÞ

cña 2 ®é ®o nµy lµ tØ lÖ nghÞch víi nhau. NÕu dïng ®é ®o kho¶ng c¸ch, gi¶ sö Ci

vµ Cj lµ 2 côm, cã mét sè ph­¬ng ph¸p tÝnh kho¶ng c¸ch gi÷a hai côm Ci vµ Cj lµ

d(Ci, Cj) nh­ sau:

Kho¶ng c¸ch gi÷a 2 côm ®­îc tÝnh lµ kho¶ng c¸ch gi÷a 2 träng t©m cña

Ci vµ Cj: dmean(Ci, Cj)=|mi - mj|, trong ®ã mi vµ mj lÇn l­ît lµ träng t©m

cña hai côm Ci vµ Cj.

Kho¶ng c¸ch gi÷a 2 côm ®­îc tÝnh lµ kho¶ng c¸ch cùc ®¹i gi÷a 2 phÇn

tö d÷ liÖu thuéc vµo 2 côm:

|'|max),( ',max ppCCdji CpCpji . Gi¶i thuËt sö dông

®é ®o nµy cßn ®­îc gäi lµ ph©n côm ng­êi l¸ng giÒng gÇn nhÊt, vµ ®é

®o nµy cßn ®­îc gäi lµ single-link.

Page 96: KPDL_C1-6 & C10

191 192

Kho¶ng c¸ch gi÷a 2 côm ®­îc tÝnh lµ kho¶ng c¸ch cùc tiÓu gi÷a 2 phÇn

tö d÷ liÖu thuéc vµo 2 côm:

|'|min),( ',min ppCCdji CpCpji . Gi¶i thuËt sö dông

®é ®o nµy cßn ®­îc gäi lµ ph©n côm ng­êi l¸ng giÒng xa nhÊt, vµ ®é ®o

nµy cßn ®­îc gäi lµ complete-link.

Kho¶ng c¸ch gi÷a 2 côm ®­îc tÝnh lµ kho¶ng c¸ch trung b×nh gi÷a c¸c

tµi liÖu trong 2 côm:

ji CpCpji

jiavg ppCC

CCd',

|'|1

),( . §é ®o nµy cßn

®­îc gäi lµ group-average.

T­¬ng tù nh­ gi¶i thuËt ph©n côm kh¸c, môc ®Ých cña HAC lµ lµm cùc ®¹i

®é t­¬ng tù gi÷a c¸c phÇn tö d÷ liÖu trong néi t¹i mét côm. Trong qu¸ tr×nh

HAC ho¹t ®éng, c¸c côm ®­îc ghÐp l¹i víi nhau t¹o thµnh mét côm ë cÊp

cao h¬n, ®é t­¬ng tù néi t¹i cña c¸c côm míi nµy sÏ gi¶m so víi c¸c côm ë

cÊp thÊp h¬n trong c©y ph©n cÊp (xem minh häa trong h×nh 5.3).

Nh­ vËy, ®Ó ®¹t ®­îc chÊt l­îng ph©n côm tæng thÓ tèt, chóng ta cã thÓ

dõng qu¸ tr×nh ghÐp côm ë mét møc nµo ®ã chø kh«ng b¾t buéc ph¶i t¹o ra

mét côm duy nhÊt ë gèc cña c©y ph©n cÊp. §Ó cµi ®Æt ý t­ëng nµy ta cã thÓ

sö dông c¸c tham sè ®iÒu khiÓn. Tham sè thø nhÊt k ®Ó dõng thuËt to¸n lµ

khi sè l­îng côm mong muèn ®· ®­îc t¹o ra, tham sè thø hai q lµ dõng

thuËt to¸n khi kho¶ng c¸ch gi÷a hai côm ®­îc chän ®Ó ghÐp lín h¬n mét

ng­ìng nµo ®ã. Gäi G lµ tËp c¸c côm, D lµ tËp hîp c¸c phÇn tö d÷ liÖu cÇn

ph©n côm, thuËt to¸n HAC ®­îc thÓ hiÖn nh­ sau:

H×nh 5.3 Mét c©y ph©n cÊp cña thuËt to¸n ph©n côm HAC

§Çu vµo: + tËp d÷ liÖu kh«ng cã nh·n D

+ ng­ìng q lµ gi¸ trÞ ®é t­¬ng ®ång nhá nhÊt (®iÒu kiÖn thø

nhÊt ®Ó dõng thuËt to¸n)

+ gi¸ trÞ k lµ sè l­îng côm mong muèn (®iÒu kiÖn thø 2 ®Ó

dõng thuËt to¸n)

§Çu ra: c©y ph©n côm ph©n cÊp G

1. G { {p} | p D} (khëi t¹o G lµ tËp c¸c côm chØ gåm mét phÇn tö

d÷ liÖu trong tËp D).

2. NÕu |G| < k th× dõng thuËt to¸n (®· ®¹t ®­îc sè l­îng côm mong

muèn).

3. T×m hai côm Ci, Cj G sao cho (i,j) = arg min(i,j) d (Ci, Cj) (t×m hai

côm cã kho¶ng c¸ch nhá nhÊt hay ®é t­¬ng tù lín nhÊt).

4. NÕu d(Ci, Cj) > q th× dõng thuËt to¸n (kho¶ng c¸ch gi÷a 2 côm lín

h¬n ng­ìng cho phÐp).

5. Lo¹i bá Ci, Cj khái G.

Page 97: KPDL_C1-6 & C10

193 194

6. G = G { Ci, Cj } (ghÐp hai côm Ci, Cj vµ ®­a vµo trong tËp G).

7. Nh¶y ®Õn b­íc 2.

ThuËt to¸n ph©n côm ph©n cÊp HAC

Gi¶i thuËt cã thÓ dõng t¹i b­íc 2 khi sè l­îng côm k mong muèn ®· tháa

m·n, hay ë b­íc 4 khi kho¶ng c¸ch nhá nhÊt gi÷a 2 côm lµ lín h¬n ng­ìng q

cho phÐp. Khi k=1 vµ q = 0 th× G lµ c©y ph©n côm hoµn chØnh cã gèc lµ côm duy

nhÊt. Khi k>1 th× cã k côm ë møc cao nhÊt. Mét vÝ dô vÒ gi¶i thuËt ph©n côm

HAC lµ c©y ph©n cÊp ë h×nh 5.3. Mét ®iÒu ®¸ng chó ý ®èi víi thuËt to¸n HAC lµ

nã lu«n t¹o ra mét c©y nhÞ ph©n chø kh«ng ph¶i lµ mét c©y ph©n cÊp tæng qu¸t,

v× khi ghÐp côm nã chØ ghÐp 2 côm cã ®é t­¬ng tù nhau lµ lín nhÊt.

NhËn xÐt vÒ mét sè ®é ®o

Víi ph©n côm dùa trªn ®é ®o single-link, kho¶ng c¸ch gi÷a 2 côm ®­îc

tÝnh chÝnh lµ kho¶ng c¸ch lín nhÊt gi÷a hai phÇn tö d÷ liÖu n»m trong 2 côm

(h×nh 5.4 a). Do ®ã khi dïng ®é ®o nµy ®Ó quyÕt ®Þnh ghÐp 2 côm l¹i víi nhau

mang tÝnh côc bé. V× khi ghÐp côm chóng ta chØ quan t©m ®Õn nh÷ng vïng d÷

liÖu mµ ë ®ã cã phÇn tö cña 2 côm gÇn nhau nhÊt, mµ kh«ng cÇn quan t©m ®Õn

c¸c phÇn tö kh¸c trong côm còng nh­ cÊu tróc tæng thÓ cña c¸c côm. §iÒu nµy

sÏ lµm cho chÊt l­îng ph©n côm cña gi¶i thuËt cã thÓ sÏ kÐm nÕu cã tr­êng hîp

chØ cã duy nhÊt 2 phÇn tö d÷ liÖu ë trong 2 côm lµ gÇn nhau, cßn c¸c phÇn tö d÷

liÖu cßn l¹i trong 2 côm lµ ë rÊt xa nhau.

Víi ph©n côm dùa trªn ®é ®o complete-link, kho¶ng c¸ch cña 2 côm l¹i

®­îc lÊy lµ kho¶ng c¸ch cña 2 phÇn tö d÷ liÖu n»m trong 2 côm cã gi¸ trÞ nhá

nhÊt (h×nh 5.4 b). ViÖc nµy t­¬ng ®­¬ng víi viÖc lùa chän 2 côm ®Ó ghÐp l¹i sÏ

t¹o ra côm míi cã ®­êng kÝnh nhá nhÊt. §iÒu kiÖn lùa chän dïng ®Ó ghÐp 2 côm

nµy kh«ng mang tÝnh côc bé, v× cÊu tróc toµn côc cña c¸c côm ®­îc xem xÐt

trong qu¸ tr×nh quyÕt ®Þnh ghÐp côm. §iÒu kiÖn nµy cã ­u ®iÓm lµ lu«n t¹o ra

c¸c côm “c« ®äng” v× c¸c côm míi ®­îc t¹o ra cã b¸n kÝnh nhá nhÊt. Còng nh­

ph©n côm víi single-link, gi¶i thuËt ph©n côm víi complete-link còng cã thÓ cho

chÊt l­îng kÐm khi cã 2 phÇn tö d÷ liÖu trong 2 côm ë rÊt xa nhau trong khi

träng t©m cña 2 côm nµy l¹i rÊt gÇn nhau, khi ®ã 2 côm nµy cã thÓ kh«ng ®­îc

lùa chän ®Ó ghÐp l¹i víi nhau.

H×nh 5.4 minh häa ph©n côm ph©n cÊp HAC víi ®é ®o single-link (a) vµ ®é

®o complete-link (b) trªn 8 phÇn tö d÷ liÖu {p1, p2, …, p8}. Tõ h×nh minh häa

cho thÊy bèn b­íc ®Çu tiªn cña c¶ 2 gi¶i thuËt ®Òu t¹o ra c¸c côm gièng nhau.

B­íc thø 5, gi¶i thuËt HAC víi single-link sÏ ghÐp 2 côm ë phÝa trªn l¹i víi

nhau, vµ b­íc thø 7 lµ ghÐp 2 côm ë d­íi l¹i. Trong khi ®ã gi¶i thuËt HAC víi

complete-link l¹i ghÐp 2 côm ë phÝa bªn tr¸i ë b­íc thø 6 vµ ghÐp hai côm phÝa

bªn ph¶i l¹i ë b­íc thø 5.

C¶ hai ®é ®o single-link vµ complete-link ®Òu ®¸nh gi¸ kho¶ng c¸ch cña 2

côm dùa trªn mét cÆp phÇn tö d÷ liÖu duy nhÊt, do ®ã gi¶i thuËt ph©n côm sö

dông c¸c ®é ®o nµy ®Òu cã kh¶ n¨ng t¹o ra c¸c côm kh«ng mong muèn (cã chÊt

l­îng kh«ng tèt). H×nh 5.5 a ®­a ra vÝ dô mét tr­êng hîp mµ thuËt to¸n HAC

víi ®é ®o single-link cho kÕt qu¶ kh«ng mong muèn. V× ®iÒu kiÖn ghÐp côm cña

®é ®o nµy lµ mang tÝnh côc bé mµ kh«ng quan t©m ®Õn h×nh d¸ng cña côm ®­îc

t¹o ra.

H×nh 5.4 Ph©n côm víi ®é ®o single-link vµ complete-link

Page 98: KPDL_C1-6 & C10

195 196

(a) single-link (b) complete-link

H×nh 5.5 Tr­êng hîp ghÐp côm kh«ng tèt cña ®é ®o single-link vµo complete-link

Do ®ã nã ®· t¹o ra mét côm cã h×nh nh­ mét chuçi (chain). NÕu ta ®Ó ý th×

cã thÓ nhËn ra t×nh huèng t¹o chuçi víi ®é ®o single-link còng xuÊt hiÖn ngay

trong h×nh 5.4 a. Nh­ng gi¶i thuËt ph©n côm HAC víi ®é ®o complete-link víi

cïng tËp d÷ liÖu nµy l¹i kh«ng t¹o chuçi (h×nh 5.4 b), do ®ã kÕt qu¶ c¸c côm t¹o

ra trong tr­êng hîp nµy lµ tèt h¬n.

Cßn gi¶i thuËt HAC víi ®é ®o complete-link l¹i cã nh­îc ®iÓm kh¸c, ®ã lµ

khi ghÐp côm l¹i víi nhau nã l¹i quan t©m nhiÒu ®Õn tr­êng hîp ngo¹i lÖ cña 2

phÇn tö d÷ liÖu trong 2 côm cã kho¶ng c¸ch nhau lµ thÊp nhÊt mµ kh«ng quan

t©m ®Õn c¸c phÇn tö d÷ liÖu cßn l¹i trong côm, hay cÊu tróc toµn côc cña c¸c

côm. Do ®ã nã cã thÓ t¹o ra c¸c côm kh«ng mong muèn nh­ minh häa trong

h×nh 5.5 b. Mét c¸ch trùc quan, nÕu ta quan t©m ®Õn cÊu tróc cña d÷ liÖu th× kÕt

qu¶ ph©n côm ë møc gÇn gèc nªn lµ 2 côm {p1} vµ {p2, p3, p4, p5}, th× tèt h¬n

nhiÒu so víi 2 côm {p1, p2} vµ {p3, p4, p5}.

§é ®o group-average tÝnh to¸n kho¶ng c¸ch cña 2 côm dùa trªn kho¶ng

c¸ch cña toµn bé c¸c cÆp phÇn tö d÷ liÖu trong 2 côm chø kh«ng chØ dùa trªn

mét cÆp phÇn tö d÷ liÖu duy nhÊt. Do ®ã nã tr¸nh ®­îc c¸c tr­êng hîp kh«ng

mong muèn nh­ 2 ®é ®o võa th¶o luËn ë trªn.

§é ®o dùa vµo träng t©m còng cã ®Æc ®iÓm lµ kh«ng dùa trªn mét cÆp phÇn

tö d÷ liÖu ®Ó quyÕt ®Þnh kho¶ng c¸ch cña 2 côm. ë ®©y nã gi¸ trÞ cña kho¶ng

c¸ch gi÷a 2 côm chÝnh lµ kho¶ng c¸ch cña träng t©m cña 2 côm. §é ®o nµy

tr¸nh ®­îc mét sè nh­îc ®iÓm cña ®é ®o single-link vµ complete-link, tuy nhiªn

nã còng cã nh­îc ®iÓm lµ kho¶ng c¸ch tõ d­íi lªn trªn c©y ph©n cÊp cã thÓ lµ

kh«ng gi¶m dÇn (do träng t©m cña c¸c côm ë møc cao cã thÓ ë gÇn nhau h¬n so

víi c¸c côm ë møc d­íi. §iÒu nµy tr¸i ng­îc víi gi¶ thiÕt c¬ b¶n lµ c¸c côm nhá

th­êng cã ®é kÕt dÝnh (coherent) cao h¬n c¸c côm cã kÝch th­íc lín h¬n.

5.4.2 C¸c thuËt ph©n côm ph©n cÊp BIRCH

Gi¶i thuËt ph©n côm ph©n cÊp tiÕp theo lµ BIRCH ®­îc viÕt t¾t tõ côm tõ

Balanced Iterative Reducing Clustering Using Hierarchies. BIRCH ®­îc thiÕt kÕ

®Ó gi¶i quyÕt c¸c bµi to¸n cã sè l­îng d÷ liÖu lín b»ng c¸ch kÕt hîp ph©n côm

ph©n cÊp trong b­íc ph©n côm vi m« (micorclustering stage), víi c¸c ph­¬ng

ph¸p ph©n côm kh¸c (ch¼ng h¹n ph©n côm ph¼ng trong b­íc ph©n côm vÜ m«

(macroclustering stage). Nã gi¶i quyÕt ®­îc nh­îc ®iÓm cña c¸c ph­¬ng ph¸p

ph©n côm ph©n cÊp lµ: (1) tÝnh kh¶ cì (scalability) – kh¶ n¨ng lµm viÖc víi mét

tËp d÷ liÖu rÊt lín; vµ (2) kh¶ n¨ng kh«ng thay ®æi ®­îc khi ®· g¸n mét phÇn tö

d÷ liÖu vµo mét côm.

Cã 2 kh¸i niÖm (hay 2 cÊu tróc d÷ liÖu) ®­îc ®Ò cËp trong gi¶i thuËt

BIRCH lµ ®Æc tr­ng ph©n côm (clustering feature) ký hiÖu lµ CF; vµ c©y ®Æc

tr­ng ph©n côm (clustering feature tree) ký hiÖu lµ CF tree. ViÖc ®Ò xuÊt ra hai

cÊu tróc d÷ liÖu nµy ®· lµm cho gi¶i thuËt BIRCH cã tèc ®é kh¸ nhanh vµ cã thÓ

xö lý ®­îc mét l­îng d÷ liÖu lín vµ ®Æc biÖt lµ nã t¹o kh¶ n¨ng ph©n côm c¸c d÷

liÖu ph¸t sinh (thªm míi) mét c¸ch ®¬n gi¶n mµ kh«ng cÇn ph¶i ph©n côm l¹i

toµn bé tËp d÷ liÖu. Nãi mét c¸ch kh¸c nã cã kh¶ n¨ng xö lý d÷ liÖu mét c¸ch

gia t¨ng (incremental). Cho mét tËp n phÇn tö d÷ liÖu trong mét côm, khi ®ã

träng t©m cña côm x0, b¸n kÝnh R vµ ®­êng kÝnh D ®­îc ®Þnh nghÜa nh­ sau:

n

x

x

n

ii

10 ,

n

xx

R

n

ii

1

20 )(

vµ )1(

)(1 1

2

nn

xx

D

n

i

n

jji

(5.14)

trong ®ã xi lµ mét phÇn tö d÷ liÖu trong côm; R lµ kho¶ng c¸ch trung b×nh

tõ c¸c phÇn tö d÷ liÖu ®Õn träng t©m cña côm; D lµ kho¶ng c¸ch trung b×nh cña

Page 99: KPDL_C1-6 & C10

197 198

tÊt c¶ c¸c cÆp phÇn tö d÷ liÖu trong cïng mét côm. Hai gi¸ trÞ R vµ D thÓ hiÖn ®é

co côm (tightness) cña c¸c phÇn tö d÷ liÖu quanh träng t©m cña nã. §Æc tr­ng

ph©n côm CF lµ mét bé ba chøa th«ng tin tãm t¾t vÒ mét côm. Cho mét tËp n

phÇn tö d÷ liÖu {xi} trong mét côm, khi ®ã gi¸ trÞ CF cña côm ®­îc ®Þnh nghÜa

nh­ sau:

SSLSnCF ,, ,

n

i ixLS1

n

i ixSS1

2 (5.15)

trong ®ã n lµ sè l­îng c¸c phÇn tö trong côm; LS lµ tæng tuyÕn tÝnh cña n

phÇn tö d÷ liÖu vµ SS lµ tæng b×nh ph­¬ng c¸c phÇn tö trong côm.

VÝ dô, côm d÷ liÖu C1 cã 3 phÇn tö d÷ liÖu {(2,5), (3,2), (4,3)} th× ®Æc tr­ng

ph©n côm cña nã lµ CF1 = <3, (2+3+4, 5+2+3), (22+32+42, 52+22+32)> = <3,

(9,10), (29,38)>

B¶n chÊt cña CF lµ chøa th«ng tin thèng kª cña mét côm. Mét ®Æc ®iÓm

quan träng cña CF lµ nã cã tÝnh céng dån (additive). Gi¶ sö chóng ta cã 2 côm

kh«ng giao nhau C1 vµ C2 cã gi¸ trÞ ®Æc tr­ng ph©n côm t­¬ng øng lµ CF1 vµ

CF2, nÕu ta gép 2 côm nµy thµnh mét côm lín h¬n th× ®Æc tr­ng ph©n côm cña

côm ®­îc t¹o ra sÏ chÝnh b»ng CF1+CF2 (chø ta kh«ng ph¶i tÝnh l¹i gi¸ trÞ CF

cho côm míi t¹o thµnh dùa trªn c¸c phÇn tö d÷ liÖu cña nã). §©y lµ ®Æc ®iÓm

cùc kú quan träng nã cho phÐp BIRCH kh«ng cÇn l­u c¸c phÇn tö d÷ liÖu cña

tõng côm mµ vÉn tÝnh to¸n ra ®­îc c¸c ®é ®o cÇn thiÕt.

VÝ dô, gi¶ sö ®Æc tr­ng ph©n côm cña côm C2 lµ CF2=<3, (35, 36), (417,

440)>, nÕu ta ghÐp côm C1 vµ C2 thµnh côm C3, khi ®ã ®Æc tr­ng ph©n côm cña

C3 sÏ lµ:

CF3 = <3+3, (9+35, 10+36), (29+417, 38+440)> = <6, (44, 46), (446,

478)>

Gi¶i thuËt ph©n côm BIRCH chØ cÇn dïng ®Æc tr­ng ph©n côm ®Ó tÝnh to¸n

c¸c ®é ®o cÇn thiÕt cho viÖc quyÕt ®Þnh ph©n côm d÷ liÖu. Nãi mét c¸ch kh¸c,

BIRCH kh«ng cÇn l­u chi tiÕt tõng phÇn tö d÷ liÖu ®Çu vµo, do ®ã nã sö dông rÊt

Ýt bé nhí so víi c¸c gi¶i thuËt ph©n côm ë trªn.

CÊu tróc d÷ liÖu tiÕp theo lµ c©y ®Æc tr­ng ph©n côm, nã lµ mét c©y c©n

b»ng (height-balanced tree) chøa c¸c ®Æc tr­ng ph©n côm. Mçi nót (kh«ng ph¶i

lµ nót lµ) cña c©y sÏ cã c¸c nót con, vµ gi¸ trÞ CF cña nã sÏ ®­îc tÝnh b»ng tæng

c¸c gi¸ trÞ ®Æc tr­ng ph©n côm cña c¸c nót con cña nã. Chóng ta cã thÓ thÊy c©y

nµy còng chøa lu«n c¸c côm hay nã chÝnh lµ c©y ph©n côm ph©n cÊp. Ngoµi ra

mçi mét c©y ®Æc tr­ng ph©n côm cßn cã thªm 2 tham sè: (1) hÖ sè ph©n nh¸nh

(branching factor) B vµ (2) mét ng­ìng T. HÖ sè rÏ nh¸nh x¸c ®Þnh sè l­îng con

tèi ®a mµ mét nót (kh«ng ph¶i lµ nót l¸) cã thÓ cã. Ng­ìng T x¸c ®Þnh ®­êng

kÝnh tèi ®a cña c¸c côm t¹i c¸c nót l¸. Hai tham sè nµy sÏ ¶nh h­ëng lín ®Õn

kÝch th­íc cña c©y ph©n côm ph©n cÊp ®Çu ra. NÕu ng­ìng T lín th× sè l­îng

côm sÏ gi¶m vµ kÝch th­íc c©y sÏ nhá vµ ng­îc l¹i.

H×nh 5.6 Minh häa mét c©y ®Æc tr­ng ph©n côm

BIRCH sÏ cè g¾ng t¹o ra mét tËp c¸c côm tèt nhÊt dùa vµo tµi nguyªn h÷u

h¹n bé nhí vµ lµm gi¶m thiÓu c¸c thao t¸c vµo ra. BIRCH sö dông kü thuËt ph©n

côm nhiÒu pha (multiphase), cô thÓ nã cã 2 pha chÝnh sau:

Pha 1: BIRCH duyÖt toµn bé d÷ liÖu ®Ó x©y dùng c©y ®Æc tr­ng ph©n

côm CF tree ban ®Çu. Qu¸ tr×nh nµy cã thÓ ®­îc coi lµ b­íc nÐn d÷ liÖu

ë nhiÒu møc nh­ng vÉn gi÷ tÝnh chÊt ph©n bè thµnh côm cña d÷ liÖu.

Pha nµy ®­îc gäi lµ pha ph©n côm vi m« (microclustering), nã t¹o ra

c¸c vi côm (microcluster) lµ c¸c nót l¸.

Pha 2: BIRCH ¸p dông gi¶i thuËt ph©n côm t¹i c¸c nót l¸ cña c©y CF

tree, c¸c côm cã cÊu tróc th­a sÏ bÞ coi lµ ngo¹i lÖ vµ bÞ bá ®i, c¸c côm

Page 100: KPDL_C1-6 & C10

199 200

cã mËt ®é dµy sÏ ®­îc ghÐp víi nhau t¹o thµnh côm lín h¬n. Pha nµy

cßn ®­îc gäi lµ pha ph©n côm vÜ m« (macroclustering), nã xö lý trªn

toµn c©y CF tree.

T¹i pha 1, c©y CF tree ®­îc x©y dùng ®éng, c¸c phÇn tö d÷ liÖu sÏ ®­îc lÇn

l­ît chÌn vµo nót l¸ gÇn nã nhÊt. Qu¸ tr×nh nµy ta thÊy gi¶i thuËt ho¹t ®éng theo

c¬ chÕ gia t¨ng (incremental). NÕu nót l¸ sau khi chÌn thªm d÷ liÖu cã ®­êng

kÝnh lín h¬n ng­ìng T, th× nót l¸ ®ã sÏ bÞ chia thµnh c¸c côm nhá h¬n, hay mét

nót l¸ míi sÏ ®­îc t¹o ra. Sau khi thùc hiÖn xong thao t¸c chÌn mét phÇn tö d÷

liÖu, th«ng tin vÒ nã sÏ ®­îc cËp nhËt ng­îc lªn cho ®Õn tËn nót gèc. Qu¸ tr×nh

nµy l¹i cho ta thÊy khi cã d÷ liÖu míi th× c©y CF tree sÏ ®­îc cËp nhËt chø

kh«ng ph¶i x©y dùng l¹i tõ ®Çu. Chó ý r»ng tham sè ng­ìng T cã ¶nh h­ëng ®Õn

kÝch th­íc cña c©y CF tree, do ®ã trong tr­êng hîp kÝch th­íc cña c©y CF tree

lín h¬n kÝch th­íc bé nhí trong th× ta cã thÓ ®iÒu chØnh l¹i gi¸ trÞ ng­ìng T nµy

(chän gi¸ trÞ lín h¬n gi¸ trÞ hiÖn t¹i cña T), sau ®ã x©y dùng l¹i c©y. Qu¸ tr×nh

x©y dùng l¹i c©y ®­îc thùc hiÖn tõ c¸c nót l¸ cña c©y cò, do ®ã ta kh«ng cÇn

ph¶i ®äc l¹i d÷ liÖu. Lý do cña viÖc ta cã thÓ x©y dùng l¹i c©y míi tõ c©y cò lµ: ë

c©y míi cã ng­ìng T lín h¬n, nªn kÝch th­íc cña mét côm sÏ to h¬n, dÉn ®Õn

viÖc t¹o c©y míi chØ cÇn thao t¸c gép c¸c côm l¹i víi nhau. Qu¸ tr×nh nµy còng

cã thÓ so s¸nh víi qu¸ tr×nh thªm mét nót vµ ph©n chia mét nót trong gi¶i thuËt

x©y dùng c©y B+. Nh­ vËy chóng ta chØ cÇn mét lÇn ®äc toµn bé d÷ liÖu ®Ó x©y

dùng c©y CF tree. §©y lµ gi¶i ph¸p cho phÐp gi¶i thuËt ho¹t ®éng ®­îc trong

®iÒu kiÖn bé nhí trong lµ h÷u h¹n ®ång thêi vÉn h¹n chÕ ®­îc sè l­îng c¸c thao

t¸c vµo ra. Mét sè ph­¬ng ph¸p ®­îc giíi thiÖu ®Ó lo¹i bá c¸c d÷ liÖu ngo¹i lÖ,

khi ®ã ta cã thÓ cÇn ph¶i duyÖt d÷ liÖu mét lÇn n÷a. Chóng ta chó ý r»ng cã 2

tr­êng hîp d÷ liÖu cã thÓ ®­îc g¸n l¹i: chia nhá mét nót l¸ thµnh c¸c nót con

hoÆc x©y dùng l¹i c©y. §©y lµ mét trong nh÷ng ­u ®iÓm cña BIRCH, nã kh¾c

phôc ®­îc ®Æc ®iÓm lµ sau khi ph©n d÷ liÖu vµo mét côm th× ta kh«ng thÓ ph©n

l¹i nã ®­îc cña gi¶i thuËt HAC ®­îc tr×nh bµy ë trªn.

Sau khi ta ®· x©y dùng ®­îc c©y, th× ta cã thÓ sö dông bÊt kú gi¶i thuËt

ph©n côm ph©n cÊp nµo ®Ó xö lý d÷ liÖu trªn c©y CF tree. Mét trong nh÷ng gi¶i

thuËt ta cã thÓ sö dông ®­îc lµ gi¶i thuËt HAC.

§é phøc t¹p cña thuËt to¸n khi x©y dùng c©y lµ O(n), thùc nghiÖm ®· cho

thÊy BIRCH cho kÕt qu¶ ph©n côm cã chÊt l­îng kh¸ tèt vµ thêi gian xö lý

nhanh. Tuy nhiªn BIRCH còng gÆp ph¶i nh­îc ®iÓm gièng c¸c gi¶i thuËt ph©n

côm dùa vµo ®é ®o kho¶ng c¸ch. §ã lµ nÕu c¸c côm kh«ng ®­îc ph©n bè theo

h×nh cÇu th× kÕt qu¶ ph©n côm cña BIRCH lµ kh«ng tèt. H¬n n÷a v× sè l­îng c¸c

côm trong c©y CF tree lµ h÷u h¹n (do h¹n chÕ vÒ bé nhí) nªn cã thÓ kÕt qu¶

ph©n côm cña nã sÏ kh«ng ph¶n ¸nh ®óng ph©n bè tù nhiªn cña c¸c côm.

5.4.3 ThuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng DIANA

Theo c¸c nghiªn cøu ®­îc c«ng bè, kü thuËt ph©n côm tõ d­íi lªn (bottom-

up) ®­îc sö dông trùc tiÕp tèn thêi gian víi ®é phøc t¹p lµ O(n2) vµ kh«ng thÝch

hîp cho c¸c tËp d÷ liÖu lín. NÕu coi nh­ ®Æt tr­íc sè côm lµ k, kü thuËt ph©n

ho¹ch tõ trªn xuèng (top-down) th­êng ®­îc sö dông v× hiÖu qu¶ h¬n. Mét kü

thuËt ®i theo h­íng nµy lµ sö dông thuËt to¸n k-means. ThuËt to¸n b¾t ®Çu tõ

®Ønh cña c©y víi chØ cã mét côm lµ toµn bé c¸c phÇn tö d÷ liÖu. Côm nµy sÏ

®­îc ph©n chia ra thµnh c¸c côm nhá h¬n sö dông thuËt to¸n ph©n côm ph¼ng

(ch¼ng h¹n nh­ k-means). Víi c¸c côm nhá ta l¹i ¸p dông ®Ö quy thuËt to¸n

ph©n côm ph¼ng. VÒ lý thuyÕt th× thuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng

phøc t¹p h¬n so víi ph­¬ng ph¸p ph©n côm tõ d­íi lªn v× chóng ta gäi gi¶i thuËt

ph©n côm ph¼ng (nh­ lµ mét thñ tôc) nhiÒu lÇn. Tuy nhiªn nã cã ­u ®iÓm trong

tr­êng hîp chóng ta kh«ng cÇn thiÕt ph¶i sinh ra mét c©y ph©n cÊp hoµn chØnh

(c©y cã c¸c côm ë nót l¸ chØ chøa ®óng mét phÇn tö d÷ liÖu). Khi giíi h¹n sè

l­îng møc (level) cña c©y ph©n cÊp, vµ kÕt hîp sö dông gi¶i thuËt ph©n côm

ph¼ng k-means, thuËt to¸n ph©n côm ph©n cÊp tõ trªn xuèng cã ®é phøc t¹p gÇn

nh­ lµ tuyÕn tÝnh víi sè l­îng c¸c phÇn tö d÷ liÖu vµ sè l­îng c¸c côm. Do ®ã

thuËt to¸n ph©n côm tõ trªn xuèng sÏ ch¹y nhanh h¬n so víi thuËt to¸n ph©n

côm tõ d­íi lªn HAC.

Gi¶i thuËt ph©n côm tõ trªn xuèng cßn ®­îc chøng minh lµ cã ®é chÝnh x¸c

cao h¬n so víi c¸c gi¶i thuËt ph©n côm tõ d­íi lªn nh­ HAC trong mét sè tr­êng

hîp. Lý do lµ gi¶i thuËt ph©n côm tõ d­íi lªn ®­a ra quyÕt ®Þnh ghÐp c¸c côm l¹i

víi nhau chØ sö dông c¸c th«ng tin côc bé (ë c¸c côm) mµ kh«ng thÓ dùa trªn

Page 101: KPDL_C1-6 & C10

201 202

th«ng tin toµn côc (toµn bé tËp d÷ liÖu). Vµ c¸c côm sau khi ghÐp råi th× kh«ng

thÓ t¸ch ra ®Ó ghÐp víi c¸c côm kh¸c. Ng­îc l¹i c¸c gi¶i thuËt ph©n côm tõ trªn

xuèng ngay tõ ®Çu ®· khai th¸c ®­îc th«ng tin toµn côc (ph©n bè toµn côc cña

tËp d÷ liÖu) khi quyÕt ®Þnh ph©n d÷ liÖu ®ang xÐt thµnh c¸c côm nhá h¬n.

§Ó minh häa râ h¬n c¸ch lµm viÖc cña gi¶i thuËt ph©n côm tõ trªn xuèng,

môc nµy sÏ tr×nh bµy chi tiÕt gi¶i thuËt DIANA (viÕt t¾t tõ côm tõ DIvisive

ANAlysis). Gi¶i thuËt nµy cã c¸ch ho¹t ®éng rÊt gièng víi gi¶i thuËt HAC, tuy

nhiªn ®iÓm kh¸c biÖt lµ nã ho¹t ®éng tõ trªn xuèng. Chi tiÕt vÒ thuËt to¸n ®­îc

m« t¶ nh­ sau:

§Çu vµo: tËp D gåm n phÇn tö d÷ liÖu {x1, x2, …, xn}

§Çu ra: c©y ph©n côm ph©n cÊp

ThuËt to¸n DIANA

B­íc khëi t¹o: t¹o côm ban ®Çu gåm toµn bé tËp d÷ liÖu D {x1, x2, …, xn}

ë c¸c vßng lÆp sau, côm lín nhÊt sÏ ®­îc chän ®Ó chia thµnh 2 côm nhá

h¬n. Qu¸ tr×nh nµy lÆp l¹i cho ®Õn khi mçi côm chØ chøa 1 phÇn tö d÷ liÖu (qu¸

tr×nh nµy sÏ ®­îc thùc hiÖn trong n-1 b­íc), hoÆc tháa m·n 1 ®iÒu kiÖn dõng nµo

®ã. Chó ý r»ng, gi¶ sö mét côm cã n phÇn tö th× chóng ta cã tæ hîp 2n-1 -1 c¸ch

®Ó chia côm nµy thµnh 2 côm con. §©y lµ mét tæ hîp rÊt lín, do ®ã ®Ó gi¶m ®é

phøc t¹p (tr¸nh ph¶i xÐt toµn bé tæ hîp), gi¶i thuËt DIANA sö dông ph­¬ng ph¸p

chia côm nh­ sau:

B­íc chia côm:

1. Víi côm ®ang ®­îc chän ®Ó chia, t×m phÇn tö d÷ liÖu kh¸c biÖt h¼n víi

c¸c phÇn tö cßn l¹i trong côm. T¹o mét côm míi chøa phÇn tö kh¸c biÖt

nµy, gäi lµ côm kh¸c biÖt (splinter group) S.

2. Víi tõng phÇn tö d÷ liÖu xi kh«ng thuéc vµo tËp S (xi S), tÝnh gi¸ trÞ di

lµ hiÖu cña trung b×nh kho¶ng c¸ch gi÷a xi víi c¸c phÇn tö kh«ng thuéc

S víi trung b×nh kho¶ng c¸ch gi÷a xi víi c¸c phÇn tö thuéc S:

2.1. )||()||(

Sx

jiSx

jii

jj

xxaveragexxaveraged (5.16)

2.2. T×m phÇn tö d÷ liÖu xh sao cho dh cã gi¸ trÞ lín nhÊt. NÕu dh >0

th× thªm xh vµo tËp S. §iÒu nµy cã nghÜa lµ t×m phÇn tö gÇn víi

côm S h¬n so víi phÇn cßn l¹i ®Ó thªm vµo trong S.

3. LÆp l¹i b­íc 2 cho ®Õn khi kh«ng cßn phÇn tö nµo cã di >0. T¹i thêi

®iÓm nµy th× côm ®· ®­îc chia thµnh 2 côm con.

4. Chän côm cã ®­êng kÝnh d lín nhÊt )1(

)(1 1

2

mm

xx

d

m

i

m

jji

, trong

®ã m lµ sè l­îng c¸c phÇn tö trong côm. LÆp l¹i c¸c b­íc 1 ®Õn 3 ®Ó

chia côm nµy thµnh 2 côm nhá h¬n

5. LÆp l¹i b­íc 4 cho ®Õn khi mçi côm chØ chøa mét phÇn tö d÷ liÖu hay

mét ®iÒu kiÖn dõng nµo ®ã x¶y ra. Mét vÝ dô vÒ ®iÓu kiÖn dõng lµ tæng

sè l­îng côm ®· t¹o ra v­ît mét ng­ìng k nµo ®ã.

So s¸nh víi gi¶i thuËt HAC th× gi¶i thuËt DIANA cã ®iÓm gièng lµ t¹i mçi

b­íc nã chØ t¸ch mét côm ra lµm 2 côm nhá h¬n (gi¶i thuËt HAC th× mçi b­íc

chØ gép 2 côm thµnh 1 côm lín h¬n. Do ®ã c©y kÕt qu¶ ®Çu ra cña 2 gi¶i thuËt

®Òu cã d¹ng c©y nhÞ ph©n.

5.4.4 ThuËt to¸n ph©n côm ph©n cÊp ROCK

ViÖc ph©n côm dùa vµo kho¶ng c¸ch (hay ®é t­¬ng tù) lµ cã mét sè nh­îc

®iÓm nh­ ®· tr×nh bµy trong môc 5.3.1 khi nhËn xÐt vÒ mét sè ®é ®o. §Æc biÖt lµ

khi chóng ta ph©n côm d÷ liÖu ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi r¹c (hay b»ng

m« h×nh boolean) th× thùc nghiÖm ®· chøng minh ®­îc r»ng c¸c ®é ®o kho¶ng

c¸ch cho c¸c côm cã chÊt l­îng kh«ng cao. §Ó minh häa cho tr­êng hîp nµy ta

xem mét vÝ dô sau: gi¶ sö trong mét siªu thÞ cã 5 mÆt hµng a, b, c, d, e, f vµ c¬

së d÷ liÖu biÓu diÔn c¸c giao dÞch (giá mua hµng) ®­îc biÓu diÔn d­íi d¹ng rêi

r¹c 1(hay true) hoÆc 0 (hay false) thÓ hiÖn c¸c mÆt hµng cã ®­îc mua hay

kh«ng. XÐt 3 giao dÞch A=(1, 0, 0, 0, 0), B=(0, 0, 0, 0, 1) vµ C = (1, 1, 1, 1, 0).

Page 102: KPDL_C1-6 & C10

203 204

NÕu dïng ®é ®o kho¶ng c¸ch

n

i ii ppppd1

2)'(|'| (trong ®ã n lµ

sè chiÒu cña vector biÓu diÔn d÷ liÖu) ®Ó ph©n côm th× 2|=-| BA ,

3|=-| CA vµ 5|=-| CB . Dùa vµo c¸c gi¸ trÞ nµy th× hai giao dÞch A vµ

B (cã kho¶ng c¸ch nhá nhÊt) lµ ®­îc gép vµo thµnh 1 côm, ®©y lµ tr­êng hîp

gép sai v× A vµ B kh«ng hÒ cã chung mét mÆt hµng nµo, chØ cã A vµ C míi cã

chung mÆt hµng a.

Gi¶i thuËt cã tªn lµ ROCK (viÕt t¾t tõ côm tõ RObust Clustering using

linKs) ®· ®­îc ®Ò xuÊt ®Ó xö lý d÷ liÖu rêi r¹c. ROCK lµ mét gi¶i thuËt ph©n

côm ph©n cÊp, nã khai th¸c kh¸i niÖm liªn kÕt (link) ®Ó thùc hiÖn qu¸ tr×nh ph©n

côm. ë ®©y, mét liªn kÕt lµ mét phÇn tö l¸ng giÒng chung (common neighbor)

gi÷a mét cÆp 2 phÇn tö d÷ liÖu. NÕu mét cÆp phÇn tö d÷ liÖu t­¬ng tù nhau vµ

chóng l¹i cã chung mét sè l­îng lín c¸c phÇn tö l¸ng giÒng th× nã cã kh¶ n¨ng

cïng thuéc vÒ mét côm, do ®ã ta cã thÓ gép chóng l¹i víi nhau vµo cïng 1 côm.

§©y lµ ®iÓm kh¸c biÖt lín gi÷a gi¶i thuËt ph©n côm dùa trªn kho¶ng c¸ch (hay

®é t­¬ng ®ång) víi ROCK. Khi dùa trªn kho¶ng c¸ch (hay ®é t­¬ng ®ång) ®Ó

phôc vô cho quyÕt ®Þnh ph©n côm, ta chØ sö dông th«ng tin tõ chÝnh phÇn tö d÷

liÖu ®ã (th«ng tin côc bé). Cßn ROCK cã sö dông th«ng tin mang tÝnh toµn côc

h¬n v× nã cã quan t©m ®Õn c¸c phÇn tö l¸ng giÒng. Tuy nhiªn kh«ng ph¶i phÇn tö

nµo còng cã thÓ lµ phÇn tö l¸ng giÒng cña mét phÇn tö d÷ liÖu cô thÓ nµo ®ã.

PhÇn tö d÷ liÖu pi ®­îc gäi lµ l¸ng giÒng cña pj nÕu sim( pi , pj ) > , trong ®ã

sim( pi , pj ) lµ hµm ®o ®é t­¬ng tù gi÷a 2 phÇn tö vµ lµ mét ng­ìng cho tr­íc.

Hµm sim( pi , pj ) cã thÓ chän lµ hµm dùa trªn kho¶ng c¸ch hay cã thÓ lµ mét

hµm cung cÊp bëi chuyªn gia trong lÜnh vùc cô thÓ miÔn lµ ®¶m b¶o thuéc tÝnh:

hµm sim( pi , pj ) nµy cã gi¸ trÞ lín th× cÆp ( pi , pj ) cµng t­¬ng tù nhau, vµ gi¸ trÞ

cña hµm sim( pi , pj ) ph¶i ®­îc chuÈn hãa n»m trong kho¶ng [0, 1]. Khi sim( pi ,

pj )=1 th× pi trïng víi pj vµ khi sim( pi , pj )=0 th× pi hoµn toµn kh¸c pj.

H×nh 5.7 Minh häa kh¸i niÖm liªn kÕt trong ROCK

NÕu biÓu diÔn mçi phÇn tö d÷ lµ mét ®Ønh, c¸c phÇn tö lµ l¸ng giÒng cña

nhau ®­îc nèi víi nhau b»ng 1 c¹nh, khi ®ã ta cã thÓ biÓu diÔn tËp d÷ liÖu ®Çu

vµo d­íi d¹ng mét ®å thÞ nh­ minh häa trªn h×nh 5.7. Khi ®ã mét liªn kÕt gi÷a 2

phÇn tö d÷ liÖu lµ mét ®­êng ®i cã chiÒu dµi lµ 2 (trong ®å thÞ) tõ ®Ønh m« t¶

phÇn tö nµy sang ®Ønh m« t¶ phÇn tö kia. VÝ dô trong h×nh 5.7 sè l­îng liªn kÕt

gi÷a 2 ®Ønh A vµ B lµ 2.

Mét vÝ dô vÒ c¸c giá mua hµng (market basket) trong siªu thÞ ®Ó minh häa

hiÖu n¨ng cña gi¶i thuËt ROCK so víi gi¶i thuËt ph©n côm dùa trªn ®é t­¬ng tù

trªn d÷ liÖu rêi r¹c ta t×m hiÓu mét bµi to¸n cô thÓ sau. Gi¶ sö mét siªu thÞ cã c¸c

mÆt hµng a, b, c, …, g. C¸c giao dÞch ®· ®­îc ph©n thµnh 2 côm cã chÊt l­îng

cao lµ C1 vµ C2, trong ®ã côm C1 chøa c¸c giao dÞch {a, b, c}, {a, b, d}, {a, b, e},

{a, c, d}, {a, c, e}, {a, d, e}, {b, c, d}, {b, c, e}, {b, d, e}, vµ {c, d, e}. Nh­ vËy

côm C1 cã chøa c¸c mÆt hµng a, b, c, d, e. Côm C2 chøa c¸c giao dÞch {a, b, f},

{a, b, g}, {a, f, g}, vµ {b, f, g}. Nh­ vËy côm C2 chøa c¸c mÆt hµng a, b, f, g.

§Ó ®o ®é t­¬ng tù gi÷a c¸c phÇn tö d÷ liÖu ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi

r¹c ta cã thÓ sö dông hÖ sè Jaccard (Jaccard efficient) ®­îc tÝnh b»ng c«ng thøc

sau:

ji

ji

jiTT

TTTTsim

||),( (5.17)

Ban ®Çu ta gi¶ sö chØ sö dông ®é ®o t­¬ng tù ®Ó ph©n côm, khi ®ã hÖ sè

Jaccard gi÷a hai giao dÞch {a, b, c} vµ {b, d, e} n»m trong côm C1 lµ:

5

1

|},,,,{|

|}{|

|},,{},,{|

|},,{},,{|

edcba

b

edbcba

edbcba

Page 103: KPDL_C1-6 & C10

205 206

NÕu ta tÝnh cho tõng cÆp giao dÞch trong C1 th× sÏ thÊy hÖ sè Jaccard cña

chóng sÏ n»m trong kho¶ng tõ 1/5 ®Õn 1/2 (vÝ dô tr­êng hîp hÖ sè Jaccard=1/2

lµ cÆp giao dÞch {a, b, c} vµ {a, b, d}). §Æc biÖt lµ nÕu so s¸nh c¸c cÆp giao dÞch

gi÷a côm C1 vµ C2 th× còng cã tr­êng hîp ta thu ®­îc hÖ sè Jaccard lµ 1/2, ch¼ng

h¹n nh­ giao dÞch {a, b, c} cña côm C1 víi giao dÞch {a, b, f} hay {a, b, g} cña

côm C2. §iÒu nµy chøng tá r»ng nÕu sö dông ®é ®o t­¬ng tù th× kh«ng thÓ t¹o ra

®­îc 2 côm C1 vµ C2 nh­ trªn.

B©y giê nÕu ta sö dông kh¸i niÖm liªn kÕt vµ kh¸i niÖm phÇn tö l¸ng giÒng

trong gi¶i thuËt ROCK. Hai phÇn tö d÷ liÖu pi vµ pj lµ l¸ng giÒng cña nhau nÕu

tháa m·n ®iÒu kiÖn sim( pi , pj ) > . Trong tr­êng hîp nµy gi¶ sö ng­ìng lµ

0.5, xÐt hai giao dÞch {a, b, f} vµ {a, b, g}trong côm C2, ta dÔ dµng nhËn ra ®­îc

giao dÞch {a, b, f} cã tËp c¸c l¸ng giÒng lµ:

{ {a, b, c}, {a, b, d}, {a, b, e}, {a, b, g}, {a, f, g}, {b, f, g}}

Giao dÞch {a, b, g} cã c¸c l¸ng giÒng lµ:

{ {a, b, c}, {a, b, d}, {a, b, e}, {a, b, f}, {a, f, g}, {b, f, g}}

Do ®ã, cÆp hai giao dÞch {a, b, f} vµ {a, b, g} cã chung c¸c l¸ng giÒng:

{ {a, b, c}, {a, b, d}, {a, b, e}, {a, f, g}, {b, f, g}}

Hay sè l­îng liªn kÕt gi÷a 2 giao dÞch nµy lµ 5, nh­ vËy ta cã thÓ kÕt luËn

lµ 2 giao dÞch nµy thuéc vÒ cïng mét côm. T­¬ng tù cho c¸c giao dÞch cßn l¹i

trong C2 ta còng dÔ dµng nhËn ra chóng ®Òu cã chung c¸c l¸ng giÒng. NÕu so

s¸nh c¸c cÆp giao dÞch gi÷a 2 côm C1 vµ C2 th× ta sÏ thÊy sè l­îng c¸c liªn kÕt

gi÷a chóng lµ nhá. VÝ dô xÐt cÆp giao dÞch {a, b, f} trong côm C2 vµ {a, b, c}

trong côm C1. Giao dÞch {a, b, c} cã c¸c l¸ng giÒng { {a, b, d}, {a, b, e}, {a, b,

f}, {a, b, g} }. CÆp giao dÞch nµy cã c¸c l¸ng giÒng chung lµ: { {a, b, d}, {a, b,

e}, {a, b, g}}, hay sè l­îng liªn kÕt gi÷a cÆp giao dÞch nµy lµ 3 nhá h¬n sè l­îng

liªn kÕt gi÷a cÆp giao dÞch {a, b, f} vµ {a, b, g} do ®ã nã kh«ng ®­îc ph©n vµo

trong cïm mét côm víi {a, b, f}.

T­¬ng tù giao dÞch {a, f, g} trong côm C2 ®Òu cã 2 liªn kÕt víi c¸c phÇn tö

trong C2 nh­ng nã l¹i kh«ng cã liªn kÕt nµo víi c¸c giao dÞch trong C1. Hay viÖc

ph©n giao dÞch nµy vµo côm C2 lµ hoµn toµn hîp lý.

Dùa trªn kh¸i niÖm liªn kÕt, víi mét ng­ìng (dïng ®Ó x¸c ®Þnh c¸c phÇn

tö l¸ng giÒng), ta ®Þnh nghÜa hµm link(p, p’) lµ sè l­îng liªn kÕt gi÷a 2 phÇn tö

d÷ liÖu p vµ p’. T­¬ng tù gièng c¸c gi¶i thuËt ph©n côm ®· ®­îc giíi thiÖu ë

trªn, ta cÇn cã mét hµm ®Ó ®¸nh gi¸ chÊt l­îng cña c¸c côm kÕt qu¶. Môc tiªu

cña gi¶i thuËt ROCK lµ ph©n d÷ liÖu vµo c¸c côm sao cho sè l­îng liªn kÕt gi÷a

c¸c phÇn tö trong cïng mét côm lµ cao, vµ sè l­îng liªn kÕt gi÷a c¸c phÇn tö

n»m trong c¸c côm kh¸c nhau lµ nhá, do ®ã mét trong nh÷ng hµm ®iÒu kiÖn cã

thÓ dïng lµ:

k

i Cppl

i

pplinkE1 ',

)',( (5.18)

trong ®ã k lµ sè l­îng côm; Ci lµ côm thø i; Tuy nhiªn hµm ®iÒu kiÖn trªn

chØ cã ®¶m b¶o c¸c phÇn tö d÷ liÖu cã sè l­îng liªn kÕt lín sÏ ®­îc ghÐp vµo

mét côm, chø kh«ng cã kh¶ n¨ng ng¨n chÆn viÖc ph©n toµn bé c¸c phÇn tö d÷

liÖu vµo cïng mét côm. Do ®ã hµm ®iÒu kiÖn kh¸c ®· ®­îc ®Ò xuÊt nh­ sau:

k

i Cppf

i

il

in

pplinknE

1 ',)(21

)',(*

(5.19)

trong ®ã ni lµ kÝch th­íc cña côm Ci (sè l­îng phÈn tö d÷ liÖu trong Ci); vµ f()

lµ hµm phô thuéc vµo miÒn d÷ liÖu vµ kiÓu côm ta muèn quan t©m. Víi c«ng

thøc 5.19 ta cã thÓ dÔ dµng nhËn ra khi kÝch th­íc cña côm Ci t¨ng lªn th× mÉu

sè trong c«ng thøc trªn sÏ t¨ng nhanh, do ®ã nã dÉn ®Õn

iCppf

i

ln

pplinkE

',)(21

)',(

sÏ cã gi¸ trÞ nhá. Hay nãi c¸ch kh¸c c«ng thøc 5.19 sÏ

ng¨n ®­îc viÖc gi¶i thuËt cã thÓ g¸n qu¸ nhiÒu phÇn tö d÷ liÖu vµo mét côm.

Trong thùc tÕ viÖc x¸c ®Þnh hµm f() lµ c«ng viÖc khã kh¨n, trong miÒn d÷ liÖu

giao dÞch c¸c giá mua hµng th× ng­êi ta t×m ®­îc

1

1)(f .

Ho¹t ®éng cña gi¶i thuËt ROCK ®­îc m« t¶ s¬ l­îc nh­ sau:

Page 104: KPDL_C1-6 & C10

207 208

1. X©y dùng ®å thÞ biÓu diÔn c¸c phÇn tö d÷ liÖu dùa trªn kh¸i niÖm l¸ng

giÒng (víi mét ®é ®o t­¬ng tù vµ ng­ìng cho tr­íc).

2. ¸p dông gi¶i thuËt ph©n côm ph©n cÊp gép HAC (agglomerative

hierarchical clustering) trªn ®å thÞ ®­îc x©y dùng trong b­íc 1.

Trong gi¶i thuËt HAC th× nã cÇn x¸c ®Þnh ®­îc 2 côm cã ®é t­¬ng tù nhau

lín nhÊt ®Ó gép l¹i víi nhau vµ tÊt nhiªn chóng ta kh«ng thÓ sö dông ®é t­¬ng tù

gi÷a 2 côm dùa trªn kho¶ng c¸ch ®­îc. Trong gi¶i thuËt ROCK hµm ®o ®é

t­¬ng tù gi÷a 2 côm cÇn ph¶i lµm cùc ®¹i hãa hµm ®iÒu kiÖn (c«ng thøc 5.19),

do ®ã c«ng thøc tÝnh ®é t­¬ng tù còng ®­îc x©y dùng gièng nh­ hµm ®iÒu kiÖn

nh­ sau:

)(21)(21)(21)(

),(),(

f

j

f

if

ji

ji

jinnnn

CClinkCCg

(5.20)

trong ®ã ni vµ nj lµ kÝch th­íc cña côm Ci vµ Cj; vµ hµm ),( ji CClink ®o

sè l­îng liªn kÕt gi÷a 2 côm Ci vµ Cj vµ nã ®­îc ®Þnh nghÜa nh­ sau:

ji CpCpji pplinkCClink',

)',(),( (5.21)

Mét c¸ch trùc quan ta cã thÓ thÊy r»ng nÕu sè l­îng liªn kÕt gi÷a 2 côm lµ

lín th× chóng ta nªn gép chóng l¹i víi nhau.

Thùc nghiÖm trªn mét sè tËp d÷ liÖu giao dÞch giá hµng trong thùc tÕ ®·

chøng minh gi¶i thuËt ROCK cho kÕt qu¶ lµ c¸c côm cã ý nghÜa h¬n nhiÒu so

víi c¸c gi¶i thuËt ph©n côm truyÒn thèng (dùa trªn ®é ®o kho¶ng c¸ch).

5.5. ThuËt to¸n ph©n côm dùa trªn mËt ®é

Nh¾c l¹i r»ng c¸c gi¶i thuËt ph©n côm dùa trªn ®é ®o kho¶ng c¸ch hay ®é

t­¬ng tù chØ phï hîp ®èi víi c¸c miÒn d÷ liÖu trong ®ã c¸c côm ®­îc ph©n bè

theo h×nh cÇu. §Ó xö lý tr­êng hîp d÷ liÖu kh«ng ph©n bè theo h×nh cÇu (mµ cã

thÓ ë h×nh d¹ng bÊt kú), líp gi¶i thuËt ph©n côm dùa trªn mËt ®é ®· ®­îc ®Ò

xuÊt. Mét sè gi¶i thuËt thuéc líp gi¶i thuËt ph©n côm dùa trªn mËt ®é lµ

DBSCAN, OPTICS vµ DENCLUE. Môc nµy sÏ tr×nh bµy gi¶i thuËt DBSCAN –

mét gi¶i thuËt ®Æc tr­ng thuéc líp gi¶i thuËt ph©n côm dùa trªn mËt ®é.

Tªn DBSCAN ®­îc viÕt t¾t tõ Density-Based Spatial Clustering of

Application with Noise. Nã cã thÓ ph¸t hiÖn c¸c côm ë h×nh d¹ng bÊt kú vµ thËm

chÝ c¶ trong tr­êng hîp d÷ liÖu cã chøa nhiÒu nhiÔu. Gi¶i thuËt sÏ më réng c¸c

miÒn (côm) nÕu thÊy mËt ®é cña nã lµ cao. Nã ®Þnh nghÜa mét côm lµ mét tËp

c¸c miÒn (phÇn tö d÷ liÖu) liªn th«ng cã mËt ®é cao nhÊt (density-connected).

Cã mét sè ®Þnh nghÜa liªn quan ®Õn gi¶i thuËt nµy nh­ sau.

Cho tËp c¸c ®èi t­îng D gåm n ®èi t­îng (phÇn tö d÷ liÖu):

Vïng l©n cËn trong vßng b¸n kÝnh # víi t©m lµ ®èi t­îng (phÇn tö d÷

liÖu) ®ang xÐt ®­îc ký hiÖu lµ #-neighborhood.

NÕu #-neighborhood cña mét ®èi t­îng (phÇn tö d÷ liÖu) cã sè phÇn tö

lín h¬n hoÆc b»ng mét gi¸ trÞ ng­ìng MinPts th× nã ®­îc gäi lµ mét ®èi

t­îng lâi (core object).

Ta nãi ®èi t­îng p víi ®­îc trùc tiÕp theo mËt ®é (directly density-

reachable) tõ ®èi t­îng q nÕu p ë trong miÒn #-neighborhood cña q vµ q

lµ mét ®èi t­îng lâi.

§èi t­îng p ®­îc gäi lµ víi ®­îc theo mËt ®é (density-reachable) tõ ®èi

t­îng q (t­¬ng øng víi # vµ MinPts) nÕu tån t¹i mét d·y c¸c ®èi t­îng

p1, …, pn trong ®ã p1=q, pn=p sao cho pi+1 lµ víi ®­îc trùc tiÕp dùa trªn

mËt ®é tõ pi (víi gi¸ trÞ cña i: 1# i # n).

§èi t­îng p ®­îc gäi lµ liªn th«ng mËt ®é (density-connected) víi ®èi

t­îng q (t­¬ng øng víi # vµ MinPts) nÕu tån t¹i mét ®èi t­îng o sao cho

c¶ p vµ q ®Òu víi ®­îc dùa trªn mËt ®é tõ o (t­¬ng øng víi # vµ

MinPts).

Mét côm dùa trªn mËt ®é (density-based cluster) lµ mét tËp hîp lín

nhÊt c¸c ®èi t­îng liªn th«ng theo mËt ®é.

Chó ý lµ quan hÖ víi ®­îc theo mËt ®é lµ bÊt ®èi xøng (ngo¹i trõ c¸c

®èi t­îng lâi), tuy nhiªn quan hÖ liªn th«ng mËt ®é l¹i lµ quan hÖ ®èi xøng.

Page 105: KPDL_C1-6 & C10

209 210

Minh häa cho c¸c quan hÖ ®­îc ®Þnh nghÜa ë trªn ®­îc thÓ hiÖn qua h×nh

5.7. Víi gi¸ trÞ # ®­îc thÓ hiÖn lµ b¸n kÝnh cña c¸c h×nh trßn, vµ MinPts=3 th×:

C¸c ®èi t­îng cã nh·n lµ m, o, p vµ r ®­îc gäi lµ c¸c ®èi t­îng lâi bëi v×

chóng ®Óu chøa Ýt nhÊt 3 ®èi t­îng trong h×nh trßn b¸n kÝnh # cña nã.

§èi t­îng q cã thÓ víi ®­îc trùc tiÕp theo mËt ®é tõ m, m cã thÓ víi

®­îc trùc tiÕp theo mËt ®é tõ p (vµ p cã thÓ víi ®­îc trùc tiÕp theo mËt

®é tõ m, v× m vµ p ®Òu lµ ®èi t­îng lâi).

§èi t­îng q cã thÓ víi ®­îc (gi¸n tiÕp) theo mËt ®é tõ p, v× tån t¹i d·y p, m,

q tháa m·n ®iÒu kiÖn víi ®­îc theo mËt ®é. Tuy nhiªn cã thÓ dÔ dµng nhËn

ra lµ p kh«ng víi ®­îc theo mËt ®é tõ q (tÝnh bÊt ®èi xøng cña quan hÖ).

o, r vµ s lµ liªn th«ng mËt ®é v× tån t¹i ®èi t­îng o ®· tháa m·n ®iÒu kiÖn

liªn th«ng mËt ®é.

H×nh 5.7 Minh häa c¸c quan hÖ trong DBSCAN

Gi¶i thuËt DBSCAN sÏ t×m c¸c côm b»ng c¸ch kiÓm tra #-neighborhood

cña tõng ®èi t­îng trong tËp d÷ liÖu ®Çu vµo D. NÕu #-neighborhood cña ®èi

t­îng p chøa sè ®èi t­îng tháa m·n ng­ìng MinPts th× mét côm míi chøa ®èi

t­îng lâi p ®­îc t¹o ra. DBSCAN tiÕp tôc më réng côm b»ng c¸ch t×m c¸c ®èi

t­îng víi ®­îc trùc tiÕp theo mËt ®é tõ c¸c ®èi t­îng lâi trong côm. Qu¸ tr×nh

më réng nµy cã thÓ dÉn ®Õn tr­êng hîp ta ghÐp 2 hay nhiÒu côm l¹i víi nhau.

ThuËt to¸n dõng khi kh«ng cã ®èi t­îng nµo ®­îc thªm vµo c¸c côm.

NÕu cã sö dông c¬ chÕ ®¸nh chØ môc th× ®é phøc t¹p cña DBSCAN lµ O(n

log n), ng­îc l¹i th× ®é phøc t¹p cña nã lµ O(n2).

5.6. Gi¶i thuËt ph©n côm dùa trªn m« h×nh

Ph­¬ng ph¸p lµm viÖ cña c¸c gi¶i thuËt thuéc líp nµy lµ cè g¾ng lµm tèi ­u

sù phï hîp gi÷a tËp d÷ liÖu ®Çu vµo víi mét m« h×nh to¸n häc. Mét sè gi¶i thuËt

®iÓn h×nh thuéc líp nµy lµ cùc ®¹i kú väng (Expectation Maximization - EM),

ph©n côm kh¸i niÖm (Conceptual clustering) vµ ph­¬ng ph¸p ph©n côm dùa trªn

m« h×nh häc m¸y m¹ng neural. Trong môc nµy chØ xin tr×nh bµy gi¶i thuËt cùc

®¹i kú väng.

Trong thùc tÕ, mçi côm cã thÓ ®­îc biÓu diÔn b»ng mét ph©n bè x¸c suÊt,

nÕu ta cã k côm th× sÏ cã k ph©n bè x¸c suÊt ®­îc gäi lµ ph©n bè thµnh phÇn

(component distribution), vµ toµn bé tËp d÷ liÖu sÏ lµ sù trén h÷u h¹n (finite

mixture) cña c¸c ph©n bè nµy (tõ h÷u h¹n ë ®©y thÓ hiÖn sè l­îng c¸c ph©n bè

thµnh phÇn lµ h÷u h¹n). Do ®ã ta cã thÓ ph©n côm toµn bé tËp d÷ liÖu ®Çu vµo

b»ng c¸ch sö dông m« h×nh mËt ®é trén (mixture density model) cña k ph©n bè

x¸c suÊt, trong ®ã mét ph©n bè biÓu diÔn mét côm. Nh­ vËy, nhiÖm vô cña gi¶i

thuËt ph©n côm lµ ®i t×m (­íc l­îng) c¸c tham sè cña c¸c ph©n bè x¸c suÊt sao

cho phï hîp víi tËp d÷ liÖu ®Çu vµo nhÊt.

Cho mét tËp D gåm n phÇn tö d÷ liÖu {x1, x2,…, xn}, vµ ®­îc chia thµnh k

côm. §Ó ®¬n gi¶n, ta xÐt tr­êng hîp mçi phÇn tö d÷ liÖu ®­îc biÓu diÔn b»ng 1

sè thùc. Gäi mC, ãC vµ P(C) t­¬ng øng lµ gi¸ trÞ trung b×nh, ®é lÖch chuÈn vµ x¸c

suÊt lÊy mÉu cña côm C, c¸c gi¸ trÞ trªn ®­îc tÝnh nh­ sau:

Cp

C pC

m||

1,

Cx

CC mxC

2)(||

1 vµ

||

||)(

D

CCP (5.22)

Khi ®ã bé ba mC, ãC, P(C) ®­îc gäi lµ m« h×nh sinh cña côm C (theo ph©n

bè chuÈn Gauss). H×nh 5.8 minh häa tr­êng hîp ta cã 2 côm, khi ®ã gi¸ trÞ mC

Page 106: KPDL_C1-6 & C10

211 212

vµ ãC t­¬ng øng sÏ lµ t©m vµ b¸n kÝnh cña ®­êng trßn biÓu diÔn ®é lÖch chuÈn

cña côm.

Gi¶ sö chóng ta cã tËp d÷ liÖu ®­îc chia thµnh 2 côm A vµ B. Côm A gåm

c¸c phÇn tö d÷ liÖu {0, 0, 0, 0, 0, 0, 0.49, 0, 0, 0.387, 0.57}. Côm B gåm c¸c

phÇn tö d÷ liÖu {0.961, 0.780, 0, 0.980, 0.135, 0.928, 0, 0.658, 0}. Khi ®ã bé ba

mC, ãC, P(C) ®­îc tÝnh nh­ sau:

mA=(0 + 0 + 0 + 0 + 0 + 0 + 0.49 + 0 + 0 + 0.387 + 0.57)/11=0.132

ãA =0.229 vµ P(A)=11/20=0.55

mB=(0.961 + 0.780 + 0 + 0.980 + 0.135 + 0.928 + 0 + 0.658 + 0)/9=0.494

ãB =0.449 vµ P(B)=9/20=0.45

H×nh 5.8 BiÓu diÔn mét côm theo träng t©m vµ ®é lÖch chuÈn

Sau khi ®· cã bé ba mC, ãC, P(C) cho tõng côm, ta cã thÓ x¸c ®Þnh x¸c

suÊt mµ mét phÇn tö d÷ liÖu thuéc vµo côm C lµ bao nhiªu. Tr­êng hîp nÕu phÇn

tö d÷ liÖu ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi r¹c (chØ gåm c¸c gi¸ trÞ 0 vµ 1) th×

x¸c suÊt cña mét phÇn tö d÷ liÖu x thuéc vµo côm C ®­îc tÝnh b»ng c«ng thøc

Bayes:

)(

)|()()|(

xP

CxPCPxCP (5.23)

vµ P(x|C) ®­îc tÝnh b»ng sè lÇn xuÊt hiÖn cña x trong côm C chia cho tæng

sè phÇn tö d÷ liÖu trong côm C. Trong tr­êng hîp ta ®ang xÐt, d÷ liÖu ®­îc biÓu

diÔn b»ng sè thùc, khi ®ã x¸c suÊt P(x|C) ®­îc tÝnh b»ng c«ng thøc

)(

)()()|(

xP

CPxfxCP C (5.24)

trong ®ã )2/()( 2

2

1)( CCmx

C

C exf

(5.25)

Do P(x) xuÊt hiÖn trong tÊt c¶ c¸c c«ng thøc tÝnh x¸c suÊt cña x thuéc vµo

c¸c côm kh¸c nhau nªn ta cã thÓ bá qua kh«ng cÇn tÝnh. Nh­ng khi ®ã c¸c gi¸

trÞ tÝnh to¸n ®­îc P(C| x) cã thÓ kh«ng tháa m·n ®iÒu kiÖn 1)|( C

xCP , do

®ã ta cã thÓ cÇn ph¶i chuÈn hãa l¹i.

VÝ dô trong tr­êng hîp tËp d÷ liÖu ë trªn, nÕu ta muèn xem x¸c suÊt cña

mét phÇn tö d÷ liÖu cã gi¸ trÞ 0.78 thuéc vµo tõng côm lµ bao nhiªu, ta cã:

P(A|0.78) # fA(0.78)P(A) # (0.032) (0.55)# 0.018

P(B|0.78) # fB(0.78)P(B) # (0.725) (0.45) # 0.326

Thùc hiÖn chuÈn hãa ta cã:

P(A|0.78)=0.018/(0.018+0.326)=0.05;

P(B|0.78)=0.326/(0.018+0.326)=0.95

Khi sö dông c«ng thøc trªn th× ta cÇn ph¶i chó ý lµ nÕu cã tr­êng hîp cã

mét thuéc tÝnh nµo ®ã cã gi¸ trÞ ®é lÖch chuÈn ã lµ 0 th× ta kh«ng thÓ tÝnh ®­îc

gi¸ trÞ fC(x). §Ó xö lý tr­êng hîp nµy ta cã thÓ lÊy mét x¸c suÊt ngÇm ®Þnh nµo

®ã, ch¼ng h¹n lµ 0.05 ®Ó thay vµo c¸c x¸c suÊt P(x|C).

Trong tr­êng hîp tæng qu¸t th× mét phÇn tö d÷ liÖu cã thÓ ®­îc biÓu diÔn

b»ng nhiÒu thuéc tÝnh (nhiÒu chiÒu). Gi¶ sö mçi mét phÇn tö d÷ liÖu x ®­îc biÓu

diÔn b»ng mét vector d chiÒu (x1, x2, …, xd), khi ®ã víi gi¶ thiÕt lµ c¸c thuéc

tÝnh lµ ®éc lËp nhau th× ta cã thÓ sö dông c«ng thøc sau:

Page 107: KPDL_C1-6 & C10

213 214

)()|()|),...,,(()|(11

21 ii

C

d

ii

d

id xfCxPCxxxPCxP

(5.26)

Gi¶i thuËt cùc ®¹i kú väng lµ mét trong nh÷ng gi¶i thuËt lÆp ®Ó ­íc l­îng

c¸c tham sè cho m« h×nh. Nã còng cã thÓ coi lµ gi¶i thuËt më réng cña k-means.

Gi¶i thuËt k-means g¸n c¸c phÇn tö d÷ liÖu vµo c¸c côm cã ®é t­¬ng ®ång víi nã

lµ lín nhÊt, th× gi¶i thuËt cùc ®¹i kú väng g¸n x¸c suÊt thuéc vµo c¸c côm cho

c¸c phÇn tö d÷ liÖu. Nãi mét c¸ch kh¸c, gi¶i thuËt cùc ®¹i kú väng thuéc lo¹i

thuËt to¸n ph©n côm x¸c suÊt. Víi lo¹i gi¶i thuËt ph©n côm nµy th× kh«ng cã

ranh ríi râ rµng gi÷a c¸c côm. Cho mét D chøa n phÇn tö d÷ liÖu {x1, x2, …, xn},

tham sè ®Çu vµo k lµ sè côm cÇn t¹o, thuËt to¸n cùc ®¹i kú väng ho¹t ®éng nh­

sau:

B­íc khëi t¹o: ph©n ngÉu nhiªn c¸c phÇn tö d÷ liÖu vµo k côm, môc ®Ých

cña thao t¸c nµy lµ dïng ®Ó x©y dùng bé ba tham sè mC, ãC, P(C) ban ®Çu cho

k côm. C¸c tham sè nµy sÏ ®­îc lµm mÞn th«ng qua viÖc lÆp 2 b­íc sau:

B­íc kú väng: víi tõng phÇn tö xi (1# i # n) tÝnh gi¸ trÞ )P (C | xw iCi = lµ

x¸c suÊt xi thuéc vµo côm C. ChuÈn hãa gi¸ trÞ Ciw trªn toµn bé k côm ®Ó ®¶m

b¶o 11

k

C

Ciw . Gi¸ trÞ

Ciw thu ®­îc t¹i thêi ®iÓm nµy chÝnh lµ gi¸ trÞ kú

väng phÇn tö xi thuéc vµo côm C.

B­íc cùc ®¹i: TÝnh to¸n (­íc l­îng) l¹i gi¸ trÞ cña c¸c tham sè, cô thÓ lµ

gi¸ trÞ trung b×nh mC, ®é lÖch chuÈn ãC vµ x¸c suÊt lÊy mÉu P(C) b»ng c«ng thøc

míi nh­ sau (chø kh«ng tÝnh nh­ c«ng thøc 5.22):

n

i

Ci

n

i iCi

Cw

xwm

1

1 ,

n

i

Ci

n

i CiCi

Cw

mxw

1

1

2

2)(

n

i

CiwCP

1

)( (5.27)

Lý do ta kh«ng thÓ tÝnh ®­îc P(C) dùa vµo sè phÇn tö thuéc vµo líp C (nh­

c«ng thøc 5.8) lµ v× gi¶i thuËt sÏ g¸n mét x¸c suÊt phô thuéc vµo 1 côm cho tõng

phÇn tö d÷ liÖu, nªn kh«ng cã ranh ríi râ rµng gi÷a c¸c côm. Sau khi tÝnh to¸n

xong c¸c x¸c suÊt lÊy mÉu P(C), ta cÇn chuÈn hãa l¹i ®Ó ®¶m b¶o C

CP 1)(

§©y chÝnh lµ b­íc cùc ®¹i gi¸ trÞ likelihood cña ph©n bè x¸c suÊt trªn tËp d÷ liÖu

®· cho. Gi¸ trÞ likelihood L cña ph©n bè x¸c suÊt ®­îc tÝnh nh­ sau:

n

i Ci CPCxPL

1

)()|(log (5.28)

Chó ý lµ trong c¸c c«ng thøc ë trªn ®­îc thùc hiÖn trªn toµn bé n phÇn tö

trong tËp d÷ liÖu ®Çu vµo (chø kh«ng ph¶i lµ trªn tËp c¸c phÇn tö thuéc vµo côm

®ang xem xÐt C).

Hai b­íc trªn ®­îc lÆp ®i lÆp l¹i cho ®Õn khi gi¶i thuËt héi tô hay nã ®¹t

®Õn vÞ trÝ tèi ­u toµn côc. Trong thùc tÕ th× gi¶i thuËt héi tô nhanh nh­ng cã thÓ

kh«ng ®¹t ®Õn vÞ trÝ tèi ­u toµn côc. Gi¸ trÞ likelihood L lu«n t¨ng sau mçi vßng

lÆp nªn cã mét c¸ch kh¸c ®Ó dõng thuËt to¸n lµ so s¸nh gi¸ trÞ likelihood trong 2

vßng lÆp gÇn nhau Lt vµ Lt+1, nÕu Lt+1 - Lt < # (# lµ mét ng­ìng nµo ®ã cã gi¸ trÞ

rÊt nhá) th× ta cã thÓ dõng thuËt to¸n.

Còng gièng gi¶i thuËt k-means, mét phÇn tö d÷ liÖu cã thÕ g¸n ®i g¸n l¹i

vµo c¸c côm kh¸c nhau trong qu¸ tr×nh gi¶i thuËt ho¹t ®éng. Mét ®Æc ®iÓm n÷a

còng gièng gi¶i thuËt k-means lµ c¸c côm ®­îc t¹o ngÉu nhiªn gièng víi viÖc

chän ngÉu nhiªn k phÇn tö lµm träng t©m cña côm (trong gi¶i thuËt k-means).

Do vËy mét trong nh÷ng c¸ch ®Ó t×m gi¸ trÞ tèi ­u toµn côc lµ ch¹y gi¶i thuËt cùc

®¹i kú väng nhiÒu lÇn ®Ó t×m ra lÇn ch¹y cã gi¸ trÞ likelihood lín nhÊt.

NÕu chóng ta ®Ó ý, th× trong gi¶i thuËt cùc ®¹i kú väng ë trªn ®­îc x©y

dùng trªn c¬ së kÕt hîp víi bé ph©n líp Naive Bayes (sÏ ®­îc tr×nh bµy chi tiÕt

trong ch­¬ng 6).

5.7. NhËn xÐt s¬ bé c¸c thuËt to¸n ph©n côm

Nh­ ®· ®­îc giíi thiÖu, thuËt to¸n HAC th­êng chËm khi ¸p dông cho c¸c

tËp phÇn tö d÷ liÖu lín. C¸c thuËt to¸n kh¸c theo h­íng nµy nh­ Single-link vµ

Group-average cã thêi gian thùc hiÖn lµ O(n2), ®ång thêi thêi gian kÕt nèi hoµn

toµn (complete-link) lµ O(n3) [Christopher08]. C¸c thuËt to¸n theo h­íng nµy lµ

Page 108: KPDL_C1-6 & C10

215 216

qu¸ chËm so víi yªu cÇu cña bµi to¸n ph©n côm Web. Mét ®iÓm ®¸ng chó ý n÷a

®èi víi c¸c thuËt to¸n HAC lµ ®iÒu kiÖn dõng. §· cã rÊt nhiÒu ®Ò xuÊt vÒ ®iÒu

kiÖn dõng ®­îc ®­a ra nh­ng chñ yÕu lµ dùa trªn viÖc ®iÒu kiÖn dõng ®· ®­îc

x¸c ®Þnh tr­íc (ch¼ng h¹n, dõng khi chØ cßn 5 côm). §iÒu kiÖn dõng ®èi víi c¸c

thuËt to¸n nµy (HAC) lµ cùc kú quan träng. NÕu nh­ thuËt to¸n ghÐp c¸c côm

“tèt” víi nhau cã thÓ t¹o ra kÕt qu¶ kh«ng theo mong muèn cña ng­êi dïng.

Trªn Web, víi kÕt qu¶ tr¶ vÒ theo truy vÊn lµ v« cïng ®a d¹ng (vÒ sè l­îng, ®é

lín, kiÓu vµ sù phï hîp cña c¸c phÇn tö d÷ liÖu) th× ®iÒu kiÖn dõng kh«ng tèt sÏ

lµm cho kÕt qu¶ trë nªn nghÌo nµn.

ThuËt to¸n k-means thuéc vµo líp c¸c thuËt to¸n ph©n côm thêi gian tuyÕn

tÝnh vµ lµ nh÷ng lùa chän tèt nhÊt ®Ó ®¸p øng yªu cÇu vÒ tèc ®é cña bµi to¸n

ph©n côm on-line. Thêi gian thùc hiÖn cña c¸c thuËt to¸n nµy lµ O(nk) trong ®ã

k lµ sè c¸c côm mong muèn. Thªm mét ­u ®iÓm cña thuËt to¸n k-means so víi

HAC lµ viÖc ®¸p øng c¸c yªu cÇu cña bµi to¸n ph©n côm Web lµ nã cã thÓ t¹o ra

c¸c côm cã sù giao thoa. §iÓm yÕu chÝnh cña thuËt to¸n nµy lµ nã ch¹y hiÖu qu¶

nhÊt chØ khi c¸c côm mong muèn lµ c¸c miÒn h×nh cÇu ®èi víi ®é ®o t­¬ng tù

®­îc dïng. Kh«ng cã lý do g× ®Ó tin r»ng c¸c phÇn tö d÷ liÖu sÏ thuéc vµo c¸c

miÒn cÇu. V× vËy thuËt to¸n cã thÓ lµm mÊt ®i c¸c th«ng tin cã gi¸ trÞ.

Buckshot lµ thuËt to¸n kÕt hîp gi÷a HAC vµ k-means trong ®ã viÖc khëi

t¹o c¸c träng t©m côm cho k-means ®­îc thùc hiÖn bëi thuËt to¸n HAC trªn mét

mÉu cña tËp phÇn tö d÷ liÖu [Cutting93].

C¸c thuËt to¸n nh­ HAC, k-means hay Buckshot ®Òu kh«ng ph¶i lµ c¸c

thuËt to¸n cã tÝnh gia t¨ng. Mét sè thuËt to¸n gia t¨ng ®· ®­îc ph¸t triÓn nh­

thuËt to¸n ph©n côm c©y hËu tè (Suffix Tree Clustering - STC) [Branson02], víi

thêi gian thùc hiÖn O(n) trong ®ã n lµ kÝch th­íc cña tËp phÇn tö d÷ liÖu.

5.8. §¸nh gi¸ c¸c gi¶i thuËt ph©n côm

5.8.1 §¸nh gi¸ dùa trªn ®é t­¬ng tù

NhiÖm vô cña c¸c gi¶i thuËt ph©n côm lµ nhãm c¸c phÇn tö d÷ liÖu t­¬ng

tù nhau thµnh mét côm, do ®ã chÊt l­îng cña gi¶i thuËt ph©n côm sÏ ®­îc ®¸nh

gi¸ møc ®é gièng nhau gi÷a c¸c phÇn tö trong cïng mét côm. Mét gi¶i thuËt

ph©n côm tèt sÏ cho kÕt qu¶ lµ ®é t­¬ng tù néi t¹i trong mét côm lµ cao vµ ®é

t­¬ng tù gi÷a c¸c côm lµ thÊp. VËy ta cã thÓ dïng bÊt kú hµm ®o ®é t­¬ng tù cña

c¸c phÇn tö d÷ liÖu trong cïng mét côm ®Ó ®¸nh gi¸ chÊt l­îng cña gi¶i thuËt

ph©n côm. Ta cã thÓ sö dông hµm J (trong c«ng thøc 5.9) hµm ®· ®­îc tÝch hîp

vµo trong mét sè gi¶i thuËt ph©n côm ®Ó ®¸nh gi¸ chÊt l­îng kÕt qu¶ ph©n côm

cña gi¶i thuËt. Mét c«ng thøc kh¸c ta cã thÓ dïng ®Ó tÝnh ®é t­¬ng tù néi t¹i cña

mét côm lµ dùa vµo ®é t­¬ng tù cña tõng cÆp d÷ liÖu trong côm:

),(1

2

1

,

C Cpp

ji

ji

ppsimC

J (5.29)

BiÕn ®æi t­¬ng ®­¬ng c«ng thøc trªn cã thÓ ®­îc viÕt l¹i thµnh:

CC Cpp

ji CsimCppsimC

Jji

)(2

1),(

1

2

1

, (5.30)

Trong ®ã sim(C) lµ ®é t­¬ng tù trung b×nh gi÷a c¸c cÆp phÇn tö d÷ liÖu

trong côm C. Víi c«ng thøc nµy, gi¸ trÞ cña J cµng lín th× cµng chøng tá gi¶i

thuËt ph©n côm cho chÊt l­îng cµng tèt.

Mét c«ng thøc kh¸c cã thÓ dïng ®Ó ®¸nh gi¸ chÊt l­îng ph©n côm lµ hµm

tæng b×nh ph­¬ng lçi: ý t­ëng cña hµm ®¸nh gi¸ nµy lµ dùa trªn quan ®iÓm träng

t©m cña mçi côm sÏ biÓu diÔn tèt nhÊt côm ®ã, víi mçi phÇn tö d÷ liÖu p trong

côm ®ã cµng c¸ch xa träng t©m cña côm th× “lçi” cña phÇn tö d÷ liÖu ®ã cµng

cao. Gi¸ trÞ lçi cña phÇn tö d÷ liÖu p trong côm ®­îc ®o b»ng chiÒu dµi cña

vector p – mC. Víi mçi côm C, chóng ta x¸c ®Þnh träng t©m mC cña côm ®ã.

Hµm ®¸nh gi¸ chÊt l­îng ph©n côm nµy ®­îc tÝnh b»ng:

Page 109: KPDL_C1-6 & C10

217 218

C Cp

CmpE 2|| (5.31)

Trong ®ã mC lµ träng t©m cña côm ®­îc tÝnh theo c«ng thøc 5.10. Víi ®é

®o ®¸nh gi¸ nµy thi gi¸ trÞ E cña mét gi¶i thuËt nµo ®ã cµng nhá th× chÊt l­îng

ph©n côm cña nã cµng tèt. B»ng c¸ch biÕn ®æi sè häc, c«ng thøc 5.31 trªn cã thÓ

®­îc viÕt l¹i thµnh tæng kho¶ng c¸ch tõng cÆp phÇn tö d÷ liÖu trong côm:

2

,

1

2

1

C Cpp

ji

ji

ppC

E (5.32)

5.8.2 §¸nh gi¸ dùa trªn d÷ liÖu g¸n nh·n

Ph­¬ng ph¸p ®¸nh gi¸ dùa vµo ®é chÝnh x¸c vµ tØ lÖ lçi

Ph­¬ng ph¸p ®¸nh gi¸ ë môc 5.8.1 hoµn toµn dùa vµo ®é t­¬ng tù cña c¸c

phÇn tö d÷ liÖu trong cïng mét côm. Tuy nhiªn khi chóng ta ph©n thñ c«ng c¸c

phÇn tö d÷ liÖu vµo c¸c côm chóng ta cÇn thªm mét sè tri thøc kh¸c n÷a mµ

th«ng th­êng c¸c tri thøc nµy kh«ng cã s½n hay hiÓn thÞ râ rµng trong néi dung

cña c¸c phÇn tö d÷ liÖu. Khi ta ®· biÕt tr­íc nh·n cña c¸c phÇn tö d÷ liÖu thuéc

vµo c¸c côm th× viÖc ®¸nh gi¸ thuËt to¸n ph©n côm chØ dùa vµo hµm ®iÒu kiÖn Js

nh­ trªn lµ kh«ng chÝnh x¸c. PhÇn nµy chóng ta sÏ t×m hiÓu thªm mét sè ph­¬ng

ph¸p ®¸nh gi¸ c¸c gi¶i thuËt ph©n côm mét c¸ch chÝnh x¸c h¬n. Th«ng th­êng

d÷ liÖu g¸n nh·n th­êng ®­îc dïng ®Ó ¸p dông cho c¸c gi¶i thuËt häc cã gi¸m

s¸t, tuy nhiªn ngay c¶ gi¶i thuËt häc kh«ng gi¸m s¸t nh­ c¸c gi¶i thuËt ph©n côm

th× d÷ liÖu g¸n nh·n còng h÷u Ých, cô thÓ ta cã thÓ dïng ®Ó ®¸nh gi¸ chÊt l­îng

cña gi¶i thuËt ph©n côm b»ng c¸ch so s¸nh d÷ liÖu g¸n nh·n (d÷ liÖu ph©n côm

b»ng tay) víi kÕt qu¶ cña gi¶i thuËt ph©n côm. Chó ý r»ng trong tr­êng hîp nµy

tuy r»ng chóng ta ®· cã d÷ liÖu ®· ®­îc g¸n nh·n (líp/côm) nh­ng c¸c nh·n cña

c¸c phÇn tö d÷ liÖu kh«ng ®­îc dïng trong qu¸ tr×nh ph©n côm mµ chØ dïng ®Ó

®¸nh gi¸ chÊt l­îng cña gi¶i thuËt ph©n líp. Cã mét sè ®é ®o ®é ®¸nh gi¸ ®­îc

dïng trong ph­¬ng ph¸p nµy: ®é chÝnh x¸c (precision), tØ lÖ lçi (error), ®é håi t­ëng (recall) vµ F-measure. Gi¶ sö d÷ liÖu ph©n líp b»ng tay gåm cã 2 líp (®Ó

ph©n biÖt víi côm) A vµ B, vµ gi¶i thuËt ph©n côm còng ph©n thµnh 2 côm. §èi

víi mçi líp vÝ dô líp A, nh÷ng phÇn tö d÷ liÖu thuéc vµo líp A ®­îc gäi lµ c¸c

vÝ dô d­¬ng (positive), nh÷ng phÇn tö d÷ liÖu kh«ng thuéc vµo líp A ®­îc gäi lµ

c¸c vÝ dô ©m (negative). KÕt qu¶ ph©n côm cña mét gi¶i thuËt sÏ cã mét sè kh¶

n¨ng sau:

§óng d­¬ng (true positive): phÇn tö d÷ liÖu lµ vÝ dô d­¬ng vµ ®­îc gi¶i

thuËt ph©n côm dù ®o¸n lµ vÝ dô d­¬ng (ph©n côm ®óng), ký hiÖu lµ TP.

Sai d­¬ng (false positive): phÇn tö d÷ liÖu lµ vÝ dô d­¬ng nh­ng gi¶i

thuËt ph©n côm l¹i ®o¸n lµ vÝ dô ©m (ph©n côm sai), ký hiÖu lµ FP.

§óng ©m (true negative): phÇn tö d÷ liÖu lµ vÝ dô ©m vµ ®­îc gi¶i thuËt

ph©n côm ®o¸n lµ vÝ dô ©m (ph©n côm ®óng), ký hiÖu lµ TN.

Sai ©m (false negative): phÇn tö d÷ liÖu lµ vÝ dô ©m vµ ®­îc gi¶i thuËt

ph©n côm ®o¸n lµ vÝ dô d­¬ng (ph©n côm sai), ký hiÖu lµ FN.

§Ó tÝnh to¸n ra ®­îc c¸c ®é ®o ë trªn ta dùa vµo c¸c kh¶ n¨ng liÖt kª ë trªn.

§Ó dÔ tÝnh to¸n ta cã thÓ lËp ma trËn biÓu diÔn c¸c tr­êng hîp trªn, ma trËn nµy

®­îc gäi lµ ma trËn lÉn lén (confusion matrix) nh­ b¶ng 5.3:

B¶ng 5.3 Ma trËn lÉn lén

Líp thùc tÕ

Líp ®­îc dù ®o¸n bëi gi¶i thuËt ph©n côm

D­¬ng ¢m

D­¬ng TP FN

¢m FP TN

Víi tr­êng hîp chØ cã 2 líp nh­ nµy, tõ ma trËn lÉn lén nµy c¸c c«ng thøc

®é ®o sÏ ®­îc tÝnh to¸n cô thÓ nh­ sau:

TØ lÖ lçi tæng thÓ: %100

Error

FNTNFPTP

FNFP (5.33)

Page 110: KPDL_C1-6 & C10

219 220

§é chÝnh x¸c tæng thÓ:

%100

Accuracy

FN TN FPTP

TNTP (5.34)

§èi víi tõng líp th× ta cã thÓ sö dông thªm 2 ®é ®o ®¸nh gi¸ sau:

§é chÝnh x¸c: %100

P

FPTP

TP (5.35)

§é håi t­ëng: %100

R

FNTP

TP (5.36)

VÝ dô b¶ng 5.2 ®­a ra kÕt qu¶ ph©n côm víi thuËt to¸n k-means víi k lµ 2,

so s¸nh víi tËp d÷ liÖu ®· ®­îc g¸n nh·n. Víi kÕt qu¶ ph©n côm víi thuéc tÝnh

A3, ta cã c¸c gi¸ trÞ cña c¸c ®é ®o nh­ sau:

%15%1003908

30%100

Error

FNTNFPTP

FNFP

%75%1003908

98%100

Accuracy

FNTNFPTP

TNTP

Víi chØ riªng líp A ta cã c¸c gi¸ trÞ cña ®é chÝnh x¸c vµ ®é håi t­ëng nh­

sau:

%100%10008

8%100

P

FPTP

TP

%73%10038

8%100

R

FNTP

TP

T­¬ng tù ta còng cã thÓ tÝnh to¸n ®­îc ®é chÝnh x¸c (precision) cña ph©n

côm víi thuéc tÝnh A6 cho líp A lµ 60% vµ ®é håi t­ëng lµ 82%.

So s¸nh kÕt qu¶ ®é chÝnh x¸c vµ ®é håi t­ëng cña ph©n côm víi 2 thuéc

tÝnh kh¸c nhau A3 vµ A6 nh­ trªn rÊt khã ®Ó cã thÓ kÕt luËn lµ kÕt qu¶ nµo tèt

h¬n v× c¸i cã ®é chÝnh x¸c cao h¬n th× l¹i cã ®é håi t­ëng thÊp h¬n vµ ng­îc l¹i.

Do vËy mét ®é ®o kh¸c ®­îc ®Ò xuÊt lµ F-measure (hay cßn cã tªn kh¸c lµ F-

score) ®· kÕt hîp 2 lo¹i ®é ®o nµy l¹i ®Ó gióp ®¸nh gi¸ chÝnh x¸c ®­îc kÕt qu¶

nµo tèt h¬n. C«ng thøc cña ®é ®o nµy lµ:

B¶ng 5.4 KÕt qu¶ ph©n côm víi k-means chØ sö dông 1 thuéc tÝnh

Líp thùc tÕ

Thuéc tÝnh A3 Thuéc tÝnh A6

Líp ®­îc dù ®o¸n bëi gi¶i thuËt ph©n côm

Líp ®­îc dù ®o¸n bëi gi¶i thuËt ph©n côm

A B A B

A 8 3 9 2

B 0 9 6 3

RP

RP2measureF

(5.37)

Nh­ vËy kÕt qu¶ cña gi¶i thuËt ph©n côm víi thuéc tÝnh A3 cã F-

measure=86%, vµ ph©n côm víi thuéc tÝnh A6 cã F-measure=69%. Nh­ vËy cã

thÓ kÕt luËn lµ kÕt qu¶ cña ph©n côm víi thuéc tÝnh A3 tèt h¬n ph©n côm víi

thuéc tÝnh A6.

Ta còng cã thÓ më réng tr­êng hîp cã 2 líp sang tr­êng hîp cã nhiÒu h¬n

2 líp/côm. Gäi sè líp lµ m, sè côm lµ k, chó ý lµ m cã thÓ kh¸c k. Ma trËn lÉn

lén tæng qu¸t (cho m líp) sÏ cã d¹ng nh­ b¶ng 5.5. Vµ c«ng thøc dïng ®Ó tÝnh

to¸n c¸c ®é ®o cho cho c¸c « ( i, j )lµ:

§é chÝnh x¸c %n

njiP

m

i ij

ij100),(

1

(5.38)

Page 111: KPDL_C1-6 & C10

221 222

§é håi t­ëng %n

njiP

k

j ij

ij100),(

1

(5.39)

§é ®o F-measure),(),(

),(),(2)(

jiRjiP

jiRjiPi,jF

(5.40)

§Ó thu ®­îc kÕt qu¶ F-measure trªn toµn bé c¸c côm ta cã thÓ dïng c«ng

thøc:

),(max,...,1

1

jiFn

nF

kj

m

i

i

(5.41)

trong ®ã ni lµ tæng sè phÇn tö d÷ liÖu thuéc vµo líp i (hay tæng sè hµng

thø i trong ma trËn lÉn lén)

k

j iji nn1

, vµ n lµ tæng sè phÇn tö d÷

liÖu cã trong tËp d÷ liÖu

m

i

k

j ijnn1 1

. TØ lÖ n

ni trong c«ng thøc

trªn cho biÕt ®­îc ®é “quan träng” cña líp thø i trong toµn bé tËp d÷

liÖu.

Gi¶ sö víi kÕt qu¶ ph©n côm víi thuéc tÝnh A6 ë b¶ng 5.4 ta cã thÓ tÝnh

to¸n c¸c ®é ®o ®¸nh gi¸ nh­ sau:

P(1,1)=9*100%/(9+6)=60%; R(1,1)= 9*100%/(9+2)=82%;

F(1,1)=2*0.6*0.82/(0.6+0.82)=69%;

P(1,2)=2*100%/(2+3)=40%; R(1,2)= 2*100%/(9+2)=18%;

F(1,2)=2*0.4*0.18/(0.4+0.18)=25%;

P(2,1)=6*100%/(6+3)=67%; R(2,1)= 6*100%/(6+9)=40%;

F(2,1)=2*0.67*0.4/(0.67+0.4)=50%;

P(2,2)=3*100%/(3+2)=60%; R(2,2)= 3*100%/(3+6)=33%;

F(2,2)=2*0.60*0.33/(0.60+0.33)=43%;

Vµ gi¸ trÞ F-measure toµn côc %6450.020

569.0

20

15F

B¶ng 5.5 Ma trËn lÉn lén ®Ó ®¸nh gi¸ thuËt to¸n ph©n côm b»ng d÷ liÖu g¸n nh·n trong tr­êng hîp tæng qu¸t

Líp

Côm

1 … j ... k

1 n11 … n1j … n1k

… … … … … …

i ni1 … nij … nik

… … … … … …

m nm1 … nmj … nmk

Ph­¬ng ph¸p ®¸nh gi¸ dùa vµo entropy

Mét ph­¬ng ph¸p ®¸nh gi¸ nµy dùa vµo lý thuyÕt x¸c suÊt b»ng c¸ch gi¶

thiÕt nh·n líp cña c¸c phÇn tö d÷ liÖu trong tËp d÷ liÖu lµ c¸c sù kiÖn ngÉu

nhiªn. Gi¶ thiÕt nµy cho phÐp chóng ta cã thÓ ®¸nh gi¸ ®­îc ph©n bè x¸c suÊt

trong mçi côm. X¸c suÊt pij cña líp i ë trong côm j cã thÓ ®­îc ­íc l­îng b»ng tØ

lÖ xuÊt hiÖn cña c¸c phÇn tö d÷ liÖu cã nh·n i ë trong côm j. Sö dông ma trËn lÉn

lén ta cã thÓ tÝnh ®­îc x¸c suÊt nµy lµ:

m

i ij

ij

ijn

np

1

(5.42)

NÕu ta chó ý th× ®©y chÝnh lµ ®é chÝnh x¸c P(i,j) theo c¸ch tÝnh ë trªn.

Entropy lµ ®é ®o sù hçn ®én cña th«ng tin, vµ entropy cña côm j ®­îc ®Þnh

nghÜa b»ng:

m

i ijijj ppH1

log (5.43)

Page 112: KPDL_C1-6 & C10

223 224

Vµ entrpy cña toµn bé c¸c côm lµ:

k

j j

jH

n

nH

1 (5.44)

trong ®ã nj lµ sè l­îng c¸c phÇn tö d÷ liÖu n»m trong côm j vµ n lµ tæng sè

c¸c phÇn tö d÷ liÖu trong tËp d÷ liÖu. Gi¶i thuËt ph©n côm cµng tèt th× entropy

cña nã cã kÕt qu¶ cµng nhá. VÝ dô víi kÕt qu¶ ph©n côm ë b¶ng 5.4 sö dông

thuéc tÝnh A6, ta cã thÓ tÝnh gi¸ trÞ entropy nh­ sau:

30.29228525

)5

3log

5

3

5

2log

5

2(

20

5)

15

6log

15

6

15

9log

15

9(

20

15

H

5.9. Mét sè øng dông cña ph©n côm

Tuy b¶n chÊt cña c¸c gi¶i thuËt ph©n côm chØ lµ nhãm c¸c phÇn tö d÷ liÖu

l¹i víi nhau thµnh côm cã c¸c ®Æc ®iÓm nµo ®ã t­¬ng tù nhau, nh­ng c¸c øng

dông cña ph©n côm l¹i rÊt ®a d¹ng. Cho mét tËp d÷ liÖu gåm n phÇn tö, gi¶i

thuËt ph©n côm cã thÓ gióp ta hiÓu cÊu tróc ph©n bè tù nhiªn cña d÷ liÖu, hoÆc

®¬n thuÇn gi¶i thuËt ph©n côm cã thÓ hiÓn thÞ cho ta thÊy d÷ liÖu ®­îc ph©n bè

nh­ thÕ nµo. §iÓm mÊu chèt cña viÖc øng dông c¸c gi¶i thuËt ph©n côm lµ phô

thuéc vµo tÝnh s¸ng t¹o cña c¸c nhµ nghiªn cøu. Mét sè øng dông cña gi¶i thuËt

ph©n côm ®· ®­îc ®Ò xuÊt cã thÓ liÖt kª nh­ sau:

Trong sinh häc: ph©n côm cã thÓ gióp chóng ta t×m ra ®­îc c¸c lo¹i gen

nµo cã c¸c mÉu quan hÖ víi nhau.

Trong kinh doanh: ph©n côm cã thÓ gióp doanh nghiÖp ph©n lo¹i ®­îc

kh¸ch hµng víi c¸c nhu cÇu riªng, tõ ®ã cã c¸c h­íng tiÕp thÞ kh¸c

nhau cho tõng nhãm kh¸ch hµng.

Trong khai ph¸ d÷ liÖu v¨n b¶n, web, ph©n côm cã thÓ gióp chóng ta

ph©n v¨n b¶n thµnh c¸c nhãm thuéc c¸c thÓ lo¹i kh¸c nhau. Mét vÝ dô

kh¸c: ta cã thÓ ph©n côm d÷ liÖu tr¶ vÒ tõ mét m¸y t×m kiÕm (ch¼ng

h¹n nh­ google) ®Ó gióp ng­êi dïng cã thÓ t×m t¹i liÖu mét c¸ch nhanh

chãng b»ng c¸ch chØ cÇn t×m c¸c tµi liÖu n»m trong côm mµ m×nh quan

t©m.

Trong xö lý ¶nh: ph©n côm cã thÓ gióp chóng ta ph©n lo¹i ®­îc c¸c ®èi

t­îng kh¸c nhau trong mét ¶nh ®Çu vµo. Hay ta cã thÓ khoanh vïng

®­îc nh÷ng n¬i cã c¸ch thøc sö dông ®Êt gièng nhau dùa vµo ¶nh vÖ

tinh. Hay ta cã thÓ ph©n lo¹i c¸c ¶nh thµnh c¸c thÓ lo¹i gièng nhau

phôc vô cho qu¸ tr×nh t×m kiÕm. VÝ dô nÕu ta ph©n côm ®­îc c¸c ¶nh

vÒ con hæ th× côm ¶nh nµy sÏ ®­îc dïng ®Ó lµm kÕt qu¶ cho c©u truy

vÊn ¶nh vÒ hæ.

Trong chøng kho¸n: ph©n côm cã thÓ gióp ta ph©n lo¹i ®­îc c¸c m·

chøng kho¸n tiÒm n¨ng hay Ýt tiÒm n¨ng.

Trong bµi to¸n läc céng t¸c, ta cã thÓ ph©n côm ng­êi dïng cã thãi

quen mua hµng gièng nhau, khi cã mét ng­êi dïng míi, ta sÏ t×m côm

t­¬ng øng víi ng­êi dïng nµy, tõ ®ã cã thÓ t­ vÊn c¸c mÆt hµng mµ

ng­êi dïng míi nµy cã thÓ muèn mua. §©y lµ mét ph­¬ng ph¸p xö lý

bµi to¸n t­ vÊn (recommender system).

Ngoµi kh¶ n¨ng øng dông trùc tiÕp, c¸c thuËt to¸n ph©n côm cßn ®­îc

sö dông nh­ b­íc tiÒn xö lý trong mét sè bµi to¸n khai ph¸ d÷ liÖu

kh¸c. Ch¼ng h¹n trong bµi to¸n t×m ¶nh ®¹i diÖn (thumbnail) cho mét

clip nµo ®ã, ta ph©n c¸c frame cña clip ®ã thµnh c¸c côm t­¬ng øng víi

mét c¶nh scene, sau ®ã gi¶i thuËt tiÕp theo sÏ lùa chän ¶nh “tèt nhÊt”

trong mçi côm lµm ¶nh ®¹i diÖn.

C©u hái vµ bµi tËp

1. M« t¶ ph­¬ng ph¸p tÝnh ®é t­¬ng tù còng nh­ ®é kh¸c biÖt cña 2 phÇn tö d÷

liÖu cã c¸c kiÓu d÷ liÖu biÓu diÔn c¸c thuéc tÝnh

Gi¸ trÞ rêi r¹c nhÞ ph©n

Gi¸ trÞ rêi r¹c tæng qu¸t

Page 113: KPDL_C1-6 & C10

225 226

Gi¸ trÞ liªn tôc

2. Cho 2 phÇn tö d÷ liÖu trong kh«ng gian 4 chiÒu ®­îc biÓu diÔn b»ng c¸c

vector t­¬ng øng lµ (22, 1, 42, 10) vµ (20, 0, 36, 8).

TÝnh kho¶ng c¸ch Manhattan gi÷a 2 phÇn tö trªn

TÝnh kho¶ng c¸ch Euclide gi÷a 2 phÇn tö trªn

TÝnh kho¶ng c¸ch Minkowski gi÷a 2 phÇn tö trªn víi q=3

3. Gi¶ sö ta cã tËp d÷ liÖu A1(2, 10), A2(2, 5), A3(8, 4), B1(5, 8), B2(7, 5),

B3(6, 4), C1(1, 2), C2(4, 9). Sö dông thuËt to¸n k-means víi ®é ®o kho¶ng

c¸ch Euclide vµ 3 träng t©m ban ®Çu lµ A1, B1 vµ C1 ®Ó ph©n d÷ liÖu ra lµm

3 côm. T×m:

Träng t©m cña 3 côm sau vßng lÆp ®Çu tiªn (cña thuËt to¸n k-

means)

C¸c côm kÕt qu¶ cña thuËt to¸n

4. LÊy bé c«ng cô xö lý khai ph¸ d÷ liÖu weka t¹i ®Þa chØ

http://www.cs.waikato.ac.nz/ml/weka/, t×m c¸ch sö dông thuËt to¸n k-means

®­îc cµi ®Æt s·n ®Ó ph©n côm mét tËp d÷ liÖu ®i kÌm theo gãi phÇn mÒm

nµy, c¸c file d÷ liÖu ®­îc ®Æt trong th­ môc ./data t¹i th­ môc cµi ®Æt cña

weka. Chó ý lµ trong bé phÇm mÒm nµy gi¶i thuËt k-means cã tªn lµ

SimpleKMeans.

5. Thùc nghiÖm ph©n côm víi gi¶i thuËt EM trong weka víi mét tËp d÷ liÖu ®i

kÌm víi phÇn mÒm weka.

6. Thùc nghiÖm ph©n côm víi gi¶i thuËt HAC cã tªn lµ FarthestFirst trong

weka víi mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka.

7. Thùc nghiÖm ph©n côm víi gi¶i thuËt HierarchicalCluster trong weka víi

mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka.

8. Thùc nghiÖm ph©n côm víi gi¶i thuËt DBScan trong weka víi mét tËp d÷

liÖu ®i kÌm víi phÇn mÒm weka.

9. Thùc nghiÖm ph©n côm víi gi¶i thuËt MakeDensityBasedClusterer trong

weka víi mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka.

10. Cµi ®Æt thuËt to¸n ph©n côm k-means víi g¸n cøng, sau ®ã ¸p dông trªn mét

tËp d÷ liÖu ®i kÌm víi phÇn mÒm weka. Chó ý cÇn ph¶i t×m hiÓu ®Þnh d¹ng

file arff cña weka ®Ó biÕt c¸ch xö lý d÷ liÖu.

11. Cµi ®Æt thuËt to¸n ph©n côm ph©n cÊp gép tõ d­íi lªn víi ®é ®o ng­êi l¸ng

giÒng gÇn nhÊt, sau ®ã ¸p dông trªn mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm

weka.

12. Cµi ®Æt thuËt to¸n ph©n côm ph©n cÊp gép tõ d­íi lªn HAC víi ®é ®o ng­êi

l¸ng giÒng xa nhÊt, sau ®ã ¸p dông trªn mét tËp d÷ liÖu ®i kÌm víi phÇn

mÒm weka.

13. Cµi ®Æt thuËt to¸n ph©n côm ph©n cÊp gép tõ d­íi lªn HAC víi ®é ®o t­¬ng

tù trung b×nh, sau ®ã ¸p dông trªn mét tËp d÷ liÖu ®i kÌm víi phÇn mÒm

weka..

14. Dïng ph­¬ng ph¸p ®¸nh gi¸ dùa vµo ®é t­¬ng tù ®Ó ®¸nh gi¸ c¸c thuËt to¸n

ph©n côm tõ bµi 9 ®Õn bµi 12.

15. Dïng ®é ®o F-score ®Ó ®¸nh gi¸ c¸c thuËt to¸n ph©n côm tõ bµi 10 ®Õn bµi

12.

16. Dïng ®é ®o Entropy ®Ó ®¸nh gi¸ c¸c thuËt to¸n ph©n côm tõ bµi 10 ®Õn

bµi 12.

Page 114: KPDL_C1-6 & C10

227 228

Ch­¬ng 6. Ph©n líp d÷ liÖu

6.1. Giíi thiÖu

Ph©n líp lµ mét trong nh÷ng mèi quan t©m nhiÒu nhÊt cña con ng­êi

trong qu¸ tr×nh lµm viÖc víi mét tËp hîp ®èi t­îng. §iÒu nµy gióp con ng­êi cã

thÓ tiÕn hµnh viÖc s¾p xÕp, t×m kiÕm c¸c ®èi t­îng mét c¸ch thuËn lîi. Khi biÓu

diÔn ®èi t­îng vµo c¸c c¬ së d÷ liÖu, tÝnh chÊt líp vèn cã cña ®èi t­îng trong

thùc tÕ th­êng ®­îc biÓu diÔn t­¬ng øng b»ng mét thuéc tÝnh "líp" riªng biÖt.

Ch¼ng h¹n, trong hÖ thèng th«ng tin qu¶n lý t­ liÖu cña th­ viÖn, thuéc tÝnh vÒ

lo¹i t­ liÖu cã miÒn gi¸ trÞ lµ tËp tªn chuyªn ngµnh cña t­ liÖu, gåm c¸c gi¸ trÞ

nh­ "Tin häc", "VËt lý", .... Tr­íc ®©y c¸c c«ng viÖc g¸n c¸c gi¸ trÞ cña thuéc

tÝnh líp th­êng ®­îc lµm mét c¸ch thñ c«ng. Nh­ng hiÖn nay, víi sù bung næ

cña th«ng tin vµ c¸c lo¹i d÷ liÖu, viÖc ®¸nh thuéc tÝnh líp mét c¸ch thñ c«ng lµ

rÊt khã kh¨n, cã thÓ nãi lµ kh«ng thÓ. Do vËy c¸c ph­¬ng ph¸p ph©n líp tù ®éng

lµ rÊt cÇn thiÕt vµ lµ mét trong nh÷ng chñ ®Ò chÝnh trong khai ph¸ d÷ liÖu.

C¸c c¬ së d÷ liÖu th­êng chøa rÊt nhiÒu c¸c th«ng tin Èn – c¸c th«ng tin

cã thÓ sö dông phôc vô qu¸ tr×nh ph©n líp. C¸c gi¶i thuËt ph©n líp th­êng ph©n

tÝch d÷ liÖu nh»m t×m ra c¸c m« h×nh m« t¶ c¸c líp d÷ liÖu, tõ ®ã cã thÓ quyÕt

®Þnh ®­îc mét phÇn tö d÷ liÖu míi lµ thuéc vµo líp nµo.

ViÖc t×m ra líp cña mét phÇn tö d÷ liÖu míi trong nhiÒu tr­êng hîp cã ý

nghÜa rÊt quan träng, nã hç trî qu¸ tr×nh ra quyÕt ®Þnh th«ng minh thËm chÝ lµ

nh÷ng quyÕt ®inh mang tÝnh sèng cßn. VÝ dô, trong ng©n hµng, mét nh©n viªn

cho vay vèn rÊt muèn cã mét hÖ thèng cã kh¶ n¨ng tù häc tõ c¸c d÷ liÖu lÞch sö

®Ó cã thÓ quyÕt ®Þnh ®­îc mét ®¬n vay vèn míi cña kh¸ch hµng thuéc líp “an

toµn” hay “m¹o hiÓm”, trªn c¬ së ®ã sÏ cã c¸c quyÕt ®Þnh phï hîp. Mét nh©n

viªn tiÕp thÞ trong mét c«ng ty bu«n b¸n hµng ®iÖn tö th× rÊt muèn biÕt mét

kh¸ch hµng cã kh¶ n¨ng mua m¸y tÝnh hay kh«ng. Hay mét b¸c sü sÏ rÊt muèn

cã mét hÖ thèng ph©n tÝch d÷ liÖu ®iÒu trÞ lÞch sö ®Ó dù ®o¸n xem mét bÖnh nh©n

míi víi nh÷ng triÖu chøng thu ®­îc sÏ thuéc bÖnh nµo, trªn c¬ së ®ã sÏ cã c¸c

ph¸c ®å ®iÒu trÞ t­¬ng øng.

B¶n chÊt cña bµi to¸n ph©n líp lµ dù ®o¸n c¸c nh·n (hay líp) cña c¸c phÇn

tö d÷ liÖu ®Çu vµo vµ c¸c nh·n (hay líp) nµy lµ c¸c gi¸ trÞ rêi r¹c. Th«ng th­êng,

c¸c gi¶i thuËt ph©n líp th­êng ho¹t ®éng th«ng qua 2 b­íc. B­íc ®Çu tiªn nã sÏ

ph©n tÝch tËp d÷ liÖu ®· g¸n nh·n ®Ó t×m ra m« h×nh phï hîp m« t¶ tËp d÷ liÖu

®ã. B­íc nµy ®­îc gäi lµ b­íc häc (learning step) hay pha häc (learning phase)

vµ tËp d÷ liÖu g¸n nh·n phôc vô qu¸ tr×nh häc nµy ®­îc gäi lµ d÷ liÖu huÊn luyÖn

(training data). D÷ liÖu huÊn luyÖn lµ mét tËp c¸c phÇn tö d÷ liÖu (data point) cã

g¸n nh·n, hay cßn ®­îc gäi lµ b¶n ghi (tuple) m« t¶ d÷ liÖu vµ nh·n (hay líp)

t­¬ng øng cña b¶n ghi ®ã. Trong cuèn gi¸o tr×nh nµy kh¸i niÖm b¶n ghi vµ phÇn

tö d÷ liÖu cã cïng ý nghÜa víi nhau, t­¬ng tù kh¸i niÖm nh·n vµ líp còng cã

cïng ý nghÜa. Ngoµi ra cßn cã rÊt nhiÒu thuËt ng÷ kh¸c còng ®­îc sö dông réng

r·i cã cïng ý nghÜa víi kh¸i niÖm phÇn tö d÷ liÖu nh­: mÉu (sample), vÝ dô

(example), thÓ hiÖn (instance) hay ®èi t­îng (object). Mét phÇn tö d÷ liÖu X

th­êng ®­îc biÓu diÔn b»ng mét vector n chiÒu X =(x1, x2, …, xn), trong ®ã mçi

phÇn tö trong vector xi chøa mét gi¸ trÞ biÓu diÔn thuéc tÝnh (attribute) Ai cña

phÇn tö d÷ liÖu ®ã. Mét thuËt ng÷ kh¸c cïng ý nghÜa víi kh¸i niÖm thuéc tÝnh lµ

kh¸i niÖm ®Æc tr­ng (feature). V× nh·n cña c¸c phÇn tö d÷ liÖu ®­îc ®i kÌm víi

d÷ liÖu trong tËp d÷ liÖu huÊn luyÖn nªn b­íc nµy cßn ®­îc gäi lµ häc cã gi¸m

s¸t (supervised learning). Hay nãi mét c¸ch kh¸c, c¸c gi¶i thuËt ph©n líp lµ

thuéc líp gi¶i thuËt häc cã gi¸m s¸t. VÒ b¶n chÊt trong b­íc 1 nµy, c¸c gi¶i

thuËt ph©n líp häc ra hµm y=f(X) ®Ó tõ ®ã khi cã mét phÇn tö X míi nã sÏ dù

®o¸n ra nh·n y t­¬ng øng víi nã. Theo khÝa c¹nh nµy th× ta cã thÓ thÊy b­íc 1 lµ

qu¸ tr×nh häc ra mét hµm hay mét ¸nh x¹ (mapping) nã cã kh¶ n¨ng ph©n lo¹i

®­îc c¸c líp d÷ liÖu. Tïy vµo c¸c gi¶i thuËt kh¸c nhau mµ hµm f(X) nµy cã thÓ

cã c¸c d¹ng kh¸c nhau nh­ ë d¹ng luËt (rule), c©y quyÕt ®Þnh (dicision tree) hay

c¸c c«ng thøc to¸n häc, …

Page 115: KPDL_C1-6 & C10

229 230

Sau khi häc ®­îc hµm ph©n líp, c¸c gi¶i thuËt cã thÓ dïng ®Ó dù ®o¸n c¸c

d÷ liÖu míi. Tuy nhiªn tr­íc khi ®em gi¶i thuËt vµo øng dông trong thùc tÕ, c¸c

gi¶i thuËt ph¶i tr¶i qua b­íc thø 2 lµ b­íc kiÓm tra hiÖu n¨ng cña chóng. §Ó

tr¸nh hiÖn t­îng qu¸ phï hîp (overfit), mét tËp d÷ liÖu kh¸c gäi lµ tËp d÷ liÖu

kiÓm thö (testing set) sÏ ®­îc sö dông ®Ó ®o ®é chÝnh x¸c cña gi¶i thuËt. Th«ng

th­êng tËp d÷ liÖu kiÓm thö sÏ kh«ng chøa bÊt kú phÇn tö d÷ liÖu nµo n»m trong

tËp d÷ liÖu huÊn luyÖn. Còng gièng tËp d÷ liÖu huÊn luyÖn, trong tËp d÷ liÖu

kiÓm thö, tõng phÇn tö d÷ liÖu còng cã nh·n ®i kÌm. C¸c nh·n nµy ®­îc dïng ®Ó

so s¸nh víi nh·n ®­îc c¸c gi¶i thuËt ph©n líp dù ®o¸n. Tû lÖ ®o¸n ®óng nh·n

cña c¸c gi¶i thuËt ph©n líp ®­îc gäi lµ ®é chÝnh x¸c (accuracy) cña gi¶i thuËt.

Khi chÊt l­îng ph©n líp cña c¸c gi¶i thuËt lµ chÊp nhËn ®­îc trong mét miÒn d÷

liÖu cô thÓ nµo ®ã, ta cã thÓ dïng chóng ®Ó dù ®o¸n líp cña c¸c phÇn tö d÷ liÖu

míi hoµn toµn ch­a biÕt tr­íc (thuËt ng÷ tiÕng Anh lµ “unkown data” hay

“previously unseen data”).

Minh häa cña qu¸ tr×nh ph©n líp ®­îc thÓ hiÖn trªn h×nh 6.1 m« t¶ qu¸

tr×nh ph©n líp cña bµi to¸n cho vay vèn trong ng©n hµng. Trong ®ã h×nh 6.1 a)

m« t¶ qu¸ tr×nh häc cña gi¶i thuËt. KÕt qu¶ cña qu¸ tr×nh häc lµ hµm ph©n líp

®­îc thÓ hiÖn d­íi d¹ng c¸c luËt. H×nh 6.1 b) m« t¶ qu¸ tr×nh kiÓm thö còng nh­

qu¸ tr×nh dù ®o¸n d÷ liÖu míi. H×nh 6.9 còng minh häa m« h×nh chung cña c¸c

gi¶i thuËt phÇn líp: tõ tËp d÷ liÖu huÊn, c¸c gi¶i thuËt sÏ häc vµ t×m ra m« h×nh

m« t¶ d÷ liÖu ®Çu vµo, kÕt qu¶ cña viÖc häc lµ mét m« h×nh. M« h×nh nµy cã thÓ

®em ra dù ®o¸n c¸c phÇn tö d÷ liÖu míi. Tuy nhiªn ta còng sÏ cÇn b­íc thªm

b­íc kiÓm thö trong qu¸ tr×nh x©y xùng mét bé ph©n líp ®Ó ®¶m b¶o chÊt l­îng

cña nã phï hîp víi miÒn øng dông.

V× sè l­îng c¸c gi¶i thuËt ph©n líp lµ rÊt lín, nªn phÇn tiÕp theo cña

ch­¬ng nµy chóng ta sÏ chØ t×m hiÓu mét sè thuËt to¸n ph©n líp th«ng dông.

6.2. Ph©n líp b»ng c©y quyÕt ®Þnh

J. Ross Quinlan lµ ng­êi ph¸t triÓn gi¶i thuËt c©y quyÕt ®Þnh cã tªn lµ ID3

(viÕt t¾t tõ côm tõ “Iterative Dichotomiser”), sau ®ã còng chÝnh t¸c gi¶ nµy ®Ò

xuÊt gi¶i thuËt ph©n líp C4.5 (mét hËu duÖ cña thuËt to¸n ID3). Gi¶i thuËt C4.5

nµy ®· ®­îc dïng lµm chuÈn (benchmark) ®Ó c¸c thuËt to¸n míi so s¸nh. Còng

trong kho¶ng thêi gian nµy th× mét nhãm c¸c nhµ thèng kª gåm L. Breiman, J.

Friedman, R. Olshen vµ C. Stone ®· xuÊt b¶n cuèn s¸ch “Classification and

Regression Trees (CART)” m« t¶ ph­¬ng ph¸p t¹o c©y quyÕt ®Þnh nhÞ ph©n. Gi¶i

thuËt ID3 vµ CART ®· trë thµnh c¸c hßn ®¸ t¶ng vµ nã më ®Çu cho hµng lo¹t c¸c

gi¶i thuËt dùa trªn häc quy n¹p c©y quyÕt ®Þnh (decision tree induction). Gi¶i

thuËt häc dùa trªn c©y quyÕt ®Þnh ho¹t ®éng trªn tËp d÷ liÖu ®­îc biÓu diÔn b»ng

c¸ch gi¸ trÞ rêi r¹c, trong tr­êng hîp d÷ liÖu ®­îc biÓu diÔn b»ng c¸c thuéc tÝnh

cã gi¸ trÞ liªn th× cÇn thùc hiÖn b­íc rêi r¹c hãa. C¸c gi¶i thuËt ID3, CART vµ

C4.5 ®Òu ¸p dông c¸ch tiÕp cËn ¨n tham (greedy) (mét thuËt to¸n kh«ng quay lui

(non-backtracking)) ®Ó x©y dùng c©y theo h­íng tõ trªn xuèng. TËp d÷ liÖu huÊn

luyÖn sÏ ®­îc chia thµnh c¸c tËp nhá h¬n trong qu¸ tr×nh x©y dùng c©y theo c¬

chÕ chia ®Ó trÞ (devide-and –conquer). D­íi ®©y lµ m« t¶ thuËt to¸n thuËt to¸n

x©y dùng c©y c¬ b¶n chung cña c¸c gi¶i thuËt nµy.

Page 116: KPDL_C1-6 & C10

231 232

H×nh 6.1 Ph©n líp cho bµi to¸n cho vay vèn cña ng©n hµng

ThuËt to¸n x©y dùng c©y quyÕt ®Þnh

§Çu vµo : TËp D chøa d÷ liÖu huÊn luyÖn

attribute_list chøa danh s¸ch c¸c thuéc tÝnh øng cö

§Çu ra : c©y quyÕt ®Þnh

Generate_decision_tree (D, attribute_list)

1. T¹o mét nót gèc N cho c©y quyÕt ®Þnh

2. If toµn bé d÷ liÖu trong D ®Òu thuéc líp C, return nót N lµ nót l¸ cã nh·n C

3. If attribute_list lµ rçng, return nót N víi nh·n lµ líp xuÊt hiÖn nhiÒu nhÊt trong D

4. splitting_attribute = attribute_selection_method(D, attribute_list) t×m thuéc tÝnh ph©n chia tèt nhÊt

5. G¸n cho nót N nh·n lµ splitting_attribute

6. attribute_list attribute_list \ {splitting_attribute} (lo¹i bá thuéc tÝnh splitting_attribute khái attribute_list)

7. For each gi¸ trÞ j cña thuéc tÝnh splitting_attribute

7.1. Gäi Dj lµ tËp chøa c¸c phÇn tö d÷ liÖu mµ thuéc tÝnh splitting_attribute cã gi¸ j

7.2. If Dj lµ rçng th× thªm mét nót l¸ Nj cho nót N cã nh·n lµ nh·n phæ biÕn nhÊt xuÊt hiÖn trong D

7.3. Else g¾n c©y tr¶ vÒ bëi Generate_decision_tree (Dj, attribute_list) vµo nót N

8. return N

Trong ®ã, attribute_list lµ tËp c¸c thuéc tÝnh m« t¶ tËp d÷ liÖu huÊn luyÖn

D; attribute_selection_method lµ hµm lùa chän thuéc tÝnh tèt nhÊt ®Ó ph©n

chia d÷ liÖu, b¶n chÊt nã lµ gi¶i thuËt dùa trªn kinh nghiÖm (heuristic) ®Ó t×m ra

thuéc tÝnh nµo cã kh¶ n¨ng ph©n biÖt ®­îc c¸c phÇn tö d÷ liÖu trong tËp D vµo

c¸c líp nhÊt. Nã dùa trªn mét ®é ®o nµo ®ã ch»ng h¹n ®é lîi th«ng tin

(information gain), hay ®é ®o chØ sè gini (Gini index) ®Ó t×m ra thuéc tÝnh tèt

nhÊt.

Gi¶i thuËt b¾t ®Çu b»ng thao t¸c t¹o ra mét nót N m« t¶ tËp d÷ liÖu D (b­íc

1). NÕu toµn bé d÷ liÖu trong D cïng cã chung mét nh·n líp th× N sÏ lµ mét nót

l¸ cã nh·n lµ nh·n chung cña c¸c phÇn tö d÷ liÖu, vµ thuËt to¸n dõng. NÕu kh«ng

th× nã sÏ gäi hµm attribute_selection_method() ®Ó t×m ra thuéc tÝnh tèt nhÊt dïng

®Ó ph©n chia tËp d÷ liÖu D thµnh c¸c phÇn Dj, vµ nót N sÏ ®­îc g¸n nh·n lµ

thuéc tÝnh t×m ®­îc. Gi¶i thuËt ®Ö quy víi c¸c tËp con d÷ liÖu Dj. H×nh 6.2 minh

häa c©y quyÕt ®Þnh ®­îc t¹o ra bëi gi¶i thuËt trªn tËp d÷ liÖu b¸n hµng (trong

b¶ng 6.1) ®Ó t×m ra nh÷ng lo¹i kh¸ch hµng nµo cã kh¶ n¨ng mua m¸y tÝnh

(buys_computer) (yes lµ cã mua vµ no lµ kh«ng mua). §é phøc t¹p cña thuËt

to¸n lµ O(n |D| log(|D|)), trong ®ã n lµ sè thuéc tÝnh m« t¶ tËp d÷ liÖu D, |D|

lµ sè l­îng c¸c phÇn tö trong D.

B¶ng 6.1 B¶ng d÷ liÖu kh¸ch hµng

Page 117: KPDL_C1-6 & C10

233 234

ID Tuæi Thu nhËp Sinh viªn §¸nh gi¸ tÝn dông

Mua m¸y tÝnh

1 youth high no fair no

2 youth high no excellent no

3 middle_aged high no fair yes

4 senior medium no fair yes

5 senior low yes fair yes

6 senior low yes excellent no

7 middle_aged low yes excellent yes

8 youth medium no fair no

9 youth low yes fair yes

10 senior medium yes fair yes

11 youth medium yes excellent yes

12 middle_aged medium no excellent yes

13 middle_aged high yes fair yes

14 senior medium no excellent no

Trong tr­êng hîp gi¸ trÞ cña mét thuéc tÝnh nµo ®ã kh«ng ph¶i lµ gi¸ trÞ rêi

r¹c (ch¼ng h¹n nh­ thuéc tÝnh tuæi), khi ®ã mét ph­¬ng ph¸p rêi r¹c hãa ®· ®­îc

¸p dông (xem b¶ng 6.1). Cô thÓ nã ®· ®­îc chia thµnh 3 lo¹i tuæi rêi r¹c: trÎ

(youth), trung niªn (middle_age) vµ giµ (senior).

§iÓm mÊu chèt trong gi¶i thuËt x©y dùng c©y quyÕt ®Þnh ë trªn lµ hµm lùa

chän thuéc tÝnh tèt nhÊt ®Ó ph©n chia d÷ liÖu. PhÇn tiÕp theo sÏ tr×nh bµy mét sè

®é ®o dïng ®Ó ®¸nh gi¸ “chÊt l­îng” cña c¸c thuéc tÝnh.

H×nh 6.2 Minh häa c©y quyÕt ®Þnh

6.2.1 §é lîi th«ng tin

§é lîi th«ng tin (information gain) lµ ®é ®o ®­îc sö dông trong gi¶i thuËt

ID3. §Çu tiªn lµ c«ng thøc ®o l­îng th«ng tin kú väng ®Ó ph©n líp mét phÇn tö

trong tËp d÷ liÖu D ®­îc ®o b»ng c«ng thøc sau:

)(log)( 21

i

m

ii ppDInfo

(6.1)

trong ®ã pi lµ x¸c suÊt mét phÇn tö d÷ liÖu trong D thuéc vµo líp Ci vµ nã

®­îc ­íc l­îng b»ng c«ng thøc ||

||

D

Dp i

i , víi iD lµ tËp c¸c phÇn tö d÷ liÖu

trong D thuéc vµo líp Ci ; m lµ sè l­îng c¸c líp trong D. Hµm logarit c¬ sè 2

®­îc sö dông lµ do c«ng thøc trªn ®o l­îng th«ng tin theo ®¬n vÞ bit (theo lý

thuyÕt th«ng tin cña C. Shannon). Hµm Info(D) cßn ®­îc gäi lµ Entropy cña D.

B©y giê gi¶ sö ta ph©n chia d÷ liÖu trong D theo thuéc tÝnh A nµo ®ã, vµ gi¶

sö thuéc tÝnh nµy cã v gi¸ trÞ (rêi r¹c) kh¸c nhau lµ {a1, a2, …, av}. Thuéc tÝnh

Page 118: KPDL_C1-6 & C10

235 236

nµy chia tËp d÷ liÖu D thµnh v tËp con {D1, D2, …, Dv} trong ®ã Dj lµ tËp c¸c

phÇn tö d÷ liÖu cã gi¸ trÞ cña thuéc tÝnh A lµ ai . TËp con nµy sÏ t­¬ng øng víi

mét nh¸nh c©y ®­îc ph¸t triÓn tõ nót N trong gi¶i thuËt t¹o c©y quyÕt ®Þnh.

Tr­êng hîp lý t­ëng th× ta muèn tËp con nµy sÏ cã kh¶ n¨ng ph©n líp chÝnh x¸c

c¸c phÇn tö trong nã, hay nãi mét c¸ch kh¸c ta muèn tËp con nµy cµng ®ång

nhÊt (pure) cµng tèt, ®ång nhÊt ë ®©y cã thÓ hiÓu lµ c¸c phÇn tö trong tËp con

nµy ®Òu cïng thuéc vÒ mét líp. Tuy nhiªn trong thùc tÕ th× c¸c tËp nµy th­êng

kh«ng ®ång nhÊt (impure) v× nã chøa c¸c phÇn tö d÷ liÖu thuéc vÒ c¸c líp kh¸c

nhau, do ®ã chóng ta cÇn thªm th«ng tin ®Ó ph©n líp chÝnh x¸c tËp con nµy.

L­îng th«ng tin nµy ®­îc ®o bëi:

v

jj

j

A DInfoD

DDInfo

1

)(||

||)( (6.2)

trong ®ã ||

||

D

D j®­îc dïng lµm träng sè cña tËp con Dj. Gi¸ trÞ cña

InfoA(D) lµ l­îng th«ng tin kú väng ®Ó ph©n líp mét phÇn tö d÷ liÖu trong D dùa

trªn viÖc chia d÷ liÖu b»ng thuéc tÝnh A. Gi¸ trÞ nµy cµng nhá th× ®é ®ång nhÊt

cña c¸c tËp con cµng cao. Cuèi cïng hµm ®o ®é lîi th«ng tin ®­îc tÝnh b»ng

c«ng thøc:

)()()( DInfoDInfoAGain A (6.3)

Gi¸ trÞ Gain(A) cho chóng ta biÕt ta ®­îc lîi bao nhiªu nÕu chia d÷ liÖu

theo thuéc tÝnh A. Gi¸ trÞ nµy cµng lín th× cµng tèt, do ®ã thuéc tÝnh nµo cã gi¸

trÞ Gain() lín nhÊt sÏ ®­îc chän ®Ó ph©n nh¸nh trong qu¸ trÞnh x©y dùng c©y

quyÕt ®Þnh.

§Ó minh häa cho ®é ®o nµy ta tÝnh to¸n mét thuéc tÝnh trªn tËp d÷ liÖu ë

b¶ng 6.1. Trong b¶ng nµy tr­êng cuèi cïng lµ nh·n cña d÷ liÖu (Mua m¸y tÝnh),

nã cã 2 gi¸ trÞ, do ®ã sè líp ë ®©y lµ 2. Cã 9 phÇn tö d÷ liÖu cã nh·n lµ yes vµ 5

phÇn tö d÷ liÖu cã nh·n lµ no, do ®ã theo c«ng thøc 6.1 ta cã:

94.0)14

5(log

14

5)

14

9(log

14

9)( 22 DInfo bits

TiÕp ®Õn theo c«ng thøc 6.2 ta tÝnh gi¸ trÞ cña hµm cho thuéc tÝnh tuæi

(age):

bits 694.0

)5

2log

5

2

5

3log

5

3(

14

5

)4

0log

4

0

4

4log

4

4(

14

4

)5

3log

5

3

5

2log

5

2(

14

5)(

22

22

22

DInfoage

TiÕp ®Õn theo c«ng thøc 6.3 ta cã ®é lîi th«ng tin theo thuéc tÝnh tuæi sÏ lµ:

246.00.694-0.940)()()( DInfoDInfoageGain age bits

T­¬ng tù ta cã thÓ tÝnh ®­îc gi¸ trÞ ®é lîi th«ng tin cho c¸c thuéc tÝnh thu

nhËp (income), sinh viªn (student) vµ ®¸nh gi¸ tÝn dông (credit_rating)

Gain(income) = 0.029 bits, Gain(student) = 0.151 bits vµ Gain(credit_rating) =

0.048 bits . Tõ kÕt qu¶ nµy chóng ta thÊy thuéc tÝnh tuæi sÏ ®­îc chän ®Ó ph©n

chia d÷ liÖu. LÆp l¹i qu¸ tr×nh x©y dùng c©y t­¬ng øng víi c¸c tËp con d÷ liÖu

(®· bá ®i thuéc tÝnh tuæi) ta sÏ thu ®­îc c©y quyÕt ®Þnh nh­ h×nh 6.2.

6.2.2 TØ sè ®é lîi

§é ®o ®é lîi th«ng tin ho¹t ®éng kh«ng tèt trong tr­êng hîp mét thuéc

tÝnh cã nhiÒu gi¸ trÞ. VÝ dô, thuéc tÝnh m· s¶n phÈm (product_ID), hay m· giao

dÞch sÏ cã rÊt nhiÒu gi¸ trÞ. §Æc biÖt n÷a, khi chia d÷ liÖu theo thuéc tÝnh nµy th×

mçi mét tËp con d÷ liÖu sÏ chØ cã t­¬ng øng mét b¶n ghi, do ®ã c¸c tËp con nµy

lµ hoµn toµn ®ång nhÊt. Hay nãi mét c¸ch kh¸c, l­îng th«ng tin cÇn ®Ó ph©n líp

tËp d÷ liÖu D dùa trªn c¸ch ph©n chia d÷ liÖu trªn thuéc tÝnh nµy

0)( DInfoProduct_ID . Vµ gi¸ trÞ ®é lîi th«ng tin sÏ ®¹t gi¸ trÞ tèi ®a

)()()()( DInfoDInfoDInfoProduct_IDGain Product_ID . Nh­ng râ

rµng lµ viÖc ph©n líp dùa trªn thuéc tÝnh nµy lµ v« nghÜa.

Page 119: KPDL_C1-6 & C10

237 238

Do ®ã, trong gi¶i thuËt C4.5 (hËu duÖ cña gi¶i thuËt ID3) t¸c gi¶ ®· ®Ò xuÊt

sö dông mét ®é ®o míi gäi lµ tØ sè ®é lîi (gain ratio) ®Ó cè tr¸nh nh­îc ®iÓm

trªn. Hµm nµy sö dông mét ph­¬ng ph¸p chuÈn hãa ®é lîi th«ng tin b»ng c¸ch

sö dông gi¸ trÞ ph©n chia th«ng tin (split information) ®­îc ®Þnh nghÜa t­¬ng tù

nh­ hµm Info(D) nh­ sau:

)||

||(log

||

||)( 2

1 D

D

D

DDSplitInfo

jv

j

j

A

(6.4)

Gi¸ trÞ nµy biÓu diÔn th«ng tin tiÒm n¨ng ®­îc sinh ra th«ng qua viÖc chia

tËp d÷ liÖu huÊn luyÖn D thµnh v tËp con t­¬ng øng víi c¸c gi¸ trÞ cña thuéc tÝnh

A. Chó ý r»ng víi mçi gi¸ trÞ cña thuéc tÝnh j, nã tÝnh to¸n sè l­îng c¸c phÇn tö

cã gi¸ trÞ thuéc tÝnh A lµ j trªn tæng sè l­îng phÇn tö cña D. §©y lµ ®iÓm kh¸c so

víi ®é lîi th«ng tin, do ®ã c«ng thøc tÝnh tØ sè ®é lîi sÏ lµ:

)(

)()(

ASplitInfo

AGainAGainRatio (6.5)

trong ®ã hµm SplitInfoA(D) ®­îc viÕt ng¾n gän thµnh SplitInfo(A). Dùa

trªn ®é ®o nµy, c¸c thuéc tÝnh cã gi¸ trÞ tØ sè ®é lîi cao sÏ ®­îc chän lµm thuéc

tÝnh ph©n chia d÷ liÖu. Cã mét chó ý r»ng, nÕu hµm SplitInfo(A)=0 th× c«ng thøc

trªn kh«ng dïng ®­îc, do ®ã cã thªm rµng buéc ®Ó tr¸nh tr­êng hîp nµy. Cô thÓ

gi¸ trÞ ®é lîi th«ng tin cña thuéc tÝnh ®­îc chän ph¶i ®ñ lín, Ýt nhÊt lµ lín h¬n

gi¸ trÞ trung b×nh ®é lîi th«ng tin cña tÊt c¶ c¸c thuéc tÝnh.

Trë l¹i b¶ng d÷ liÖu 6.1, ta tÝnh tØ sè ®é lîi cho thuéc tÝnh thu nhËp

(income). §Çu tiªn ta sö dông c«ng thøc 6.4 ®Ó tÝnh SplitInfoincome(D)

962.0

)14

4(log

14

4)

14

6(log

14

6)

14

4(log

14

4)( 222

DSplitInfoincome

Do ®ã 031.0962.0

029.0

)(

)()(

incomeSplitInfo

incomeGainincomeGainRatio

6.2.3 ChØ sè Gini

§©y lµ ®é ®o ®­îc sö dông trong gi¶i thuËt CART, chØ sè gini ®o ®é kh«ng

®ång nhÊt cña mét tËp d÷ liÖu D b»ng c«ng thøc:

m

iipDGini

1

21)( (6.6)

trong ®ã pi cã ý nghÜa gièng nh­ c«ng thøc 6.1; m lµ sè l­îng líp trong D.

ChØ sè Gini quan t©m ®Õn tr­êng hîp ta sö dông mét thuéc tÝnh vµ chia d÷ liÖu

thµnh 2 nöa. §Ó ®¬n gi¶n, ta xÐt tr­êng hîp thuéc tÝnh A cã v gi¸ trÞ kh¸c nhau

{a1, a2, …, av} xuÊt hiÖn trong D. §Ó x¸c ®Þnh c¸ch ph©n chia tèt nhÊt ta xÐt toµn

bé c¸c tËp con cña D ph©n chia theo c¸c gi¸ trÞ cña A. Do ®ã nÕu A cã v gi¸ trÞ

kh¸c nhau th× ta sÏ cã 2v tËp con cña D. VÝ dô thuéc tÝnh thu nhËp (income) cã 3

gi¸ trÞ {low, medium, high} th× c¸c tËp con cã thÓ sÏ lµ {low, medium, high},

{low, medium}, {medium, high}, {low, high}, {low}, {medium}, {high} vµ tËp

rçng {}. Chóng ta kh«ng xÐt 2 tËp con {low, medium, high} vµ {} v× nã kh«ng

chia d÷ liÖu ra 2 tËp, do ®ã ta cã tæng sè 2v -2 tr­êng c¸ch ®Ó chia tËp d÷ liÖu D

thµnh 2 tËp con dùa trªn thuéc tÝnh A. Khi chia tËp d÷ liÖu D thµnh 2 nöa D1 vµ

D2 chóng ta xem xÐt ®é kh«ng ®ång nhÊt (impurity) cña d÷ liÖu trong 2 nöa nµy:

)(||

||)(

||

||)( 2

21

1 DGiniD

DDGini

D

DDGiniA (6.7)

Trong tr­êng hîp thuéc tÝnh A cã gi¸ trÞ liªn tôc th× chóng ta ph¶i x¸c ®Þnh

c¸c ®iÓm (gi¸ trÞ) split_point ®Ó chia tËp d÷ liÖu D thµnh 2 tËp con. C¸c ®iÓm

split_point cã thÓ lÊy lµ gi¸ trÞ trung b×nh gi÷a 2 gi¸ trÞ gÇn nhau nhÊt cña thuéc

tÝnh A. Khi x¸c ®Þnh ®­îc ®iÓm chia d÷ liÖu split_point ta cã thÓ chia d÷ liÖu D

thµnh 2 tËp d÷ liÖu con lµ D1 vµ D2 sao

cho: int}_|{1 posplitxDXD A vµ

int}_|{1 posplitxDXD A trong ®ã vA lµ gi¸ trÞ cña thuéc tÝnh A.

Khi ®ã ta ®Þnh nghÜa ®é gi¶m cña ®é bÊt ®ång nhÊt cña d÷ liÖu khi chia d÷ liÖu

thµnh 2 tËp con theo thuéc tÝnh A:

)()()( DGiniDGiniAGini A (6.8)

Page 120: KPDL_C1-6 & C10

239 240

Do ®ã c¸ch ph©n chia nµo mµ t¹o ra 2 tËp con cã gi¸ trÞ Gini(A) lín nhÊt

(hay GiniA(D) nhá nhÊt) sÏ ®­îc chän. Tuy nhiªn trong tr­êng hîp nµy kh¸c víi

c¸c ®é ®o tr­íc, ta cÇn kÕt hîp c¸ch ph©n chia hay gi¸ trÞ ®iÓm ph©n chia (split

point) víi thuéc tÝnh ®Ó dïng lµm ®iÒu kiÖn ph©n nh¸nh c©y quyÕt ®Þnh.

Quay l¹i c¬ së d÷ liÖu kh¸ch hµng ë b¶ng 6.1, ta cã 9 phÇn tö d÷ liÖu thuéc

vµo líp Cyes vµ 5 phÇn tö d÷ liÖu thuéc vµo líp Cno do ®ã chØ sè Gini(D) ®o ®é

bÊt ®ång nhÊt trong D lµ:

459.0)14

5()

14

9(1)( 22 DGini

TiÕp theo ta xÐt thuéc tÝnh thu nhËp (income), b¾t ®Çu b»ng c¸ch ph©n chia

{low, medium} vµ {high}. Víi c¸ch ph©n chia nµy th× ta cã tËp D1 chøa 10 phÇn

tö d÷ liÖu cã thuéc tÝnh income cã gi¸ trÞ n»m trong tËp {low, medium} vµ tËp

D2 chøa 4 phÇn tö cã gi¸ trÞ income=high. Khi ®ã chØ sè Gini sÏ ®­îc tÝnh to¸n

lµ:

)(45.0

4

3

4

11

14

4

10

4

10

61

14

10

)()14

4()()

14

10()(

}{

22

22

21},{

DGini

DGiniDGiniDGini

highincome

mediumlowincome

T­¬ng tù, gi¸ trÞ Gini cho c¸ch chia {medium, high} vµ {low} lµ 0.3; gi¸

trÞ Gini cho c¸ch chia {low, high} vµ {medium} lµ 0.315. Do ®ã c¸ch chia

{medium, high} vµ {low} sÏ ®­îc chän lµm ®iÒu kiÖn ®Ó ph©n nh¸nh c©y quyÕt

®Þnh v× nã cho ta gi¸ trÞ Gini nhá nhÊt. Víi thuéc tÝnh tuæi (age) th× c¸ch ph©n

chia {youth, senior} vµ {middle_age} cho gi¸ trÞ tèt nhÊt lµ 0.375. Víi thuéc

tÝnh student vµ credit_rating ®Òu lµ gi¸ trÞ nhÞ ph©n nªn chóng ta chØ cã mét c¸ch

chia duy nhÊt, gi¸ trÞ Gini cña 2 thuéc tÝnh nµy lÇn l­ît lµ 0.367 vµ 0.429. Qua

kÕt qu¶ nµy ta thÊy thuéc tÝnh income cho gi¸ trÞ Gini nhá nhÊt do ®ã nã sÏ ®­îc

chän ®Ó lµm ®iÒu kiÖn ph©n nh¸nh c©y quyÕt ®Þnh, kh¸c víi 2 ®é ®o ë trªn chän

thuéc tÝnh tuæi lµm ®iÒu kiÖn ph©n nh¸nh ®Çu tiªn. Mét ®iÒu chó ý lµ víi ®é ®o

nµy th× ta kh«ng chØ quan t©m ®Õn thuéc tÝnh dïng ®Ó ph©n chia tËp d÷ liÖu mµ

cßn quan t©m ®Õn c¸ch chia d÷ liÖu theo thuéc tÝnh ®ã.

Ngoµi c¸c ®é ®o nµy cßn cã nhiÒu ®é ®o kh¸c, tuy nhiªn trong khu«n khæ

cuèn gi¸o tr×nh nµy sÏ kh«ng tr×nh bµy hÕt.

6.2.4 TØa c©y quyÕt ®Þnh

Sau khi c©y ®­îc x©y dùng , nã cã thÓ chøa nhiÒu nh¸nh ph¶n ¸nh sù bÊt

th­êng trong d÷ liÖu huÊn luyÖn: cã thÓ lµ c¸c tr­êng hîp ngo¹i lÖ, d÷ liÖu lçi

hay lµ d÷ liÖu nhiÔu. HiÖn t­îng trªn còng g©y ra hÖ qu¶ lµ x¶y ra hiÖn t­îng

c©y thu ®­îc qu¸ phï hîp d÷ liÖu (overfitting). §Ó gi¶i quyÕt vÊn ®Ò nµy

ph­¬ng ph¸p tØa c©y (tree pruning) ®­îc ®Ò xuÊt. Ph­¬ng ph¸p tØa c©y vÒ b¶n

chÊt lµ lo¹i bá c¸ch nh¸nh Ýt tin cËy nhÊt, do ®ã ta kh«ng nh÷ng thu ®­îc c©y cã

kh¶ n¨ng ph©n líp tèt h¬n mµ cßn lµm cho c©y c« ®äng h¬n vµ tèc ®é xö lý sÏ

nhanh h¬n. Ph­¬ng ph¸p tØa c©y ®­îc chia thµnh 2 lo¹i: tØa tr­íc (prepruning)

c©y vµ tØa sau (postpruning). Trong ph­¬ng ph¸p tØa tr­íc, c©y sÏ ®­îc tØa ngay

trong giai ®o¹n x©y dùng c©y, nã sÏ t­¬ng øng víi c¸c ®iÒu kiÖn ®Ó dõng ph¸t

triÓn mét nh¸nh nµo ®ã. Cßn ph­¬ng ph¸p tØa sau l¹i xö lý c©y sau khi nã ®·

®­îc x©y dùng hoµn chØnh. Trong néi dung cuèn gi¸o tr×nh nµy sÏ kh«ng ®i s©u

vµo c¸c ph­¬ng ph¸p tØa c©y, ®éc gi¶ cã thÓ tham kh¶o ë tµi liÖu [Han06].

6.3. ThuËt to¸n ph©n líp Naive Bayes

Bé ph©n líp Bayes lµ mét thuéc líp gi¶i thuËt ph©n líp thèng kª, nã cã thÓ

dù ®o¸n x¸c suÊt cña mét phÇn tö d÷ liÖu thuéc vµo mét líp lµ bao nhiªu. Ph©n

líp Bayes ®­îc dùa trªn ®Þnh lý Bayes (®Þnh lý ®­îc ®Æt theo tªn t¸c gi¶ cña nã

lµ Thomas Bayes).

Page 121: KPDL_C1-6 & C10

241 242

6.2.1 §Þnh lý Bayes

Gäi X lµ mét chøng cø (evidence) (trong bµi to¸n ph©n líp th× X sÏ lµ mét

phÇn tö d÷ liÖu), H lµ mét gi¶ thiÕt nµo ®Ó cho X thuéc vÒ mét líp mét líp C nµo

®ã. Trong bµi to¸n ph©n líp chóng ta muèn x¸c ®Þnh gi¸ trÞ P(H |X) lµ x¸c suÊt

®Ó gi¶ thiÕt H lµ ®óng víi chøng cø X thuéc vµo líp C víi ®iÒu kiÖn ta biÕt c¸c

th«ng tin m« t¶ X. P(H |X) lµ mét x¸c suÊt hËu nghiÖm (posterior probability hay

posteriori probability) cña H víi ®iÒu kiÖn X.

Gi¶ sö tËp d÷ liÖu kh¸ch hµng cña chóng ta ®­îc m« t¶ bëi c¸c thuéc tÝnh

tuæi vµ thu nhËp, vµ mét kh¸ch hµng X cã tæi lµ 35 vµ thu nhËp lµ $40000. Gi¶

sö H lµ gi¶ thiÕt kh¸ch hµng ®ã sÏ mua m¸y tÝnh, th× P(H |X) ph¶n ¸nh x¸c suÊt

ng­êi dïng X sÏ mua m¸y tÝnh víi ®iÒu kiÖn ta biÕt tuæi vµ thu nhËp cña ng­êi

®ã.

Ng­îc l¹i P(H) lµ x¸c suÊt tiÒn nghiÖm (prior probability hay priori

probability) cña H. Trong vÝ dô trªn, nã lµ x¸c suÊt mét kh¸ch hµng sÏ mua m¸y

tÝnh mµ kh«ng cÇn biÕt c¸c th«ng tin vÒ tuæi hay thu nhËp cña hä. Hay nãi c¸ch

kh¸c, x¸c suÊt nµy kh«ng phô thuéc vµo X. T­¬ng tù, P(X |H) lµ x¸c suÊt cña X

víi ®iÒu kiÖn H, nã lµ mét x¸c suÊt hËu nghiÖm. VÝ dô, nã lµ x¸c suÊt ng­êi

dïng X (cã tæi lµ 35 vµ thu nhËp lµ $40000) sÏ mua m¸y tÝnh víi ®iÒu kiÖn ta ®·

biÕt lµ ng­êi dïng ®ã sÏ mua m¸y tÝnh. Cuèi cïng P(X) lµ x¸c suÊt tiÒn nghiÖm

cña X. Trong vÝ dô trªn, nã sÏ lµ x¸c suÊt mét ng­êi trong tËp d÷ liÖu sÏ cã tuæi

34 vµ thu nhËp $40000. C¸c x¸c suÊt nµy sÏ ®­îc tÝnh dùa vµo ®Þnh lý Bayes nh­

sau:

)(

)()|()|(

XP

HPHXPXHP (6.9)

6.2.2 Ph©n líp Naive Bayes

Bé ph©n líp Naive Bayes hay bé ph©n líp Bayes ®¬n gi¶n (simple Bayes

classifier) ho¹t ®éng nh­ sau:

1) Gäi D lµ tËp d÷ liÖu huÊn luyÖn, trong ®ã mçi phÇn tö d÷ liÖu X ®­îc biÓu

diÔn b»ng mét vector chøa n gi¸ trÞ thuéc tÝnh A1, A2, …, An , X={x1, x2,

…, xn}.

2) Gi¶ sö cã m líp C1, C2, …, Cm; Cho mét phÇn tö d÷ liÖu X, bé ph©n líp sÏ

g¸n nh·n cho X lµ líp cã x¸c suÊt hËu nghiÖm lín nhÊt. Cô thÓ, bé ph©n

líp Bayes sÏ dù ®o¸n X thuéc vµo líp Ci nÕu vµ chØ nÕu:

),1( )|()|( jimiXCPXCP ji (6.10)

Gi¸ trÞ nµy sÏ ®­îc tÝnh dùa vµo ®Þnh lý Bayes:

)(

)()|()|(

XP

CPCXPXCP ii

i (6.11)

3) §Ó t×m gi¸ trÞ x¸c suÊt lín nhÊt, ta nhËn thÊy trong c«ng thøc 6.10 th× gi¸

trÞ P(X) lµ gièng nhau víi mäi líp nªn ta kh«ng cÇn tÝnh. Do ®ã ta chØ cÇn

t×m gi¸ trÞ lín nhÊt cña P(X |Ci)P(Ci). Chó ý r»ng P(Ci) ®­îc ­íc l­îng

b»ng c«ng thøc ||

||)(

D

DCP i

i , trong ®ã Di lµ tËp c¸c phÇn tö d÷ liÖu

thuéc vµo líp Ci. NÕu x¸c suÊt tiÒn nghiÖm P(Ci) còng kh«ng x¸c ®Þnh

®­îc th× ta coi chóng b»ng nhau P(C1)=P(C2)=… =P(Cm), khi ®ã ta chØ cÇn

t×m gi¸ trÞ P(X |Ci) lín nhÊt.

4) Khi sè l­îng c¸c thuéc tÝnh m« t¶ d÷ liÖu lµ lín th× chi phÝ tÝnh to¸n P(X

|Ci) lµ rÊt lín, do ®ã ®Ó lµm gi¶m ®é phøc t¹p, gi¶i thuËt Naive bayes gi¶

thiÕt c¸c thuéc tÝnh lµ ®éc lËp nhau hay kh«ng cã sù phô thuéc nµo gi÷a

c¸c thuéc tÝnh. Khi ®ã ta cã thÓ tÝnh:

)|(...)|()|()|( 11

ini

n

kiki CxPCxPCxPCXP

(6.12)

Chóng ta cã thÓ ­íc l­îng )|(),...,|(),|( 21 inii CxPCxPCxP tõ

tËp d÷ liÖu huÊn luyÖn víi xk lµ gi¸ trÞ cña thuéc tÝnh Ak cña phÇn tö d÷ liÖu

X. §Ó tÝnh to¸n x¸c suÊt P(X | Ci), th× tïy vµo gi¸ trÞ cña c¸c thuéc tÝnh mµ

ta sÏ sö dông c¸c ph­¬ng ph¸p tÝnh to¸n kh¸c nhau:

Page 122: KPDL_C1-6 & C10

243 244

a) NÕu c¸c Ak ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ rêi r¹c th×

||

||)|(

i

ki

ikD

DCxP , trong ®ã

kiD lµ tËp c¸c phÇn tö trong iD cã gi¸

trÞ cña thuéc tÝnh Ak b»ng xk.

b) NÕu c¸c Ak ®­îc biÓu diÔn b»ng c¸c gi¸ trÞ liªn tôc, khi ®ã ta gi¶ thiÕt

nã tu©n theo ph©n bè chuÈn Gauss víi gi¸ trÞ trung b×nh m vµ ®é lÖch

chuÈn σ vµ hµm mËt ®é g ®­îc ®Þnh nghÜa nh­ sau:

2

2

2

)(

2

1),,(

mx

emxg

(6.13)

vµ x¸c suÊt )|( ik CxP ®­îc tÝnh b»ng c«ng thøc:

),,()|( kC

kCkik ii

xgCxP (6.14)

trong ®ã kC

kC ii

m , lµ gi¸ trÞ trung b×nh (mean) vµ ®é lÖch chuÈn

(standard deviation) cña thuéc tÝnh Ak víi ®iÒu kiÖn lµ thuéc líp Ci . Gäi

Di lµ tËp hîp c¸c phÇn tö d÷ liÖu thuéc vµo líp Ci (Di D), khi ®ã gi¸ trÞ

trung b×nh vµ ®é lÖch chuÈn cña c¸c thuéc tÝnh Ak cña líp Ci ®­îc tÝnh

nh­ sau:

|| i

DX

jk

kC

D

x

m ij

i

(6.15)

ij

ii

DX

kC

jk

i

kC x

D2)(

||

1 (6.16)

Quay l¹i c¬ së d÷ liÖu kh¸ch hµng ë b¶ng 6.1, gi¶ sö ta cã mét kh¸ch hµng

míi X cã c¸c gi¸ trÞ thuéc tÝnh lµ:

X=(age=youth, income=medium, student=yes, credit_rating=fair)

B©y giê cÇn x¸c ®Þnh xem kh¸ch hµng X cã thuéc líp Cyes (mua m¸y tÝnh)

hay kh«ng, ta tÝnh to¸n nh­ sau:

P(Cyes)=9/14=0.643; P(Cno)=5/14=0.357;

Tr­íc khi tÝnh x¸c suÊt P(X | Ci), ta tÝnh c¸c x¸c suÊt thµnh phÇn:

P(age = youth | Cyes) = 2/9 = 0.222

P(age = youth | Cno) = 3/5 = 0.600

P(income = medium | Cyes) = 4/9 = 0.444

P(income = medium | Cno) = 2/5 = 0.400

P(student = yes | Cyes) = 6/9 = 0.667

P(student = yes | Cno) = 1/5 = 0.200

P(credit_rating= fair | Cyes) = 6/9 = 0.667

P(credit_rating = fair | Cno) = 2/5 = 0.400

Cuèi cïng ta cã x¸c suÊt P(X | Ci):

P(X | Cyes) = P(age = youth | Cyes) * P(income = medium | Cyes) *

P(student = yes | Cyes) *P(credit_rating = fair | Cyes)

= 0.222 * 0.444 * 0.667 * 0.667 = 0.044

P(X | Cno) = 0.600 * 0.400 * 0.200 * 0.400 = 0.019.

P(X | Cyes) * P(Cyes) = 0.044 * 0.643 = 0.028

P(X | Cno) * P(Cno) = 0.019 * 0.357 = 0.007

Tõ kÕt qu¶ nµy ta thÊy P(X | Cyes) * P(Cyes) cã gi¸ trÞ lín nhÊt, do ®ã thuËt

to¸n Bayes sÏ kÕt luËn lµ kh¸ch hµng X sÏ mua m¸y tÝnh.

Trong qu¸ tr×nh tÝnh to¸n c«ng thøc 6.12, ta cã thÓ gÆp tr­êng hîp P(xk |

Ci)=0. VÝ dô trong tr­êng hîp thuéc tÝnh Ak lµ gi¸ trÞ rêi r¹c th× gi¸ trÞ P(xk | Ci)

®­îc tÝnh theo c«ng thøc ||

||)|(

i

ki

ikD

DCxP , khi 0|| k

iD th× P(xk | Ci)=0.

§iÒu nµy cã nghÜa lµ P(X | Ci) theo c«ng thøc 6.12 sÏ cã gi¸ trÞ lµ 0. §Ó tr¸nh

tr­êng hîp nµy x¶y ra, ta cã thÓ sö dông c«ng thøc ­íc l­îng Laplace (Laplace

estimator), c«ng thøc Laplace cã rÊt nhiÒu d¹ng tïy thuéc vµo c¸c bµi to¸n kh¸c

nhau, trong tr­êng hîp cô thÓ nµy ta cã thÓ sö dông c«ng thøc:

Page 123: KPDL_C1-6 & C10

245 246

mD

DCxP

i

ki

ik

||

||1)|( (6.17)

trong ®ã m lµ sè l­îng líp, ta cã thÓ nhËn thÊy ë tö sè ®· ®­îc céng thªm

gi¸ trÞ 1 nªn nã sÏ tr¸nh ®­îc tr­êng hîp P(xk | Ci)=0. Mét vÝ dô cô thÓ, gi¶ sö

líp Cyes cã 1000 phÇn tö d÷ liÖu, trong ®ã kh«ng cã phÇn tö nµo cã gi¸ trÞ thuéc

tÝnh thu nhËp income = low, cã 990 phÇn tö d÷ liÖu cã income = medium, vµ 10

phÇn tö d÷ liÖu cã income = high. NÕu kh«ng sö dông ­íc l­îng Laplace th× x¸c

suÊt cña P(xk | Cyes) t­¬ng øng sÏ lµ: 0/1000=0; 990/1000=0.990 vµ

10/1000=0.010. Khi sö dông ­íc l­îng Laplace th× c¸c x¸c suÊt sÏ t­¬ng øng lµ:

1/1003=0.001; 991/1003=0.998 vµ 11/1003=0.011, nh­ vËy ta ®· gi¶i quyÕt

®­îc vÊn ®Ò cña c«ng thøc 6.12.

6.3. ThuËt to¸n ph©n líp m¸y vector hç trî SVM

T­¬ng tù thuËt to¸n Bayes, thuËt to¸n m¸y vector hç trî (Support Vector

Machines – SVM) lµ mét thuéc líp gi¶i thuËt ph©n líp thèng kª. Nã cã kh¶

n¨ng xö lý c¶ d÷ liÖu tuyÕn tÝnh vµ d÷ liÖu kh«ng tuyÕn tÝnh. B¶n chÊt cña gi¶i

thuËt nµy lµ nã x©y dùng mét siªu ph¼ng ®Ó ph©n chia d÷ liÖu thµnh 2 nöa.

Trong tr­êng hîp nÕu d÷ liÖu lµ kh«ng tuyÕn tÝnh th× nã sÏ sö dông mét hµm

nh©n (kernel function) ®Ó chuyÓn ®æi tËp d÷ liÖu ban ®Çu sang mét kh«ng gian

míi cã sè chiÒu lín h¬n ®Ó xö lý.

6.3.1 Tr­êng hîp d÷ liÖu cã thÓ ph©n lo¹i tuyÕn tÝnh

§Ó lµm quen víi thuËt to¸n ph©n líp SVM ta xÐt tr­êng hîp ®¬n gi¶n lµ tËp

d÷ liÖu huÊn luyÖn chØ cã 2 líp vµ nã ph©n bè ë d¹ng mµ ta cã thÓ ph©n t¸ch

chóng mét c¸ch tuyÕn tÝnh. Gäi D lµ tËp d÷ liÖu huÊn luyÖn: (X1, y1), (X2, y2), …

, (X|D|, y|D|), trong ®ã Xi lµ c¸c phÇn tö d÷ liÖu vµ yi lµ nh·n t­¬ng øng cña nã.

Gi¸ trÞ cña yi cã thÓ nhËn lµ mét trong 2 gi¸ trÞ {-1, +1} gièng nh­ tËp d÷ liÖu

trong b¶ng 6.1 lµ cã 2 líp cho tr­êng mua m¸y tÝnh lµ yes hay no. §Ó cã thÓ

hiÓn thÞ ®­îc d÷ liÖu ta lÊy tr­êng hîp d÷ liÖu ®­îc biÓu diÔn b»ng 2 thuéc tÝnh

A1 vµ A2, vµ c¸c phÇn tö d÷ liÖu cña tËp D ®­îc minh häa b»ng h×nh 6.3. Tõ h×nh

vÏ cho chóng ta thÊy d÷ liÖu cã thÓ ph©n t¸ch thµnh 2 nöa b»ng mét ®­êng

th¼ng. Tuy nhiªn sè l­îng c¸c ®­êng th¼ng cã thÓ dïng ®Ó ph©n t¸ch tËp d÷ liÖu

trªn thµnh 2 nöa lµ v« h¹n (h×nh 6.3 minh häa mét sè ®­êng th»ng vÏ b»ng

®­êng ®øt nÐt cã thÓ dïng ®Ó ph©n t¸ch d÷ liÖu thµnh 2 líp riªng biÖt). Trong

tr­êng hîp d÷ liÖu ®­îc biÓu diÔn b»ng 3 thuéc tÝnh (3 chiÒu) th× ®­êng th¼ng sÏ

®­îc thay thÕ b»ng mÆt ph¼ng (plane), vµ tr­êng hîp tæng qu¸t (n chiÒu) th× ta

dïng siªu ph¼ng (hyperplane) ®Ó thay thÕ ®­êng th¼ng. Ta sÏ dïng thuËt ng÷

siªu ph¼ng tõ ®o¹n nµy vÒ sau trong thuËt to¸n SVM.

§Ó t×m ra siªu ph¼ng tèt nhÊt, gi¶i thuËt SVM t×m siªu ph¼ng cã lÒ lín

nhÊt (maximum marginal hyperplane - MMH). Kh¸i niÖm lÒ cã thÓ ®­îc minh

häa trªn h×nh 6.4, lÒ cña siªu ph¼ng h lµ tæng kho¶ng c¸ch tõ h ®Õn 2 siªu ph¼ng

lµ tiÕp tuyÕn víi 2 miÒn d÷ liÖu (ë hai bªn siªu ph¼ng) vµ song song víi siªu

ph¼ng h. Hay nãi mét c¸ch kh¸c, lÒ cña siªu ph¼ng h lµ tæng kho¶ng c¸ch cña 2

phÇn tö d÷ liÖu (ë 2 mÆt cña siªu ph¼ng) trong tËp d÷ liÖu huÊn luyÖn gÇn víi h nhÊt. H×nh 6.5 minh häa mét siªu ph¼ng kh¸c cã lÒ lín h¬n so víi lÒ cña siªu

ph¼ng trong h×nh 6.4. Lý do cña viÖc t×m siªu ph¼ng cã lÒ lín nhÊt lµ ta hy väng

nã sÏ nã cã thÓ ph©n líp tèt nhÊt, nã cho chóng ta tØ lÖ lçi ph©n líp thÊp nhÊt.

Mét siªu ph¼ng ph©n líp cã thÓ biÓu diÔn b»ng c«ng thøc:

0 bXW (6.18)

Page 124: KPDL_C1-6 & C10

247 248

H×nh 6.3 Minh häa d÷ liÖu cã thÓ ph©n t¸ch mét c¸ch tuyÕn tÝnh

H×nh 6.4 LÒ cña mét siªu ph¼ng

H×nh 6.5 Siªu ph¼ng cã lÒ lín

trong ®ã W lµ vector träng sè W={w1, w2, …, wn}; vµ n lµ sè l­îng c¸c

thuéc tÝnh m« t¶ tËp d÷ liÖu D; b lµ mét sè thùc ®­îc gäi lµ ®é lÖch. Trong

tr­êng hîp ®¬n gi¶n nhÊt, ta xÐt sè l­îng thuéc tÝnh lµ 2 ký hiÖu lµ A1 vµ A2.

Khi ®ã phÇn tö d÷ liÖu X ®­îc biÓu diÔn b»ng X=(x1, x2) víi x1, x2 lµ gi¸ trÞ

t­¬ng øng cña thuéc tÝnh A1 vµ A2. NÕu ta coi b còng lµ mét träng sè th× c«ng

thøc 6.18 sÏ ®­îc cã d¹ng:

022110 xwxww (6.19)

Khi ®ã c¸c ®iÓm n»m phÝa trªn siªu ph¼ng sÏ tháa m·n ®iÒu kiÖn:

022110 xwxww (6.20)

C¸c ®iÓm n»m phÝa d­íi siªu ph¼ng sÏ tháa m·n ®iÒu kiÖn:

022110 xwxww (6.21)

Hai siªu ph¼ng tiÕp tuyÕn víi d÷ liÖu vµ song song víi siªu ph¼ng ph©n líp

h cã thÓ ®­îc biÓu diÔn b»ng c«ng thøc:

1: 221101 xwxwwH , víi yi=+1 vµ (6.22)

1: 221102 xwxwwH , víi yi=-1 (6.23)

Page 125: KPDL_C1-6 & C10

249 250

Do ®ã, nãi mét c¸ch chÝnh x¸c h¬n th× c¸c ®iÓm ë trªn siªu ph¼ng H1 sÏ

®­îc ph©n vµo líp +1 vµ c¸c ®iÓm ë d­íi siªu ph¼ng H2 sÏ ®­îc ph©n vµo líp -1.

B»ng c¸ch nh©n c¶ 2 vÕ cña 2 bÊt ®¼ng thøc 6.22 vµ 6.23 víi yi ta ®­îc bÊt ®¼ng

thøc chung:

1)( 22110 xwxwwyi , víi i (6.24)

§Ó x¸c ®Þnh 2 siªu ph¼ng H1 vµ H2 ta chØ cÇn dùa vµo c¸c phÇn tö d÷ liÖu

huÊn luyÖn n»m trªn 2 siªu ph¼ng (c¸c phÇn tö d÷ liÖu tháa m·n

1)( 22110 xwxwwyi ).

C¸c phÈn tö d÷ liÖu nµy ®­îc gäi lµ c¸c vector hç trî (support vector).

Chóng còng chÝnh lµ c¸c phÇn tö d÷ liÖu n»m gÇn siªu ph¼ng ph©n chia h nhÊt.

H×nh 6.6 minh häa c¸c vector hç trî (chóng lµ c¸c h×nh ®­îc b«i ®en) . Trong

tr­êng hîp tæng qu¸t th× c¸c vector hç trî chÝnh lµ c¸c phÇn tö khã ph©n líp nhÊt

nh­ng l¹i cung cÊp nhiÒu th«ng tin nhÊt cho viÖc ph©n líp (gióp ta x¸c ®Þnh c¸c

siªu ph¼ng tiÕp tuyÕn). Tõ c«ng thøc 6.24 ë trªn chóng ta cã thÓ suy ra c«ng

thøc tÝnh ®é lín cña lÒ. Kho¶ng c¸ch tõ mét ®iÓm bÊt kú tõ siªu ph¼ng H1 ®Õn

siªu ph¼ng ph©n líp h lµ W

1, trong ®ã W lµ chuÈn Euclidean cña W:

222

21 ... nwwwWWW (6.25)

T­¬ng tù kho¶ng c¸ch tõ mét ®iÓm bÊt kú tõ siªu ph¼ng H2 ®Õn siªu ph¼ng

ph©n líp h còng lµ W

1, vµ ®é lín cña lÒ sÏ lµ

W

2. ViÖc t×m ra siªu ph¼ng cã

lÒ lín nhÊt ng­êi ta dùa vµo viÖc gi¶i c«ng thøc 6.24, viÖc nµy cã thÓ gi¶i quyÕt

b»ng bµi to¸n tèi ­u toµn ph­¬ng låi (convex quadratic optimization). Chi tiÕt

c¸ch gi¶i bµi to¸n nµy sÏ kh«ng ®­îc tr×nh bµy trong khu«n khæ cuèn gi¸o tr×nh

nµy.

H×nh 6.6 Minh häa vector hç trî

Sau khi t×m ®­îc siªu ph¼ng cã lÒ lín nhÊt MMH, siªu ph¼ng nµy cã thÓ

®­îc viÕt l¹i dùa trªn c«ng thøc Lagrangian nh­ sau:

l

i

Tiii

T bXXyXf1

0)( 6.26

trong ®ã yi lµ nh·n cña c¸c vector hç trî Xi ; XT lµ mét phÇn tö d÷ liÖu

kiÓm tra; ¸i vµ b0 lµ c¸c sè thùc, chóng lµ c¸c tham sè ®­îc x¸c ®Þnh th«ng qua

qu¸ tr×nh tèi ­u; vµ l lµ sè l­îng c¸c vector hç trî.

Cho mét phÇn tö d÷ liÖu míi XT nÕu sign(f(XT )) =+1 th× phÇn tö XT n»m

trªn siªu ph¼ng MMH, SVM sÏ dù ®o¸n nh·n cña XT lµ +1, ng­îc l¹i nã sÏ dù

®o¸n XT thuéc líp -1.

6.3.2 Tr­êng hîp d÷ liÖu kh«ng thÓ ph©n t¸ch tuyÕn tÝnh

Trong thùc tÕ ta cã thÓ gÆp nhiÒu miÒn d÷ liÖu kh«ng thÓ ph©n t¸ch mét

c¸ch tuyÕn tÝnh nh­ trong h×nh 6.7. Víi vÝ dô minh häa nµy, ta thÊy kh«ng thÓ

tån t¹i mét siªu ph¼ng nµo cã thÓ ph©n t¸ch tËp d÷ liÖu (®­îc ký hiÖu b»ng c¸c

h×nh trßn rçng vµ h×nh trßn ®­îc t« ®en) thµnh 2 nöa. Tuy nhiªn SVM cã thÓ më

Page 126: KPDL_C1-6 & C10

251 252

réng ®Ó ph©n líp ®­îc c¸c d÷ liÖu kh«ng thÓ ph©n t¸ch tuyÕn tÝnh (linearly

inseparable data hay non-linearly separable data) hay gäi ®¬n gi¶n lµ d÷ liÖu

kh«ng tuyÕn tÝnh (nonlinear data) hay d÷ liÖu phi tuyÕn. SVM më réng nµy cã

kh¶ n¨ng t×m ®­îc ranh ríi (boundary) ph©n líp, hay siªu diÖn kh«ng tuyÕn tÝnh

(nonlinear hypersurface) (hay siªu diÖn phi tuyÕn) tõ kh«ng gian d÷ liÖu ®Çu

vµo.

SVM ®­îc më réng ®Ó xö lý d÷ liÖu phi tuyÕn theo 2 b­íc chÝnh nh­ sau:

1. B­íc ®Çu tiªn chóng ta chuyÓn kh«ng gian d÷ liÖu ®Çu vµo thµnh mét

kh«ng gian d÷ liÖu cã sè chiÒu lín h¬n b»ng mét ¸nh x¹ kh«ng tuyÕn

tÝnh (¸nh x¹ phi tuyÕn). Cã rÊt nhiÒu ¸nh x¹ phi tuyÕn cã thÓ ®­îc sö

dông trong b­íc nµy (sÏ ®­îc tr×nh bµy ë d­íi).

2. Khi d÷ liÖu ®· ®­îc chuyÓn sang kh«ng gian cã sè chiÒu lín h¬n, b­íc

tiÕp theo ta t×m siªu ph¼ng tuyÕn tÝnh ®Ó ph©n líp d÷ liÖu trªn kh«ng

gian míi.

§Ó minh häa cho ph­¬ng ph¸p xö lý cña SVM ta cã thÓ xem minh häa

trong h×nh 6.8, trong ®ã h×nh 6.8 a) m« t¶ kh«ng cña gian d÷ liÖu ®Çu vµo (nã

®­îc biÓu diÔn b»ng kh«ng gian 2 chiÒu), râ rµng víi ph©n bè d÷ liÖu nh­ thÕ

nµy th× ta kh«ng thÓ dïng mét siªu ph¼ng ®Ó ph©n t¸ch 2 líp ra thµnh 2 phÇn ®éc

lËp nhau. Sau khi sö dông hµm ¸nh x¹, kh«ng gian d÷ liÖu ®Çu vµo sÏ ®­îc

chuyÓn sang kh«ng gian míi cã sè chiÒu cao h¬n (3 chiÒu), ®Æc biÖt trong kh«ng

gian d÷ liÖu míi nµy ta cã thÓ sö dông mét siªu ph¼ng ®Ó ph©n t¸ch d÷ liÖu

thµnh 2 líp.

H×nh 6.7 Tr­êng hîp d÷ liÖu kh«ng thÓ ph©n t¸ch b»ng mét siªu ph¼ng

a) Kh«ng gian ban ®Çu (2 chiÒu) b) Kh«ng gian míi (3 chiÒu)

H×nh 6.8 Hµm ¸nh x¹ tõ d÷ liÖu phi tuyÕn sang d÷ liÖu tuyÕn tÝnh

VÝ dô trong mét miÒn d÷ liÖu 3 chiÒu, mét phÇn tö d÷ liÖu sÏ ®­îc biÓu

diÔn b»ng vector X=(x1, x2, x3), sau khi sö dông mét hµm ¸nh x¹ « sang kh«ng

gian míi cã 6 chiÒu, phÇn tö X sÏ biÕn thµnh Z, sao cho Z=«(X)=(x1, x2, x3,

x1*x1, x1*x2, x1*x3). Gi¶ sö sau khi biÕn ®æi, d÷ liÖu trong kh«ng gian míi sÏ cã

thÓ ph©n líp tuyÕn tÝnh, vµ ta cã thÓ dïng mét siªu ph¼ng ®Ó ph©n t¸ch d÷ liÖu

thµnh 2 nöa, khi ®ã siªu ph¼ng h sÏ ®­îc biÓu diÔn b»ng c«ng thøc

h(Z)=W*Z+b, trong ®ã W lµ vector träng sè vµ Z lµ vector biÓu diÔn d÷ liÖu

trong kh«ng gian míi vµ b lµ mét sè thùc gièng nh­ c«ng thøc biÓu diÔn siªu

Page 127: KPDL_C1-6 & C10

253 254

ph¼ng 6.18. Khi diÔn gi¶i c«ng thøc nµy ra ta cã c«ng thøc biÓu diÔn siªu ph¼ng

lµ:

h(Z)=w1x1 + w2 x2 + w3 x3 + w4 x1*x1+ w5x1*x2+w6 x1*x3+b

=w1z1 + w2 z2 + w3 z3 + w4 z4+ w5z5+w6 z6+b

Tuy chóng ta ®· më réng thªm søc m¹nh cña SVM, nh­ng chóng ta l¹i cã

thªm vÊn ®Ò. Cô thÓ lµ ®é phøc t¹p thuËt to¸n sÏ t¨ng lªn bëi v× ta ph¶i sö dông

thªm hµm ¸nh x¹. RÊt may lµ tån t¹i gi¶i ph¸p cho vÊn ®Ò nµy, chó ý c«ng thøc

6.25, ta ph¶i thùc hiÖn phÐp nh©n tÝch v« h­íng XiXT (trong ®ã Xi vµ XT ®Òu lµ

c¸c vector trong kh«ng gian d÷ liÖu ban ®Çu) hay viÕt XiXj cho ®¬n gi¶n:

k

jkikji xxXX * , trong ®ã xik lµ c¸c gi¸ trÞ biÓu diÔn phÇn tö d÷ liÖu Xi

vµ xjk lµ c¸c gi¸ trÞ biÓu diÔn phÇn tö d÷ liÖu Xj.

Khi chuyÓn sang kh«ng gian míi, tÝch v« h­íng trªn sÏ ®­îc tÝnh to¸n

b»ng «(Xi)«(Xj) trong ®ã « lµ hµm ¸nh x¹. Tuy nhiªn, mét mÑo to¸n häc rÊt hay

ë ®©y lµ, thay v× tÝnh tÝch v« h­íng trªn d÷ liÖu ë kh«ng gian d÷ liÖu míi, ta sö

dông th× ta cã thÓ sö dông mét hµm nh©n (kernel function) K cho kÕt qu¶ t­¬ng

tù nh­ sau:

)()(),( jiji XΦXΦXXK (6.27)

B»ng c¸ch sö dông hµm t­¬ng ®­¬ng nµy, th× ë bÊt kú ®©u xuÊt hiÖn

«(Xi)«(Xj) th× ta thay thÕ b»ng hµm K(Xi,Xj). Do ®ã, viÖc tÝnh to¸n vÒ b¶n chÊt

sÏ ®­îc thùc hiÖn trªn kh«ng gian d÷ liÖu ban ®Çu – kh«ng gian cã kh¶ n¨ng cã

sè chiÒu nhá h¬n nhiÒu. Sau khi sö dông hµm nh©n thay thÕ, ta cã thÓ sö dông

thuËt to¸n t×m kiÕm siªu ph¼ng ph©n líp mµ còng kh«ng cÇn quan t©m ®Õn ¸nh

x¹ biÕn ®æi cô thÓ lµ g×. C¸c ®Æc ®iÓm cña hµm nh©n cã thÓ sö dông ®Ó thay thÕ

hµm nh©n tÝch v« h­íng ®· ®­îc nghiªn cøu. D­íi ®©y xin tr×nh bµy mét sè hµm

nh©n phæ biÕn, nã th­êng ®­îc cµi ®Æt trong c¸c gãi phÇn mÒm cµi ®Æt gi¶i thuËt

SVM (ch¼ng h¹n nh­ th­ viÖn libSVM20, hay th­ viÖn Weka21):

20 http://www.csie.ntu.edu.tw/~cjlin/libsvm/

21 http://sourceforge.net/projects/weka/

1. Hµm nh©n ®a thøc cÊp h:

h

jiji XXXXK )1(),( (6.28)

2. Hµm nh©n Gaussian radial c¬ b¶n:

222/

),(ji XX

ji eXXK

(6.29)

3. Hµm nh©n ®a sigmoid

)tanh(),( jiji XXXXK (6.30)

Mét sè hµm nh©n kh¸c ta cã thÓ tham kh¶o vµ thö nghiÖm tõ bé phÇn mÒm

cµi ®Æt gi¶i thuËt SVM cã tªn lµ Accord.NET22 .

VÊn ®Ò thø 2 lµ liÖu cã tån t¹i mét hµm nh©n nµo cã thÓ biÕn c¸c tËp d÷

liÖu phi tuyÕn bÊt kú sang kh«ng gian d÷ liÖu tuyÕn tÝnh. C©u tr¶ lêi cã lÏ lµ

kh«ng, tïy vµo tõng lo¹i d÷ liÖu mµ sÏ cã mét hoÆc mét sè hµm nh©n phï hîp.

Trong nhiÒu tr­êng hîp ta ph¶i chän thö nhiÒu hµm nh©n kh¸c nhau ®Ó chän ra

hµm nh©n phï hîp víi tËp d÷ liÖu ®ang xö lý nhÊt.

6.3.3 Ph©n líp ®a líp víi SVM

VÊn ®Ò cuèi cïng lµ thuËt to¸n SVM tr×nh bµy ë trªn chØ ho¹t ®éng víi d÷

liÖu cã 2 líp, trong thùc tÕ sè l­îng líp cña d÷ liÖu cã thÓ rÊt lín. RÊt may lµ

còng ®· cã gi¶i ph¸p ®Ó më réng SVM cho bµi to¸n ph©n líp cã nhiÒu líp.

Bµi to¸n ph©n líp c©u hái yªu cÇu mét bé ph©n líp ®a líp do ®ã cÇn c¶i

tiÕn SVM c¬ b¶n (ph©n líp nhÞ ph©n) thµnh bé ph©n líp ®a líp.

Mét trong nh÷ng ph­¬ng ph¸p c¶i tiÕn ®ã lµ sö dông thuËt to¸n 1-against-all [Hsu02, Milgram06]. ý t­ëng c¬ b¶n lµ chuyÓn bµi to¸n ph©n líp

nhiÒu líp thµnh nhiÒu bµi to¸n ph©n líp nhÞ ph©n nh­ sau:

22 http://crsouza.blogspot.com/2010/03/kernel-functions-for-

machine-learning.html

Page 128: KPDL_C1-6 & C10

255 256

Gi¶ sö tËp d÷ liÖu mÉu 1 1( , ),..., ( , )m mx y x y víi ix lµ mét vector n

chiÒu vµ iy Y lµ nh·n líp ®­îc g¸n cho vector ix (cã m nh·n líp

kh¸c nhau)

BiÕn ®æi tËp Y ban ®Çu thµnh m tËp cã hai líp con

}}{,{ iii yYyZ

¸p dông SVM ph©n líp nhÞ ph©n c¬ b¶n víi m tËp iZ ®Ó x©y dùng siªu

ph¼ng cho ph©n líp nµy. Nh­ vËy ta sÏ cã m bé ph©n líp nhÞ ph©n.

Bé ph©n líp víi sù kÕt hîp cña m bé ph©n líp trªn ®­îc gäi lµ bé ph©n líp

®a líp më réng víi SVM. Ngoµi ra cßn cã mét gi¶i ph¸p ph©n líp ®a líp kh¸c lµ

one-against-one, ®éc gi¶ cã thÓ tham kh¶o chi tiÕt t¹i [Hsu02, Milgram06].

6.4. ThuËt to¸n ph©n líp kNN

M« h×nh chung cña c¸c thuËt to¸n häc cã gi¸m s¸t lµ gi¶i thuËt sÏ ph©n tÝch

d÷ liÖu huÊn luyÖn ®Ó t×m ra m« h×nh biÓu diÔn d÷ liÖu, sau ®ã ta cã thÓ dïng

mét tËp d÷ liÖu kh¸c ®Ó kiÓm thö ®é chÝnh x¸c cña gi¶i thuËt nh­ minh häa trªn

h×nh 6.9. Nh­ m« t¶ ë trªn h×nh, tËp d÷ liÖu huÊn luyÖn sÏ ®­îc sö dông ®Ó t¹o

ra m« h×nh (trong qu¸ tr×nh huÊn luyÖn gi¶i thuËt). Cã mét sè gi¶i thuËt l¹i

kh«ng hÒ tån t¹i giai ®o¹n häc ®Ó t¹o ra m« h×nh, mµ nã chØ ®¬n thuÇn lµ sö

dông tËp d÷ liÖu huÊn luyÖn phôc vô cho giai ®o¹n dù ®o¸n nh·n cña d÷ liÖu sau

nµy. Hay nãi mét c¸ch kh¸c m« h×nh cña gi¶i thuËt thuéc líp nµy chÝnh lµ tËp d÷

liÖu huÊn luyÖn. Nh÷ng gi¶i thuËt nµy ®­îc liÖt kª vµo líp gi¶i thuËt l­êi häc

(lazy learner). §Æc ®iÓm cña líp gi¶i thuËt nµy lµ nã kh«ng tèn thêi gian ®Ó häc,

tuy nhiªn giai ®o¹n ph©n líp cña nã l¹i bÞ “tr¶ gi¸”. Th«ng th­êng c¸c gi¶i thuËt

l­êi häc sÏ cÇn ph¶i tÝnh to¸n nhiÒu trong qu¸ tr×nh ph©n líp. Cã thÓ ®©y lµ

nh­îc ®iÓm lín nhÊt cña líp gi¶i thuËt l­êi häc, v× khi tËp d÷ liÖu huÊn luyÖn lµ

rÊt lín th× chi phÝ khi ph©n líp sÏ cµng cao.

H×nh 6.9 C¸c b­íc trong m« h×nh häc m¸y cã gi¸m s¸t

Tuy nhiªn mét trong nh÷ng ­u ®iÓm cña viÖc “l­êi häc” lµ nã hç trî xö lý

d÷ liÖu mét c¸ch gia t¨ng (incremental). Cô thÓ lµ víi c¸c gi¶i thuËt cÇn ph¶i

huÊn luyÖn th× khi d÷ liÖu huÊn luyÖn thay ®æi, th× ta ph¶i huÊn luyÖn l¹i gi¶i

thuËt ®Ó t¹o ra m« h×nh míi t­¬ng øng víi d÷ liÖu míi. Tuy nhiªn víi gi¶i thuËt

l­êi häc th× cho dï d÷ liÖu huÊn luyÖn cã thay ®æi th× còng kh«ng ph¶i mÊt c«ng

huÊn luyÖn.

Mét trong nh÷ng gi¶i thuËt thuéc líp gi¶i thuËt l­êi häc lµ gi¶i thuËt k

ng­êi l¸ng giÒng gÇn nhÊt (k nearest neighbors) viÕt t¾t lµ kNN vµ gi¶i thuËt

case-based reasoning. Gi¸o tr×nh nµy sÏ tr×nh bµy chi tiÕt gi¶i thuËt kNN.

Khi ®­a mét phÇn tö d÷ liÖu míi, gi¶i thuËt sÏ t×m k phÇn tö d÷ liÖu l¸ng

giÒng gÇn nã nhÊt (k nearest neighbors), sau ®ã dùa trªn nh·n (líp) cña c¸c l¸ng

giÒng nµy mµ nã sÏ quyÕt ®Þnh nh·n (líp) cña phÇn tö d÷ liÖu míi lµ thuéc líp

nµo. Tr­êng hîp ®¬n gi¶n nhÊt lµ ta chØ t×m mét phÇn tö gÇn phÇn tö míi nhÊt,

nh·n cña phÇn tö míi sÏ ®­îc g¸n lµ nh·n cña phÇn tö t×m ®­îc. §Ò t×m c¸c

phÇn tö l¸ng giÒng gÇn nhÊt ta cÇn ®Þnh nghÜa ®é ®o nµo ®ã, mét trong c¸c ®é ®o

®iÓn h×nh lµ ®é ®o kho¶ng c¸ch Euclide. Gi¶ sö cã 2 phÇn tö d÷ liÖu X1=(x11,

x12, …, x1n) vµ X2=(x21, x22, …, x2n), ®é ®o kho¶ng c¸ch Euclide ®­îc tÝnh b»ng

c«ng thøc:

n

iii xxXXdist

1

22121 )(),( (6.31)

Page 129: KPDL_C1-6 & C10

257 258

Tõ c«ng thøc 6.31, ta nhËn thÊy nÕu c¸c thuéc tÝnh kh¸c nhau cã miÒn gi¸

trÞ kh¸c nhau th× cã thÓ ®é chÝnh x¸c cña ®é ®o sÏ kh«ng chÝnh x¸c. VÝ dô thuéc

tÝnh thu nhËp cã miÒn gi¸ trÞ lín h¬n nhiÒu so víi thuéc tÝnh tuæi, hay thuéc tÝnh

sè l­îng con. Khi ®ã chØ cÇn mét ®é chªnh lÖch nhá cña thuéc tÝnh thu nhËp

còng lµm thay ®æi gi¶ trÞ cña ®é ®o kho¶ng c¸ch. §Ó lµm cho c¸c thuéc tÝnh cã

“¶nh h­ëng” ngang nhau ®Õn ®é ®o kho¶ng c¸ch, ta cã thÓ chuÈn hãa d÷ liÖu c¸c

thuéc tÝnh sö dông c«ng thøc sau ®Ó chuyÓn gi¸ trÞ v cña mét thuéc tÝnh A sang

gi¸ trÞ v’ cã miÒn gi¸ trÞ n»m trong kho¶ng [0, 1]:

AA

A

minmax

minvv

' (6.32)

trong ®ã minA vµ maxA lµ gi¸ trÞ nhá nhÊt vµ lín nhÊt cña thuéc tÝnh A.

Tr­êng hîp thuéc tÝnh biÓu diÔn d÷ liÖu kh«ng ph¶i lµ d÷ liÖu liªn tôc mµ

lµ d÷ liÖu rêi r¹c (ch¼ng h¹n thuéc tÝnh mµu nã cã miÒn gi¸ trÞ lµ mét danh s¸ch

c¸c lo¹i mµu). Khi ®ã ta cã thÓ gi¶i quyÕt nh­ sau: gi¶ sö x1i vµ x2i lµ gi¸ trÞ rêi

r¹c (biÓu diÔn thuéc tÝnh A) cña 2 phÇn tö d÷ liÖu X1 vµ X2, th×:

ii

ii

ii xx

xxxx

21

21

21 khi 1

khi 0 (6.33)

Râ rµng víi c«ng thøc nµy th× ta cã thÓ ¸p dông c«ng thøc 6.31 víi d÷ liÖu

rêi r¹c. Trong nhiÒu tr­êng hîp ta còng cã thÓ sö dông ®é ®o t­¬ng tù (thay v×

®é ®o kho¶ng c¸ch) ®Ó t×m ra c¸c phÇn tö l¸ng giÒng gÇn nhÊt.

VÊn ®Ò tiÕp theo lµ x¸c ®Þnh gi¸ trÞ k nh­ thÕ nµo ®Ó ta cã thÓ thu ®­îc kÕt

qu¶ ph©n líp tèt nhÊt. Víi tr­êng hîp ®¬n gi¶n nhÊt th× k=1 (khi ®ã gi¶i thuËt

kNN sÏ ®­îc ký hiÖu lµ 1-NN). Khi x¸c ®Þnh ®­îc phÇn tö d÷ liÖu gÇn phÇn tö

d÷ liÖu cÇn phÇn líp nhÊt th× bµi to¸n x¸c ®Þnh nh·n l¹i rÊt ®¬n gi¶n v× nã chÝnh

lµ nh·n cña phÇn tö gÇn nhÊt võa t×m ®­îc. Tuy nhiªn cã mét vÊn ®Ò khi ta chØ

dùa vµo 1 phÇn tö l¸ng giÒng ®Ò quyÕt ®Þnh nh·n cña phÇn tö d÷ liÖu cÇn ph©n

líp: ®ã lµ tr­êng hîp phÇn tö l¸ng giÒng gÇn nã nhÊt l¹i lµ phÇn tö nhiÔu (noise),

khi ®ã nh·n thu ®­îc sÏ kh«ng chÝnh x¸c. §Ò gi¶i quyÕt vÊn ®Ò nµy th× ta cã thÓ

dïng c¸c ph­¬ng ph¸p ®Ó läc c¸c d÷ liÖu nhiÔu, thËm chÝ lµ c¸c thuéc tÝnh nhiÔu

®i.

Tuy nhiªn còng cã mét gi¶i thuËt më réng cña gi¶i thuËt 1-NN, ®ã lµ t¨ng

gi¸ trÞ cña k lªn ®Ó t¹o kh¶ n¨ng ra quyÕt ®Þnh dùa trªn nhiÒu phÇn tö d÷ liÖu.

Th«ng th­êng c¸c gi¸ trÞ cña k ®­îc chän sÏ lµ c¸c gi¸ trÞ lÎ (®Ó tr¸nh tr­êng hîp

c¸c l¸ng giÒng cña phÇn tö d÷ liÖu cÇn ph©n líp l¹i thuéc 2 líp kh¸c nhau, vµ sè

l­îng c¸c l¸ng giÒng trong mçi líp l¹i b»ng nhau). Víi k=3 vµ cã 3 phÇn tö d÷

liÖu l¸ng giÒng gÇn nhÊt cã nh·n lµ {A, B, A}, khi ®ã ta cã thÓ kÕt luËn lµ phÇn

tö d÷ liÖu cÇn phÇn líp lµ thuéc líp A. Víi k=5, c¸c phÇn tö l¸ng giÒng cã nh·n

lµ {A, B, A, B, B}, th× ta cã thÓ kÕt luËn lµ phÇn tö d÷ liÖu míi thuéc líp B. Tuy

nhiªn viÖc ph©n líp dùa vµo viÖc ®Õm sè nh·n nh­ thÕ nµy sÏ cã vÊn ®Ò. Cô thÓ

víi tr­êng hîp k=5, vµ gi¶ sö ®é t­¬ng tù t­¬ng øng cña 5 l¸ng giÒng nµy lµ

{0.98, 0.67, 0.56, 0.34, 0.23}. Ta cã thÓ nhËn thÊy c¸c phÇn tö l¸ng giÒng 4 vµ 5

cã ®é t­¬ng tù rÊt thÊp, do ®ã nÕu ta dùa vµo c¸c phÇn tö d÷ liÖu nµy ®Ó kÕt luËn

nh·n cña phÇn tö d÷ liÖu míi thuéc líp A sÏ kh«ng tin cËy.

Do ®ã ng­êi ta ®Ò xuÊt lµ sö dông träng sè cho nh·n cña c¸c phÇn tö l¸ng

giÒng, chóng ta cã gi¶i thuËt míi cã tªn lµ: k ng­êi l¸ng giÒng gÇn nhÊt cã ®¸nh

träng sè kho¶ng c¸ch (distance-weighted kNN). Cô thÓ nh·n cña k l¸ng giÒng sÏ

®­îc g¸n träng sè, líp cã tæng träng sè lín nhÊt sÏ ®­îc dïng ®Ó g¸n cho phÇn

tö cÇn ph©n líp. Träng sè ®¬n gi¶n chÝnh lµ ®é t­¬ng tù gi÷a phÇn tõ d÷ liÖu cÇn

ph©n líp X víi phÇn tö l¸ng giÒng Xi lµ sim(X, Xi). Víi vÝ dô k=5 ë trªn th× tæng

träng sè cña c¸c l¸ng giÒng thuéc líp A lµ 0.98+0.56=1.54, vµ tæng träng sè c¸c

nh·n thuéc líp B lµ 0.67+ 0.34+ 0.23=1.24, kÕt qu¶ nµy cho ta quyÕt ®Þnh lµ

phÇn tö cÇn ph©n líp thuéc líp A. Mét sè c«ng thøc tÝnh träng sè kh¸c lµ: 1/(1-

sim(X, Xi)) hay 1/(1-sim(X, Xi))2 . C¸c c«ng thøc nµy ®Òu cã ®Æc ®iÓm chung lµ

gi¸ trÞ cña chóng sÏ t¨ng lªn khi ®é t­¬ng tù gi÷a chóng t¨ng lªn. Tuy cã rÊt

nhiÒu ®Ò xuÊt c¶i tiÕn so víi gi¶i thuËt 1-NN tuy nhiªn trong nhiÒu tr­êng hîp

th× 1-NN vÉn tá ra lµ cã chÊt l­îng tèt h¬n c¶.

Mét nh­îc ®iÓm cña gi¶i thuËt kNN lµ rÊt chËm khi kÝch th­íc cña tËp d÷

liÖu huÊn luyÖn D t¨ng lªn. Ta ph¶i sö dông |D| phÐp so s¸nh ®Ó t×m ra c¸c l¸ng

Page 130: KPDL_C1-6 & C10

259 260

giÒng gÇn nhÊt, hay ®é phøc t¹p cña nã lµ O(n). Cã rÊt nhiÒu ®Ò xuÊt ®Ó lµm

gi¶m ®é phøc t¹p cña gi¶i thuËt, mét sè ph­¬ng ph¸p ®­îc liÖt kª ë d­íi:

S¾p xÕp tËp d÷ liÖu D ®Çu vµo vµ tæ chøc nã d­íi d¹ng 1 c©y t×m kiÕm,

khi ®ã ®é phøc t¹p cña nã gi¶m xuèng cßn O(log(n)).

Sö dông c¸c ph­¬ng ph¸p song song hãa

LÊy mÉu tËp d÷ liÖu D ®Ó t¹o mét tËp d÷ liÖu D’ cã kÝch th­íc nhá h¬n

Sö dông 1 phÇn ®é ®o kho¶ng c¸ch (partial distance), viÖc tÝnh to¸n

kho¶ng c¸ch chØ dùa trªn mét tËp con c¸c thuéc tÝnh, nÕu gi¸ trÞ thu

®­îc lín h¬n 1 ng­ìng nµo ®ã th× ta sÏ kh«ng tÝnh to¸n tiÕp phÇn tö d÷

liÖu hiÖn t¹i n÷a (v× nã cã kho¶ng c¸ch qu¸ xa), vµ phÇn tö d÷ liÖu tiÕp

theo sÏ ®­îc xö lý.

Ph­¬ng ph¸p hiÖu chØnh (editing): chóng ta lo¹i bá c¸c phÇn tö d÷ liÖu

(®· ®­îc chøng minh) lµ v« nghÜa trong qu¸ tr×nh ph©n líp. Ph­¬ng

ph¸p nµy cßn cã c¸c tªn kh¸c lµ tØa (pruning) hay c« ®äng hãa

(condensing) v× chóng lµm gi¶m sè l­îng phÇn tö d÷ liÖu trong tËp huÊn

luyÖn.

6.5. §¸nh gi¸ c¸c gi¶i thuËt ph©n líp

Nh­ ®· ®Ò cËp ë trªn, tr­íc khi ®­a bé ph©n líp vµo øng dông, chóng ta

cÇn ph¶i biÕt ®­îc ®é chÝnh x¸c cña nã cã ®¸p øng ®­îc yªu cÇu trong miÒn d÷

liÖu cô thÓ nµo ®ã hay kh«ng. §Ó tÝnh to¸n c¸c ®é ®o ®¸nh gi¸ tra sö dông ma

trËn lÉn lén nh­ b¶ng 6.2, trong ®ã TP (true positive) lµ sè l­îng c¸c phÇn tö

®­îc dù ®o¸n ®óng líp +1; FN (false negative) lµ sè l­îng c¸c phÇn tö ®o¸n

nhÇm tõ -1 sang +1; FP (false positive) lµ sè l­îng c¸c phÇn tö bÞ ®o¸n nhÇm tõ

líp +1 sang -1; vµ TN (true negative) lµ sè l­îng phÇn tö ®­îc dù ®o¸n ®óng

thuéc líp -1. Chóng ta cã c¸c c«ng thøc ®¸nh gi¸ nh­ sau:

TØ lÖ lçi tæng thÓ:

%100

FN TN FP TP

FNFP Error (6.34)

B¶ng 6.2 Ma trËn lÉn lén

Líp thùc tÕ

Líp ®­îc dù ®o¸n bëi gi¶i thuËt ph©n líp

+1 -1

+1 TP FN

-1 FP TN

§é chÝnh x¸c tæng thÓ:

%100

FN TN FP TP

TNTP Accuracy (6.35)

§èi víi tõng líp th× ta cã thÓ sö dông thªm 2 ®é ®o ®¸nh gi¸ sau:

§é chÝnh x¸c (precision): %100

FPTP

TP P (6.36)

§é håi t­ëng (recall): %100

FNTP

TP R (6.37)

§é ®o tæng hîp (F-measure) RP

R PF

2 (6.38)

Trong tr­êng hîp bµi to¸n ph©n líp K líp, c¸c ®é ®o trung b×nh ®­îc sö

dông bao gåm trung b×nh mÞn (microaveraging) vµ trung b×nh th«

(macroaveraging).

§é chÝnh x¸c trung b×nh th« (macro-averaging precision):

K

cc

M PK

P1

1 (6.39)

Page 131: KPDL_C1-6 & C10

261 262

§é håi t­ëng trung b×nh th« (macro-averaging recall):

K

cc

M RK

R1

1 (6.40)

§é chÝnh x¸c trung b×nh mÞn (micro-averaging precision):

)(

1

1

K

c cc

K

c c

TNTP

TPP

(6.41)

§é håi t­ëng trung b×nh mÞn (micro-averaging recall):

)(

1

1

K

c cc

K

c c

FPTP

TPR

(6.42)

trong ®ã PC vµ RC lÇn l­ît lµ ®é chÝnh x¸c vµ ®é håi t­ëng cña líp C. C¸c ®é ®o

trung b×nh mÞn ®­îc coi lµ c¸c ®é ®o tèt h¬n ®Ó ®¸nh gi¸ chÊt l­îng thuËt to¸n

ph©n líp.

Theo m« h×nh ®­îc m« t¶ trong h×nh 6.9, tËp d÷ liÖu g¸n nh·n sÏ ®­îc chia

lµm 2 phÇn: mét dµnh cho huÊn luyÖn gi¶i thuËt vµ phÇn cßn l¹i ®Ó kiÓm thö

®­îc. Ph­¬ng ph¸p chia ®¬n gi¶n nhÊt lµ lÊy ngÉu nhiªn kho¶ng 2/3 d÷ liÖu lµm

d÷ liÖu huÊn luyÖn vµ phÇn 1/3 cßn l¹i ®­îc dïng lµm d÷ liÖu kiÓm thö. Ph­¬ng

ph¸p chia nµy gäi lµ ph­¬ng ph¸p holdout. Ph­¬ng ph¸p holdout cã thÓ cho

chóng ta kÕt qu¶ kiÓm thö kh«ng chÝnh x¸c v× cã thÓ mét c¸ch chia nµo ®ã lµm

cho chÊt l­îng cña gi¶i thuËt rÊt tèt, hoÆc còng cã thÓ lµ rÊt kÐm. Lý do lµ viÖc

lÊy ngÉu nhiªn cã thÓ lµm cho tËp d÷ liÖu huÊn luyÖn kh«ng ®¹i diÖn ®óng cho

miÒn d÷ liÖu ta ®ang xÐt: ch¼ng h¹n cã tr­êng hîp kh«ng cã mét phÇn tö d÷ liÖu

thuéc vµo líp A nµo ®ã n»m trong tËp huÊn luyªn, vµ kÕt qu¶ lµ chÊt l­îng cña

gi¶i thuËt kÐm. §Ó lµm t¨ng ®é chÝnh x¸c khi ®¸nh gi¸ mét gi¶i thuËt ta cã thªm

mét sè ph­¬ng ph¸p sau:

Ph­¬ng ph¸p lÊy mÉu ngÉu nhiªn (random subsampling): ®©y lµ ph­¬ng

ph¸p më réng cña ph­¬ng ph¸p holdout, ta thùc hiÖn viÖc chia d÷ liÖu k

lÇn, trong mçi lÇn ta thùc hiÖn viÖc huÊn luyÖn gi¶i thuËt vµ kiÓm thö.

KÕt qu¶ kiÓm thö cña gi¶i thuËt ®­îc tÝnh b»ng gi¸ trÞ trung b×nh cña kÕt

qu¶ kiÓm thö trong k lÇn lÆp. Ph­¬ng ph¸p nµy cßn cã tªn kh¸c lµ

Repeated holdout.

Ph­¬ng ph¸p chia theo tØ lÖ (stratification): trong ph­¬ng ph¸p nµy,

ngoµi viÖc chia d÷ liÖu lµ ngÉu nhiªn, nã cßn bæ sung thªm rµng buéc lµ

tØ lÖ d÷ liÖu cña c¸c líp trong c¶ tËp d÷ liÖu huÊn luyÖn vµ kiÓm thö lµ

gièng nhau.

Ph­¬ng ph¸p thÈm ®Þnh chÐo k-tËp (k-fold cross-validation): thay v×

chia d÷ liÖu g¸n nh·n thµnh 2 tËp (mét tËp dµnh cho huÊn luyÖn vµ tËp

kiÓm thö), tËp d÷ liÖu huÊn luyÖn ban ®Çu D sÏ ®­îc chia ngÉu nhiªn

thµnh k tËp con (®­îc gäi lµ fold) kh«ng giao nhau: D1, D2, …, Dk, kÝch

th­íc cña c¸c tËp nµy lµ xÊp xØ nhau. Qu¸ tr×nh huÊn luyÖn vµ kiÓm thö

sÏ ®­îc thùc hiÖn (lÆp) k lÇn. T¹i mçi lÇn lÆp thø i tËp d÷ liÖu Di sÏ ®­îc

dïng lµm tËp d÷ liÖu kiÓm thö vµ (k-1) tËp d÷ liÖu cßn l¹i sÏ ®­îc gép

l¹i ijkjD jj

,1, lµm tËp d÷ liÖu huÊn luyÖn. ViÖc lµm nµy sÏ

®¶m b¶o tÝnh ngÉu nhiªn cña d÷ liÖu, h¬n n÷a bÊt kú phÇn tö nµo còng

®­îc lµm d÷ liÖu kiÓm thö 1 lÇn vµ lµm d÷ liÖu huÊn luyÖn trong (k-1)

lÇn. Ta cã thÓ kÕt hîp ph­¬ng ph¸p thÈm ®Þnh chÐo víi ph­¬ng ph¸p

chia theo tØ lÖ ®Ó cã thÓ thu ®­îc kÕt qu¶ thÈm ®Þnh chÝnh x¸c h¬n.

Ph­¬ng ph¸p Leave-one-out: lµ tr­êng hîp ®Æc biÖt cña ph­¬ng ph¸p

thÈm ®Þnh chÐo k tËp, trong ®ã sè tËp k=n víi n lµ sè l­îng c¸c phÇn tö

d÷ liÖu trong tËp D. Víi ph­¬ng ph¸p nµy ta thÊy chi phÝ cho viÖc kiÓm

thö lµ rÊt lín nªn nã kh«ng ph¶i lµ ph­¬ng ph¸p ®¸nh gi¸ phæ dông.

Page 132: KPDL_C1-6 & C10

263 264

6.6. Mét sè øng dông cña c¸c gi¶i thuËt ph©n líp

Gi¶i thuËt ph©n líp cã lÏ ®­îc liÖt kª lµ gi¶i thuËt ®­îc sö dông nhiÒu nhÊt,

hay cã tÝnh øng dông cao nhÊt trong thùc tÕ. D­íi ®©y chØ xin liÖt kª mét sè øng

dông cña nã:

Trong ng©n hµng, khi xem xÐt hå s¬ cña mét kh¸ch hµng cÇn vay vèn, nÕu

ta cã thÓ ph©n líp ®­îc kh¸ch hµng nµy thuéc líp “an toµn” hay “m¹o

hiÓm” th× sÏ cã ý nghÜa rÊt quan träng cho ng­êi ra quyÕt ®Þnh cho vay

vèn.

Trong chøng kho¸n, nÕu ph©n líp ®­îc c¸c m· chøng kho¸n sÏ lªn hay

xuèng th× cã thÓ sÏ lµ bµi to¸n sèng cßn ®èi víi mét nhµ ®Çu t­.

Trong c¸c mail server (nh­ gmail hay yahoo), chóng ta vÉn thÊy c¸c hÖ

thèng läc th­ r¸c, nã cã kh¶ n¨ng ph©n lo¹i ®­îc c¸c th­ r¸c (spam mail)

vµ ®­a vµo thïng r¸c. Chøc n¨ng nµy lµm cho ng­êi dïng thÊy rÊt thuËn

tiÖn vµ tr¸nh ®­îc bùc m×nh.

Trong c¸c hÖ thèng thu thËp tin (nh­ trang baomoi.com) th× ta cÇn mét hÖ

thèng tù ®éng ph©n líp c¸c b¶n tin thu ®­îc vµ ®­a vµo c¸c chuyªn môc

phï hîp.

Trong mét hÖ thèng th­ viÖn ®iÖn tö, c¸c gi¶i thuËt ph©n líp rÊt quan träng

v× nã gióp ta ph©n lo¹i tù ®éng ®­îc c¸c tµi liÖu vµo c¸c líp phï hîp, tõ ®ã

ng­êi dïng sÏ t×m ra tµi liÖu m×nh quan t©m ®­îc dÔ dµng h¬n.

Trong qu¸ tr×nh xö lý d÷ liÖu c¸c m¸y t×m kiÕm sÏ muèn ph¸t hiÖn ra c¸c

trang r¸c (spam) ®Ó lo¹i bá trong qu¸ tr×nh ®¸nh chØ môc.

C¸c dÞch vô trùc tuyÕn (chia sÎ ¶nh, tin hay video) rÊt cÇn cã mét hÖ ph©n

líp cã kh¶ n¨ng ph¸t hiÖn ra c¸c b¶n tin, c¸c h×nh ¶nh hay video cã néi

dung kh«ng phï hîp nh­ c¸c néi dung dung tôc, hay kh«ng phï hîp víi

v¨n hãa, chÝnh trÞ, …

RÊt nhiÒu bµi to¸n trong xö lý ng«n ng÷ tù nhiªn nh­ ph©n ®o¹n

(chunking), g¸n nh·n tõ lo¹i (part of speech tagging), thËm chÝ lµ nhËn

d¹ng thùc thÓ tªn (named entity recognition) còng ®Òu cã thÓ biÕn ®æi

thµnh bµi to¸n ph©n líp.

C©u hái vµ bµi tËp

1. TÝnh to¸n t­êng minh ®é lîi th«ng tin cho c¸c thuéc tÝnh cßn l¹i kh«ng

®­îc tÝnh t­êng minh ë môc 6.2.1.

2. TÝnh to¸n t­êng minh tØ sè ®é lîi cho c¸c thuéc tÝnh cßn l¹i kh«ng ®­îc

tÝnh t­êng minh ë môc 6.2.2.

3. TÝnh to¸n t­êng minh tØ sè Gini cho c¸c thuéc tÝnh cßn l¹i kh«ng ®­îc

tÝnh t­êng minh ë môc 6.2.3.

4. Dïng bé ph©n líp DecisionTable trong phÇn mÒm weka ®Ó ph©n líp tËp

d÷ liÖu ®i kÌm vµ ®¸nh gi¶ sö dông ph­¬ng ph¸p thÈm ®Þnh chÐo (10-

folds cross-validation).

5. Gi¶ sö trong b¶ng d÷ liÖu 6.1, ta lÊy dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö,

toµn bé c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn. Dïng thuËt to¸n Naive

Bayes ®Ó ph©n líp vµ kiÓm tra xem nã cã ph©n líp ®óng hay kh«ng?

6. Dïng bé ph©n líp NaiveBayes trong phÇn mÒm weka ®Ó ph©n líp tËp d÷

liÖu ®i kÌm vµ ®¸nh gi¶ sö dông ph­¬ng ph¸p thÈm ®Þnh chÐo (10-folds

cross-validation).

7. Gi¶ sö trong b¶ng d÷ liÖu 6.1, ta lÊy dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö,

toµn bé c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn. Dïng thuËt to¸n kNN

víi k=1 ®Ó ph©n líp vµ kiÓm tra xem nã cã ph©n líp ®óng hay kh«ng?

Page 133: KPDL_C1-6 & C10

265 266

8. Dïng bé ph©n líp KStar trong phÇn mÒm weka ®Ó ph©n líp tËp d÷ liÖu

®i kÌm vµ ®¸nh gi¶ sö dông ph­¬ng ph¸p thÈm ®Þnh chÐo (10-folds

cross-validation).

9. Dïng bé ph©n líp LibSVM trong phÇn mÒm weka ®Ó ph©n líp tËp d÷

liÖu ®i kÌm vµ ®¸nh gi¶ sö dông ph­¬ng ph¸p thÈm ®Þnh chÐo (10-folds

cross-validation).

10. Cµi ®Æt gi¶i thuËt c©y quyÕt ®Þnh sö dông ®é lîi th«ng tin, sau ®ã ¸p

dông ph©n líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu

kiÓm thö vµ c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.

11. Cµi ®Æt gi¶i thuËt c©y quyÕt ®Þnh sö dông tØ sè ®é lîi, sau ®ã ¸p dông

ph©n líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö

vµ c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.

12. Cµi ®Æt gi¶i thuËt c©y quyÕt ®Þnh sö dông tØ sè Gini, sau ®ã ¸p dông

ph©n líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö

vµ c¸c dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.

13. Cµi ®Æt gi¶i thuËt NaiveBayes cho d÷ liÖu rêi r¹c, sau ®ã ¸p dông ph©n

líp d÷ liÖu trong b¶ng 6.1 v¬i dßng ®Çu tiªn lµm d÷ liÖu kiÓm thö vµ c¸c

dßng cßn l¹i lµm d÷ liÖu huÊn luyÖn.

14. Cµi ®Æt gi¶i thuËt NaiveBayes cho d÷ liÖu liªn tôc, sau ®ã ¸p dông ph©n

líp d÷ liÖu ®i kÌm víi phÇn mÒm weka. Chia file d÷ liÖu ra thµnh 2 nöa

theo tØ lÖ 70%/30% lµm d÷ liÖu huÊn luyÖn vµ d÷ liÖu kiÓm thö.

15. Cµi ®Æt gi¶i thuËt kNN (víi k=1), sau ®ã ¸p dông ph©n líp d÷ liÖu ®i

kÌm víi phÇn mÒm weka. Chia file d÷ liÖu ra thµnh 2 nöa theo tØ lÖ

70%/30% lµm d÷ liÖu huÊn luyÖn vµ d÷ liÖu kiÓm thö.

Ch­¬ng 7. Ph­¬ng ph¸p häc b¸n gi¸m s¸t

7.1. Giíi thiÖu

C¸c thuËt to¸n ®· tr×nh bµy ë ch­¬ng 6 cã ®Æc ®iÓm lµ chØ cã thÓ häc tõ d÷

liÖu ®· g¸n nh·n, viÖc t¹o ra c¸c d÷ liÖu g¸n nh·n th­êng lµ c«ng viÖc buån tÎ

nh­ng l¹i tèn c«ng søc. Trong nghiªn cøu cña m×nh Lang [Lang95] ®· chøng

minh r»ng: khi mét ng­êi ®äc 1000 bµi b¸o ®Ó g¸n nh·n líp cho chóng, th× mét

gi¶i thuËt ph©n líp dùa trªn tËp d÷ liÖu g¸n nh·n nµy cã thÓ ®¹t ®­îc ®é chÝnh

x¸c lµ 50%. Trong nhiÒu hÖ thèng trong thùc tÕ, Ýt ng­êi cã ®ñ kiªn nhÉn ®Ó thùc

hiÖn c«ng viÖc g¸n nh·n d÷ liÖu nh­ trªn vµ ®Æc biÖt lµ thu ®­îc mét chÊt l­îng

ph©n líp thÊp nh­ vËy. Chóng ta rÊt muèn cã mét gi¶i thuËt cã thÓ chØ cÇn vµi

chôc d÷ liÖu g¸n nh·n (thay v× vµi ngh×n d÷ liÖu g¸n nh·n) mµ vÉn cã thÓ cho

chóng ta mét bé ph©n líp víi ®é chÝnh x¸c chÊp nhËn ®­îc. Ngoµi d÷ liÖu g¸n

nh·n th× trong thùc tÕ c¸c d÷ liÖu ch­a g¸n nh·n th­êng tån t¹i víi sè l­îng lín,

ch¼ng h¹n víi bµi to¸n ph©n líp v¨n b¶n, th× nguån d÷ liÖu c¸c trang web tõ

Internet lµ rÊt lín. NÕu tËn dông ®­îc c¸c nguån d÷ liÖu ch­a g¸n nh·n th× sÏ

lµm gi¶m ®­îc c«ng søc t¹o d÷ liÖu còng nh­ lµm t¨ng ®­îc chÊt l­îng cña c¸c

bé ph©n líp. HiÖn t¹i ®· cã rÊt nhiÒu nghiªn cøu vµ ®Ò xuÊt c¸c gi¶i thuËt cã kh¶

n¨ng sö dông d÷ liÖu g¸n nh·n, ®ång thêi tËn dông c¶ d÷ liÖu ch­a g¸n nh·n ®Ó

lµm giµu (augment) thªm d÷ liÖu huÊn luyÖn nh»m lµm t¨ng chÊt l­îng ph©n

líp. C¸c gi¶i thuËt cã ®Æc ®iÓm nµy ®­îc ph©n vµo líp gi¶i thuËt häc b¸n gi¸m

s¸t [Goldman00, Dempster77, Nigam00, Zhu05, Zhu07].

§Ó cã thÓ ph©n biÖt ®­îc c¸c lo¹i (líp) gi¶i thuËt: häc cã gi¸m s¸t, kh«ng

gi¸m s¸t vµ b¸n gi¸m s¸t ta cã thÓ xem xÐt c¸c ®Æc ®iÓm sau cña c¸c lo¹i gi¶i

thuËt:

Gi¶i thuËt häc cã gi¸m s¸t: ®Çu vµo cña nã lµ mét tËp d÷ liÖu ®· ®­îc

g¸n nh·n {xi, yi}, trong ®ã yi lµ c¸c nh·n t­¬ng øng cña phÇn tö d÷ liÖu

xi, hay nãi c¸ch kh¸c mçi mét phÇn tö d÷ liÖu xi ®· ®­îc ph©n vµo c¸c

líp cô thÓ yi. NhiÖm vô cña c¸c gi¶i thuËt nµy lµ t×m mèi quan hÖ gi÷a

Page 134: KPDL_C1-6 & C10

267 268

d÷ liÖu vµ nh·n ®Ó cã thÓ dïng ®Ó dù ®o¸n nh·n cña mét phÇn tö d÷ liÖu

x míi ch­a cã nh·n.

Gi¶i thuËt häc kh«ng gi¸m s¸t: ®Çu vµo cña nã lµ mét tËp chØ chøa c¸c

phÇn tö d÷ liÖu {xi} kh«ng cã nh·n, hay nãi c¸ch kh¸c chóng ta kh«ng

biÕt tr­íc nh·n c¸c phÇn tö d÷ liÖu xi . NhiÖm vô cña c¸c gi¶i thuËt nµy

lµ t×m ra cÊu tróc quan träng cña d÷ liÖu, vµ ph©n d÷ liÖu thµnh c¸c

nhãm cã c¸c ®Æc ®iÓm chung.

C¸c gi¶i thuËt häc b¸n gi¸m s¸t: vÒ yªu cÇu ®Çu ra nã còng gièng gi¶i

thuËt häc cã gi¸m s¸t tøc lµ nã còng ph¶i t×m ra quan hÖ gi÷a d÷ liÖu vµ

nh·n ®Ó cã thÓ dù ®o¸n ®­îc c¸c phÇn tö d÷ liÖu míi. Tuy nhiªn sù

kh¸c biÖt ë ®©y lµ ®Çu vµo cho c¸c gi¶i thuËt b¸n gi¸m s¸t lµ mét tËp

nhá c¸c d÷ liÖu cã g¸n nh·n {xi, yi} vµ mét tËp lín c¸c d÷ liÖu kh«ng

g¸n nh·n {xj}, c¸c gi¶i thuËt ph¶i häc ra quan hÖ gi÷a d÷ liÖu vµ nh·n tõ

2 tËp d÷ liÖu nµy. Do ®ã ta cã thÓ ®Þnh nghÜa mét c¸ch kh«ng h×nh thøc

(1) gi¶i thuËt häc b¸n gi¸m s¸t = gi¶i thuËt häc cã gi¸m s¸t + d÷ liÖu kh«ng g¸n nh·n, hoÆc (2) gi¶i thuËt häc b¸n gi¸m s¸t = d÷ liÖu cã g¸n

nh·n + gi¶i thuËt häc kh«ng gi¸m s¸t . Tïy vµo lo¹i gi¶i thuËt häc b¸n

gi¸m s¸t kh¸c nhau mµ nã thuéc ®Þnh nghÜa kh«ng h×nh thøc (1) hay

(2).

Gi¶i thuËt häc b¸n gi¸m s¸t thuéc ®Þnh nghÜa kh«ng h×nh thøc (1) cã m«

h×nh chung nh­ minh häa ë h×nh 7.1. §Çu vµo cho gi¶i thuËt b¸n gi¸m s¸t lµ mét

tËp nhá d÷ liÖu g¸n nh·n L vµ mét tËp d÷ liÖu ch­a g¸n nh·n U. TËp d÷ liÖu g¸n

nh·n L (1) sÏ ®­îc sö dông ®Ó huÊn luyÖn c¸c gi¶i thuËt ®Ó t¹o ra m« h×nh ban

®Çu (2). M« h×nh nµy sÏ ®­îc dïng ®Ó g¸n nh·n c¸c d÷ liÖu ch­a ®­îc g¸n nh·n

U (3) vµ ta thu ®­îc tËp d÷ liÖu ®· g¸n nh·n L’ (4). Tïy theo tõng gi¶i thuËt mµ

toµn bé tËp d÷ liÖu L’ hay mét tËp con cña L’, kÕt hîp víi tËp L (5) ®­îc dïng

®Ó huÊn luyÖn hay cËp nhËt l¹i m« h×nh cña thuËt to¸n ®Ó t¹o ra m« h×nh míi (6).

Qu¸ tr×nh 3, 4, 5 vµ 6 sÏ ®­îc lÆp ®i lÆp l¹i ®Ó lµm t¨ng chÊt l­îng ph©n líp cña

gi¶i thuËt. Tïy theo tõng lo¹i gi¶i thuËt häc b¸n gi¸m s¸t mµ ®Çu ra cña nã sÏ lµ

m« h×nh ph©n líp hay lµ mét tËp d÷ liÖu huÊn luyÖn L ®· ®­îc bæ sung thªm c¸c

phÇn tö d÷ liÖu g¸n nh·n cã ®é tin cËy. PhÇn tiÕp theo cña ch­¬ng 7 sÏ tr×nh bµy

mét sè thuËt to¸n ph©n líp b¸n gi¸m s¸t th«ng dông.

H×nh 7.1 M« h×nh chung cña c¸c gi¶i thuËt b¸n gi¸n s¸t dùa trªn gi¶i thuËt gi¸m s¸t

C¸c thuËt to¸n häc b¸n gi¸m s¸t th­êng gi¶ ®Þnh (assumption) r»ng tËp d÷

liÖu cã nh·n L vµ tËp d÷ liÖu ch­a g¸n nh·n U lµ cã cïng ph©n bè. Víi gi¶ ®Þnh

nµy th× ta míi cã thÓ khai th¸c ®­îc c¸c phÇn tö d÷ liÖu ch­a cã nh·n ®Ó lµm

giµu tËp d÷ liÖu cã nh·n, hay nãi mét c¸ch kh¸c víi gi¶ ®Þnh nµy th× ta míi cã

thÓ sö dông m« h×nh thu ®­îc tõ tËp d÷ liÖu g¸n nh·n L ®Ó ph©n líp c¸c phÇn tö

d÷ liÖu trong tËp d÷ liÖu ch­a cã nh·n U.

Ngoµi c¸ch ph©n lo¹i gi¶i thuËt häc b¸n gi¸m s¸t theo ®Þnh nghÜa kh«ng

h×nh thøc (1) vµ (2) ë trªn, ta cßn cã mét sè c¸ch ph©n lo¹i gi¶i thuËt häc b¸n

gi¸m s¸t kh¸c:

Gi¶i thuËt häc b¸n gi¸m s¸t dùa trªn bé ph©n líp: b¾t ®Çu b»ng gi¶i

thuËt ph©n líp yÕu (weak), lµ gi¶i thuËt ph©n líp cã hiÖu n¨ng thÊp, ta

sÏ dÇn dÇn c¶i thiÖn chÊt l­îng cña gi¶i thuËt ph©n líp ®Ó cuèi cïng thu

®­îc gi¶i thuËt ph©n líp cã hiÖu n¨ng cao. C¸c gi¶i thuËt thuéc líp nµy

Page 135: KPDL_C1-6 & C10

339 340

®Þnh râ rµng víi mét vµi (nªn kh«ng qu¸ con sè 3) môc tiªu cô thÓ. Trong qu¸

tr×nh tiÕn hãa m« h×nh khai ph¸ d÷ liÖu, thµnh phÇn x¸c ®Þnh bµi to¸n khai ph¸

d÷ liÖu trong m« h×nh nµy ngµy cµng ®­îc chó träng h¬n, cã nghÜa lµ c«ng viÖc

x¸c ®Þnh bµi to¸n khai ph¸ d÷ liÖu ngµy cµng trë nªn quan träng h¬n. M« h×nh

lÆp khai ph¸ d÷ liÖu [CCGMS98] khuyÕn c¸o ®Æt ra nhiÒu nhÊt ba môc tiªu kinh

doanh cho mét dù ¸n khai ph¸ d÷ liÖu doanh nghiÖp. GÇn ®©y, m« h×nh khai ph¸

d÷ liÖu h­íng miÒn øng dông [CYZZ10] bao gåm cã 13 b­íc th× cã tíi 5 b­íc

cã néi dung thùc hiÖn liªn quan tíi vÊn ®Ò x¸c ®Þnh bµi to¸n; ngoµi ba b­íc thùc

hiÖn "hiÓu vÊn ®Ò" (P1), "ph©n tÝch rµng buéc" (P2) vµ "®Þnh nghÜa c¸c môc tiªu

ph©n tÝch vµ x©y dùng ®Æc tr­ng" (P3) th× c¸c b­íc thi hµnh lÆp (P7, P11) còng

bao gãi vÊn ®Ò x¸c ®Þnh bµi to¸n. §ång thêi, c¸c m« h×nh khai ph¸ d÷ liÖu ®­îc

®Ò xuÊt gÇn ®©y còng ngµy cµng nhÊn m¹nh khÝa c¹nh t­¬ng t¸c víi chuyªn gia

tri thøc miÒn øng dông; ®«i khi c¸c nh©n viªn khai ph¸ d÷ liÖu cÇn "th­¬ng

l­îng" víi c¸c chuyªn gia khai ph¸ d÷ liÖu.

Trong miÒn øng dông kinh doanh, ph¸t hiÖn gian lËn, n©ng cao chÊt l­îng

dÞch vô kh¸ch hµng, gi¶m chi phÝ dÞch vô... lµ mét sè môc tiªu th­êng gÆp cña

c¸c bµi to¸n khai ph¸ d÷ liÖu. H¬n n÷a, khai ph¸ d÷ liÖu trong kinh doanh

th­êng theo m« h×nh ®ñ (Sufficiency Paradigm) mµ kh«ng ph¶i theo m« h×nh tèi

­u (Efficiency Paradigm). Theo m« h×nh ®ñ, c¸c gi¶i ph¸p khai ph¸ d÷ liÖu tèt

nhÊt ®­îc x¸c ®Þnh theo c¸ch chóng lµm viÖc tèt ra sao cïng víi c¸c qu¸ tr×nh

kinh doanh kh¸c ®Ó t¨ng c­êng sù g¾n kÕt trong toµn bé chuçi lîi nhuËn mµ

kh«ng ph¶i hoµn to¸n theo tèi ®a hãa hiÖu qu¶ tµi chÝnh theo m« h×nh tèi ­u. Sù

g¾n kÕt nh­ vËy cho phÐp c«ng ty chñ ®éng vµ thÝch øng víi sù thay ®æi tõ tri

thøc míi, chø kh«ng ph¶n øng vµ c¶n trë sù thay ®æi.

Nh­ vËy, tri thøc vµ kü n¨ng ®­îc sö dông nh»m x¸c ®Þnh vµ thi thµnh

®­îc "m« h×nh ®ñ tèt" (good-enough model) ®Ó khai ph¸ d÷ liÖu trong thùc tiÔn

cã tÇm quan träng ®Æc biÖt [NEM09].

1.1.1.5. Truy vÊn th«ng th­êng hoÆc c«ng cô xö lý ph©n tÝch trùc tuyÕn kh«ng thÓ gi¶i ®­îc bµi to¸n ®­îc ®Æt ra

Khai ph¸ d÷ liÖu kh«ng ph¶i vµ kh«ng thÓ lµ mét "mèt" hoÆc mét "niÒm

tin" c«ng nghÖ mµ khai ph¸ d÷ liÖu ph¶i ®­îc ®Æt xøng tÇm ph¸t hiÖn tri thøc

kinh doanh mµ kh«ng ph¶i ®Ó tr¶ lêi cho c¸c c©u hái nghiÖp vô, hay nh­ c¸ch

nãi d©n gian "dïng dao phay ®Ó c¾t tiÕt gµ" khi tiÕn hµnh khai ph¸ d÷ liÖu. Mét

sè néi dung ph©n biÖt gi÷a bµi to¸n khai ph¸ d÷ liÖu víi c¸c bµi to¸n truy vÊn

hoÆc xö lý ph©n tÝch trùc tuyÕn (Online Analysis Processing: OLAP) ®· ®­îc ®Ò

cËp t¹i Ch­¬ng 1 vµ Ch­¬ng 2. Tr­íc khi tiÕn hµnh mét dù ¸n khai ph¸ d÷ liÖu,

chóng ta cÇn kiÓm tra, thö nghiÖm mét c¸ch réng r·i xem c¸c ph­¬ng tiÖn truy

vÊn th«ng th­êng hoÆc c¸c c«ng cô OLAP cã ®¹t ®­îc c¸c môc tiªu ®­îc ®Æt ra

hay kh«ng. Trong tr­êng hîp c¸c ph­¬ng tiÖn vµ c«ng cô ®· biÕt kh«ng thÓ ®¹t

®­îc môc tiªu hoÆc ®¹t môc tiªu nh­ng chi phÝ lao ®éng qu¸ nhiÒu, v­ît qu¸

mét ng­ìng cho phÐp th× míi cÇn tiÕn hµnh dù ¸n khai ph¸ d÷ liÖu.

Yªu cÇu ph©n biÖt sù kh¸c nhau b¶n chÊt khi x¸c ®Þnh bµi to¸n khai ph¸ d÷

liÖu víi bµi to¸n truy vÊn, thèng kª, OLAP th«ng th­êng lµ cã tÝnh cèt lâi ®Ó

®¶m b¶o sù thµnh c«ng cña dù ¸n khai ph¸ d÷ liÖu. ChØ trong bèi c¶nh dù ¸n

khai ph¸ d÷ liÖu ®­îc xem xÐt c«ng phu th× dù ¸n míi ®­îc ®Æt ®óng tÇm cao

cña nã, do ®ã míi huy ®éng ®­îc ®ñ tµi nguyªn cÇn thiÕt ®Ó thùc hiÖn qu¸ tr×nh

khai ph¸ d÷ liÖu.

Thùc tiÔn ë ViÖt Nam, nhiÒu tr­êng hîp vi ph¹m bµi häc nµy: ®Æt bµi to¸n

khai ph¸ d÷ liÖu dï ch­a tiÕn hµnh khai ph¸ c«ng cô OLAP. Mét nguyªn nh©n

chñ yÕu dÉn tíi sai sãt nh­ vËy lµ ch­a ®ñ tri thøc vµ kü n¨ng lµm chñ c¸c

ph­¬ng tiÖn truy vÊn th«ng th­êng hoÆc c¸c c«ng cô OLAP. H¹n chÕ nµy rÊt hay

x¶y ra víi nh÷ng ng­êi míi lµm quen víi lÜnh vùc khai ph¸ d÷ liÖu, ch¼ng h¹n,

lÇm t­ëng mét sè kÕt qu¶ thèng kª th«ng th­êng víi viÖc thùc hiÖn bµi to¸n khai

ph¸ d÷ liÖu. ThËm chÝ, nhiÒu tr­êng hîp cßn coi nhËn ®Þnh kiÓu "sinh viªn vïng

®ång b»ng häc tèt h¬n sinh viªn vïng s©u vïng xa" nh­ lµ kÕt qu¶ thùc hiÖn mét

bµi to¸n khai ph¸ d÷ liÖu.

Page 136: KPDL_C1-6 & C10

341 342

1.1.1.6. D÷ liÖu ph¶i s½n cã cho khai ph¸ d÷ liÖu

Nh­ ®· nãi, chóng ta cã c¶m nghÜ r»ng bµi häc nµy lµ rÊt tÇm th­êng, tuy

nhiªn, trªn thùc tÕ, d÷ liÖu kh«ng ph¶i lu«n lu«n cã s½n ®Ó khai ph¸ d÷ liÖu. T×nh

huèng ®Çu tiªn dÉn tíi t×nh tr¹ng nµy lµ do d÷ liÖu ®­îc l­u tr÷ trªn ph¹m vi toµn

bé doanh nghiÖp (cã thÓ ph©n t¸n trªn ph¹m vi rÊt réng vµ cã thÓ ®­îc tæ chøc

l­u tr÷ d­íi d¹ng c¸c hÖ thèng di chó), vµ d÷ liÖu ®­îc ®Þnh d¹ng rÊt kh¸c nhau.

§Ó d÷ liÖu lµ s½n sµng cho khai ph¸ d÷ liÖu, cÇn dµnh c«ng søc vµ thêi gian thÝch

hîp cho thu thËp d÷ liÖu (Ch­¬ng 3) mµ ®iÒu nµy kh«ng ph¶i lu«n ®­îc con

ng­êi s½n sµng chÊp nhËn. Khi thùc hiÖn bµi to¸n khai ph¸ d÷ liÖu, chóng ta

th­êng cã c¶m gi¸c nhµm ch¸n víi c«ng viÖc thu thËp d÷ liÖu mang tÝnh thñ

c«ng, kh«ng cã tÝnh s¸ng t¹o cho nªn chóng ta th­êng tù tháa m·n víi l­îng d÷

liÖu nµo ®ã mµ chóng ta cho lµ ®· t­¬ng ®èi ®Çy ®ñ. VÝ dô, trong bµi to¸n khai

ph¸ d÷ liÖu web liªn quan tíi lÜnh vùc y tÕ vµ ch¨m sãc søc kháe, do nhiÒu

nguyªn nh©n, chóng ta th­êng bá qua viÖc nghiªn cøu kü l­ìng cÊu tróc m¹ng

c¸c trang web liªn quan tíi y tÕ vµ ch¨m sãc søc kháe mµ chØ tËp trung vµo mét

sè ®Þa chØ web mµ chóng ta coi lµ ®iÓn h×nh ®Ó t¶i vÒ néi dung c¸c trang web.

Chóng ta th­êng bá qua ph­¬ng ph¸p x¸c ®Þnh “danh s¸ch ®Þa chØ nh©n” cña

c¸c thuËt to¸n duyÖt web (crawling).

§«i khi, ë mét sè tæ chøc, d÷ liÖu cho bµi to¸n khai ph¸ d÷ liÖu ph¶i ®­îc

tÝch hîp tõ c¸c bé d÷ liÖu do nhiÒu bé phËn n¾m gi÷, tÝnh c¸t cø côc bé t¹i mét

sè bé phËn trong tæ chøc ®ã còng t¹o khã kh¨n cho viÖc thu thËp d÷ liÖu.

T×nh huèng thø hai dÉn tíi t×nh tr¹ng d÷ liÖu ch­a s½n cã trong trong mét

sè tr­êng hîp lµ do cã mét sè rµng buéc ph¸p lý ng¨n chÆn viÖc truy cËp d÷ liÖu

nh¹y c¶m.

Khi quyÕt ®Þnh thùc hiÖn mét dù ¸n khai ph¸ d÷ liÖu, cÇn tiÕn hµnh viÖc

cam kÕt ®èi víi c«ng viÖc thu thËp d÷ liÖu mét c¸ch cã hÖ thèng ®Ó d÷ liÖu s½n

sµng cho khai ph¸ d÷ liÖu vµ ®¶m b¶o cam kÕt ®­îc thùc hiÖn khi triÓn khai. CÇn

dµnh ®ñ c«ng søc, thêi gian vµ c¬ chÕ cho thu thËp d÷ liÖu ®èi víi t×nh huèng thø

nhÊt hoÆc thùc thi c¸c gi¶i ph¸p khai ph¸ d÷ liÖu víi tÝnh riªng t­ ®èi víi t×nh

huång thø hai (Môc 10.3 tr×nh bµy chi tiÕt h¬n vÒ khai ph¸ d÷ liÖu víi tÝnh riªng

t­).

1.1.1.7. D÷ liÖu ph¶i ®ñ, s¹ch vµ ph¶i liªn quan tíi bµi to¸n khai ph¸ d÷ liÖu

Ch­¬ng 2 tr×nh bµy qu¸ tr×nh tiÕn hãa vÒ m« h×nh khai ph¸ d÷ liÖu cho thÊy

tri thøc miÒn øng dông ngµy cµng cã vÞ trÝ quan träng h¬n trong qu¸ tr×nh ph¸t

hiÖn tri thøc tõ d÷ liÖu. Tri thøc miÒn øng dông gióp lµm t­êng minh bµi to¸n

khai ph¸ d÷ liÖu, do ®ã, ®Þnh râ ®­îc tÝnh ®ñ, tÝnh s¹ch vµ tÝnh liªn quan cña d÷

liÖu tíi bµi to¸n khai ph¸ d÷ liÖu. Ch­¬ng 3. Tr×nh bµy néi dung b­íc tiÒn xö lý

d÷ liÖu d¶m b¶o d÷ liÖu cã chÊt l­îng tèt cho qu¸ tr×nh khai ph¸.

NÒn t¶ng d÷ liÖu cho bµi to¸n khai ph¸ d÷ liÖu lµ c¸c CSDL t¸c nghiÖp mµ

chóng ®­îc thiÕt kÕ víi môc ®Ých phôc vô ho¹t ®éng nghiÖp vô hµng ngµy vµ

hÇu hÕt trong sè ®ã th­êng kh«ng kÌm theo môc ®Ých øng dông khai ph¸ d÷ liÖu

cho nªn viÖc ®¶m b¶o tÝnh liªn quan cña d÷ liÖu s½n cã còng kh«ng lµ mét céng

viÖc dÔ dµng. HiÓu bµi to¸n khai ph¸ d÷ liÖu vµ hiÓu d÷ liÖu ®¶m b¶o tÝnh liªn

quan cña d÷ liÖu víi bµi to¸n khai ph¸ d÷ liÖu.

TÝnh ®ñ cña d÷ liÖu ®­îc ®¶m b¶o b»ng viÖc thu thËp d÷ liÖu ®ñ ®¹i diÖn

cho miÒn øng dông. TÝnh s¹ch cña d÷ liÖu ®­îc ®¶m b¶o b»ng qu¸ tr×nh hiÓu d÷

liÖu, lµm s¹ch d÷ liÖu, lùa chän ®Æc tr­ng (nh­ ®· ®Ò cËp t¹i Ch­¬ng 2). TÝnh

s¹ch cña d÷ liÖu cã quan hÖ víi tÝnh ®Çy ®ñ khi ®Ó ®¶m b¶o r»ng d÷ liÖu ®ñ mµ

kh«ng d­ thõa v× d­ thõa d÷ liÖu cã thÓ g©y ra nhiÔu.

§Ó kiÓm tra c¸c tiªu chÝ nµy ®­îc ®¶m b¶o, viÖc tiÕn hµnh mét nghiªn cøu

thÝ ®iÓm ph©n tÝch d÷ liÖu qua mÉu s½n cã lµ rÊt h÷u Ých. Nghiªn cøu thÝ ®iÓm

cÇn ph¶i lµm râ c¸c vÊn ®Ò tån t¹i cho chÊt l­îng d÷ liÖu, tõ ®ã ­íc tÝnh ®­îc

thêi gian vµ nç lùc cho tiÒn xö lý d÷ liÖu.

Nh­ ®· ®Ò cËp t¹i Ch­¬ng 2, c«ng viÖc hiÓu vµ chuÈn bÞ d÷ liÖu rÊt mÊt

nhiÒu thêi gian vµ c«ng søc. NhiÒu t¸c gi¶ nhËn ®Þnh r»ng Quy t¾c 80:20 (Quy

t¾c /LuËt Pareto) còng hiÖn diÖn trong pha x©y dùng m« h×nh khai ph¸ d÷ liÖu,

theo ®ã, kho¶ng 80% thêi gian lµ dµnh cho viÖc chuÈn bÞ d÷ liÖu cßn 20% cßn

l¹i lµ dµnh cho viÖc d¹y vµ kiÓm thö m« h×nh. Quy t¾c nµy ®ßi hái tÝnh kiªn tr×

cña c¸c chuyªn viªn khai ph¸ d÷ liÖu.

Page 137: KPDL_C1-6 & C10

343 344

1.1.1.8. C¸c tri thøc míi ph¶i cã tÝnh hµnh ®éng

Qu¸ tr×nh khai ph¸ d÷ liÖu cã thÓ t¹o ra tri thøc míi nh­ng tri thøc ®ã ph¶i

cã tÝnh hµnh ®éng trong ®iÒu kiÖn cña tæ chøc vµ cho ra kÕt qu¶ ®¸p øng môc

tiªu cña tæ chøc. TÝnh hµnh ®éng (hay ¸p dông ®­îc) cña mÉu hay ®é ®o hÊp dÉn

®· ®­îc ®Ò cËp ë Ch­¬ng 2. Tuy nhiªn, viÖc thùc thi c¸c ®é ®o hÊp dÉn míi chØ

cho phÐp nhËn ®Þnh r»ng mÉu ®ã cã thÓ lµ hÊp dÉn mµ kh«ng ph¶i quyÕt ®Þnh

mÉu ch¾c ch¾n cã tÝnh hµnh ®éng.

Do phô thuéc vµo ®iÒu kiÖn cña tæ chøc cho nªn tÝnh hµnh ®éng cña tri

thøc ®èi víi c¸c tæ chøc kh¸c nhau lµ kh¸c nhau. VÝ dô, trong mét c«ng ty tiÕp

thÞ trùc tiÕp, cã thÓ triÓn khai c¸c kÕt qu¶ khai ph¸ d÷ liÖu theo mét sè c¸ch:

- Th«ng qua giao diÖn dµnh riªng tíi c¸c phÇn mÒm øng dông hiÖn cã ®Ó tri

thøc míi truy cËp ®­îc ®èi víi ng­êi dïng Ýt kinh nghiÖm.

- Tèi ­u hãa c¸c chiÕn dÞch tiÕp thÞ göi ®i. Víi th­ trùc tiÕp cã thÓ ®¹t ®­îc

mét gi¶m gi¸ 20-40%.

- TriÓn khai kÕt qu¶ trong c¸c kªnh kh¸c, vÝ dô nh­ trung t©m cuéc gäi. KÕt

qu¶ khai ph¸ d÷ liÖu trùc tuyÕn cã thÓ ®­îc dïng cho hép tho¹i ®iÒu khiÓn. NÕu

chóng ta kÕt hîp néi dung d÷ liÖu cña mét cuéc ®èi tho¹i víi c¸c d÷ liÖu phÝa

sau tõ hÖ thèng ho¹t ®éng, chóng ta cã ®­îc mét hÖ thèng tiÕp thÞ rÊt m¹nh mÏ.

10.1.2. Bµi häc vÒ triÓn khai dù ¸n

Nada Lavrac vµ céng sù [LMFHL04] tr×nh bµy mét sè nhËn ®Þnh sau ®©y

liªn quan tíi qu¸ tr×nh triÓn khai dù ¸n khai ph¸ d÷ liÖu t¹i c«ng ty:

- HÇu hÕt c¸c chuyªn gia miÒn øng dông (doanh nh©n, qu¶n lý tiÕp thÞ, ®¹i

diÖn b¸n hµng, qu¶n lý ®¶m b¶o chÊt l­îng, nh©n viªn an ninh, vv) lµ nh÷ng

ng­êi lµm viÖc trong ngµnh c«ng nghiÖp chØ quan t©m ®Õn khai ph¸ d÷ liÖu theo

gãc ®é lµ chóng gióp hä lµm tèt h¬n c«ng viÖc riªng cña hä. Hä kh«ng quan t©m

chi tiÕt kü thuËt vµ cµng kh«ng muèn quan t©m tíi vÊn ®Ò tÝch hîp. ChÝnh v× lý

do nµy mµ cÇn t¹o ra mét c¬ chÕ kÕt hîp hiÖu qu¶ c¸c chuyªn gia khai ph¸ d÷

liÖu víi c¸c chuyªn gia miÒn øng dông.

- øng dông khai ph¸ d÷ liÖu thµnh c«ng cÇn ®­îc tÝch hîp hoµn toµn víi

mét øng dông tiÕp thÞ, mét c«ng cô qu¶n lý quan hÖ kh¸ch hµng (Customer

relationship management: CRM), mét m«i tr­êng qu¶n lý dÞch vô, mét hÖ thèng

kiÓm kª hoÆc mét c«ng cô qu¶n lý triÖu chøng vµ søc kháe. §Ó hoµn thµnh viÖc

tÝch hîp nãi trªn, lêi gi¶i cho bµi to¸n khai ph¸ d÷ liÖu th­êng kh«ng ph¶i lµ lêi

gi¶i tèi ­u chØ cho bµi to¸n khai ph¸ d÷ liÖu mµ cÇn lµ lêi gi¶i ®ñ tèt song cho

phÐp phï hîp víi c¸c bµi to¸n cÇn tÝch hîp ®Ó t¹o ra t¸c ®éng trùc tiÕp vµo môc

tiªu ph¸t triÓn cña tæ chøc.

- §­a mét thuËt to¸n thµnh c«ng trong phßng thÝ nghiÖm, ngay c¶ víi d÷

liÖu lÊy tõ thùc tiÔn cuéc sèng, trë thµnh mét øng dông khai ph¸ d÷ liÖu cã hiÖu

qu¶ trong c«ng nghiÖp cã thÓ l¹i ph¶I qua mét qu¸ tr×nh l©u dµi. C¸c vÊn ®Ò nh­

hiÖu qu¶ chi phÝ, qu¶n lý, b¶o tr×, tÝch hîp phÇn mÒm, t¸i c«ng nghÖ lao ®éng vµ

qu¸ tr×nh kinh doanh ph¶i ®­îc tÝnh to¸n theo suèt qu¸ tr×nh l©u dµi ®ã.

- T­¬ng tù nh­ mäi dù ¸n CNTT kh¸c, toµn bé dù ¸n khai ph¸ d÷ liÖu ph¶i

nhËn ®­îc sù hç trî cña ng­êi qu¶n lý hµng ®Çu cña c«ng ty, cÇn ®­îc thùc hiÖn

bëi c¸c nhãm nhá víi tÝch hîp néi bé m¹nh vµ mét phong c¸ch qu¶n lý linh

ho¹t. VÊn ®Ò chñ së h÷u cÇn x¸c ®Þnh râ ng­êi chÞu tr¸ch nhiÖm dù ¸n khai ph¸

d÷ liÖu. Ph­¬ng ¸n tèt lµ ng­êi chÞu tr¸ch nhiÖm dù ¸n kh«ng ph¶i lµ mét nhµ

ph©n tÝch kü thuËt hoÆc chuyªn gia t­ vÊn mµ ph¶i lµ mét ng­êi cã tr¸ch nhiÖm

kinh doanh trùc tiÕp, vÝ dô nh­, mét ng­êi thuéc m«i tr­êng b¸n hµng hoÆc tiÕp

thÞ. §iÒu nµy mang l¹i lîi Ých cho tÝch hîp bªn ngoµi ®èi víi gi¶i ph¸p khai ph¸

d÷ liÖu.

- Dù ¸n khai ph¸ d÷ liÖu gãp phÇn t¨ng c­êng tri thøc tæ chøc v× vËy viÖc

thùc hiÖn c¸c dù ¸n thÝ ®iÓm víi ®­êng cong häc dèc (steep learning curve) cã

tÇm quan träng sèng cßn. Ng­êi sö dông hÖ thèng khai ph¸ d÷ liÖu trë nªn thµnh

th¹o chØ víi thêi gian vµ nç lùc ë møc tèi thiÓu. Hoµn vèn ®Çu t­ d­¬ng nªn

®­îc hoµn hµnh trong vßng tõ 6 ®Õn 12 th¸ng. KÕt qu¶ øng dông khai ph¸ d÷

liÖu kh«ng chØ lµ vÊn ®Ò kü thuËt phøc t¹p liªn quan ®Õn c¸c nh©n viªn kü thuËt

mµ chñ yÕu lµ t¸c ®éng ®Õn mét nhãm réng lín con ng­êi trong tæ chøc, v× vËy,

dù ¸n cÇn ®­îc qu¶n lý mét c¸ch chÆt chÏ.

Page 138: KPDL_C1-6 & C10

345 346

Sarabjot S. Anand [AGHLRW07] ®Ò cËp tíi vai trß vµ thi hµnh c¸c chuÈn

(c«ng nghiÖp) khi nhóng mét c«ng nghÖ khai ph¸ d÷ liÖu ®øng riªng rÏ vµo c«ng

nghÖ tÝch hîp ®­îc truy cËp vµ sö dông réng r·i trong m«i tr­êng kinh doanh

cña doanh nghiÖp (nãi riªng) vµ trong m«i tr­êng thùc hiÖn sø m¹ng cña tæ chøc

(nãi chung). C¸c chuÈn ®­îc x©y dùng nh»m lµm cho qu¸ tr×nh tÝch hîp nµy

trong suèt vµ minh b¹ch. ChuÈn CRISP-DM (The CRoss-Industry Standard

Process for Data Mining, nh­ ®· ®Ò cËp t¹i Ch­¬ng 2) víi bèn chiÒu ng÷ c¶nh

miÒn øng dông (Application Domain), kiÓu bµi to¸n khai ph¸ d÷ liÖu (Data

Mining Problem Type), khÝa c¹nh kü thuËt (Technical Aspect) vµ c¸c c«ng cô vµ

kü thuËt (Tools and Techniques) ®­îc coi lµ mét chuÈn c«ng nghiÖp phæ dông

khi ®­a c¸c dù ¸n khai ph¸ d÷ liÖu vµo øng dông thùc tiÔn.

10.1.3. §Æc tr­ng cña chuyªn viªn khai ph¸ d÷ liÖu

Khai ph¸ d÷ liÖu lµ mét lo¹i ho¹t ®éng cã ®é phøc t¹p cao, tèn thêi gian vµ

c«ng søc vµ th­êng ®ái hái mét qu¸ tr×nh l©u dµi. Ch­¬ng 1 ®· ®Ò cËp tíi mét sè

®Æc tr­ng cña nhµ khoa häc d÷ liÖu mµ vÒ b¶n chÊt hä còng chÝnh lµ chuyªn viªn

khai ph¸ d÷ liÖu. §Ó “thi hµnh s¸ng t¹o ho¹t ®éng kh¶o s¸t vµ ph©n tÝch, t¨ng

c­êng t­ vÊn, hîp t¸c, vµ phèi hîp n¨ng lùc cña nh÷ng ng­êi kh¸c ®Ó tiÕn hµnh

nghiªn cøu vµ gi¸o dôc b»ng c¸c bé d÷ liÖu sè; ®i tiªn phong trong viÖc ph¸t

triÓn s¸ng t¹o trong lÜnh vùc c«ng nghÖ c¬ së d÷ liÖu vµ khoa häc th«ng tin, bao

gåm ph­¬ng ph¸p trùc quan hãa d÷ liÖu vµ ph¸t hiÖn tri thøc ®Ó ¸p dông vµo c¸c

lÜnh vùc khoa häc vµ gi¸o dôc liªn quan ®Õn c¸c bé d÷ liÖu; thi hµnh mét c¸ch

tèt nhÊt c¶ theo khÝa c¹nh thùc tiÔn lÉn khÝa c¹nh c«ng nghÖ; ®ãng vai trß cè vÊn

®Ó khëi t¹o hoÆc chuyÓn ®æi d÷ liÖu cho c¸c nhµ ®iÒu tra, sinh viªn vµ nh÷ng

ng­êi kh¸c cã quan t©m tíi khoa häc d÷ liÖu; thiÕt kÕ vµ thi hµnh c¸c ch­¬ng

tr×nh gi¸o dôc vµ tiÕp cËn céng ®ång lµm cho lîi Ých cña c¸c bé d÷ liÖu vµ th«ng

tin khoa häc kü thuËt sè tíi c¸c nghiªn cøu viªn, gi¶ng viªn, sinh viªn vµ c«ng

chóng trong mét ph¹m vi réng nhÊt cã thÓ ®­îc”, hä cÇn cã ®Æc tr­ng riªng ®Ó

nhËn ra ®­îc c¸c tri thøc h÷u Ých, cÇn thiÕt tõ “nói d÷ liÖu ®å sé”. Gi¸m ®èc

th«ng tin (CIO) ®­îc coi nh­ mét chuyªn viªn khai ph¸ d÷ liÖu cao cÊp mµ ®Æc

tr­ng cña lo¹i chuyªn viªn cao cÊp nµy ®· ®­îc giíi thiÖu t¹i Ch­¬ng 2. Nh÷ng

®Æc tr­ng ®­îc ®Ò cËp d­íi ®©y liªn quan tíi chuyªn viªn khai ph¸ ®iÓn h×nh.

Theo c¸c chuyªn gia hµng ®Çu vÒ khai ph¸ d÷ liÖu, ngoµi nh÷ng ®Æc tr­ng

cña chuyªn viªn CNTT nãi chung, chuyªn viªn khai ph¸ d÷ liÖu cÇn cã c¸c ®Æc

tr­ng sau ®©y [NM09]:

• TÝnh kiªn tr×: CÇn kiªn tr× "tÊn c«ng" mét vÊn ®Ò khai ph¸ d÷ liÖu mét

c¸ch liªn tôc vµ tõ c¸c gãc ®é kh¸c nhau. CÇn thùc hiÖn viÖc tù ®éng hãa c¸c

b­íc cÇn thiÕt, ®Æc biÖt khi thùc hiÖn c¸c bµi kiÓm tra lÊy mÉu l¹i. CÇn huy ®éng

ho¹t ®éng kiÓm tra, ®¸nh gi¸ ngoµi (bao gåm ®¸nh gi¸ chÐo) khi triÓn khai c«ng

viÖc còng nh­ trong viÖc ®¸nh gi¸ hiÖu qu¶ cña m« h×nh. Ph¶n biÖn kh¸ch quan,

ph¸t hiÖn sai sãt cña m« h×nh, nghiªn cøu c¸c t×nh huèng ph¸ vì m« h×nh lµ c¸c

gi¶i ph¸p cÇn thiÕt khi x©y dùng m« h×nh khai ph¸ d÷ liÖu.

• Th¸i ®é lµm viÖc: Thø nhÊt, c«ng viÖc khai ph¸ d÷ liÖu ®ßi hái tinh thÇn

l¹c quan, tin t­ëng vµo kÕt qu¶ ph¸t hiÖn tri thøc khi tiÕn hµnh mét qu¸ tr×nh

nhiÒu khã kh¨n nh­ khai ph¸ d÷ liÖu. Thø hai, cÇn gi÷ mét th¸i ®é ®óng møc vÒ

kÕt qu¶ khai ph¸ d÷ liÖu.

• Lµm viÖc nhãm: Ph¶i hîp t¸c chÆt chÏ víi c¸c chuyªn gia kinh doanh vµ

thèng kª ®Ó cã ®­îc tiÕn ®é tèt nhÊt cho dù ¸n. CÇn ®¶m b¶o ch¾c ch¾n r»ng mçi

®èi t¸c ®Òu cã thÓ ph¸t triÓn nghÒ nghiÖp th«ng qua sù thµnh c«ng cña dù ¸n. ChÝ

cã mét nhãm céng t¸c hiÖu qu¶ cña c¸c chuyªn gia khai ph¸ d÷ liÖu, kinh doanh,

thèng kÕ míi t¹o ra ®­îc nhËn thøc nh­ vËy. Kh«ng ph¶i tÊt c¶ mäi ng­êi ®·

muèn dù ¸n thµnh c«ng ngay tõ ®Çu. §«i khi, c¸c chuyªn gia kinh doanh e ng¹i

vÒ c¸c bÝ mËt c«ng viÖc, lo l¾ng vÒ c¸c mèi nguy hiÓm tiÒm n¨ng khi dù ¸n khai

ph¸ d÷ liÖu ®µo s©u vµo miÒn ho¹t ®éng cña m×nh.

• TÝnh khiªm tèn: Häc hái tõ nh÷ng ng­êi kh¸c (®Æc biÖt lµ c¸c chuyªn gia

miÒn øng dông) ®Ó san lÊp c¸c lç hæng vÒ tri thøc miÒn øng dông còng nh­ quy

tr×nh tæ chøc cña ®¬n vÞ triÓn khai dù ¸n khai ph¸ d÷ liÖu. TÝnh khiªm tèn gióp

chuyªn viªn khai ph¸ d÷ liÖu hiÓu vÒ miÒn øng dông (nãi riªng hiÓu d÷ liÖu)

toµn diÖn h¬n do thu thËp ®­îc th«ng tin toµn diÖn tõ líp réng lín nh÷ng ng­êi

cã liªn quan. CÇn cã tinh thÇn thø lçi tèt khi gÆp hiÖn t­îng ph¸t biÓu sai cña

Page 139: KPDL_C1-6 & C10

347 348

kh¸ch hµng vµ nh÷ng ng­êi liªn quan. TÝnh khiªm tèn cßn ®­îc thÓ hiÖn trong

viÖc kh«ng coi nh÷ng c«ng nghÖ mµ m×nh ®· n¾m b¾t ®­îc lµ ®Æc hiÖu v¹n n¨ng

mµ cÇn ph¸t biÕt lùa chän tõ nhiÒu c«ng nghÖ thay thÕ nhau ®Ó lùa chän ra ®­îc

mét c«ng nghÖ phï hîp víi tõng ÷ng bµi to¸n khai ph¸ d÷ liÖu cô thÓ.

10.2. Mét sè lçi th­êng gÆp trong khai ph¸ d÷ liÖu

Môc 10.1 ®· giíi thiÖu mét sè bµi häc kinh nghiÖm trong khai ph¸ d÷ liÖu

®­îc ®óc kÕt tõ kÕt qu¶ thµnh c«ng hay thÊt b¹i khi triÓn khai c¸c øng dông khai

ph¸ d÷ liÖu. §ång thêi vµ t­¬ng øng víi c¸c bµi häc ®ã, c¸c lçi ®iÓn h×nh trong

khai ph¸ d÷ liÖu còng ®­îc ph¸t hiÖn. Ch¼ng h¹n, bµi häc vÒ d÷ liÖu ph¶i ®Çy ®ñ,

s¹ch sÏ vµ liªn quan tíi bµi to¸n khai ph¸ d÷ liÖu sÏ ®­îc t­¬ng øng víi lçi thiÕu

d÷ liÖu. Tuy nhiªn, viÖc tr×nh bµy t­êng minh c¸c lçi th­êng gÆp nhÊt trong khai

ph¸ d÷ liÖu còng lµ mét néi dung hÕt søc cÇn thiÕt ®Ó nh¾c nhë nh÷ng ng­êi míi

b¾t ®Çu tham gia triÓn khai dù ¸n khai ph¸ d÷ liÖu. C«ng bè c¸c kÕt qu¶ kh«ng

mong ®îi [CD10], nhËn diÖn vµ c«ng bè c¸c lçi th­êng gÆp trong khai ph¸ d÷

liÖu lµ nhøng ho¹t ®éng cã tÇm quan träng trong céng ®ång nh÷ng ng­êi nghiªn

cøu vµ triÓn khai trong lÜnh vùc nµy.

Danh s¸ch c¸c lçi th­êng gÆp trong ho¹t ®éng khai ph¸ d÷ liÖu ®­îc giíi

thiÖu d­íi ®©y do Robert Nisbet vµ céng sù [NEM09] nhËn diÖn. Theo c¸c t¸c

gi¶, ®Çu tiªn lµ mét danh s¸ch 10 lçi ®iÓn h×nh nhÊt ®­îc x¸c ®Þnh, vµ sau ®ã lçi

“thiÕu d÷ liÖu” t­ëng nh­ “ai còng biÕt” ®­îc bæ sung vµ ®­îc ®¸nh chØ sè 0

("kh«ng"). Néi dung môc nµy ®­îc tæng hîp tõ tµi liÖu [NEM09] vµ mét sè tµi

liÖu liªn quan kh¸c, trong ®ã cã chuyªn môc “C¸c kÕt qu¶ kh«ng mong ®îi”

(Unexpected results) cña T¹p chÝ ACM SIGKDD Explorations newsletter sè 2, tËp

12 n¨m 2010.

ThiÕu d÷ liÖu

"D÷ liÖu" ®­îc ®Ò cËp ë ®©y lµ tËp vÝ dô ®­îc chän lµm ®¹i diÖn cho miÒn

d÷ liÖu cña bµi to¸n khai ph¸ d÷ liÖu. TÝnh ®¹i diÖn cña tËp vÝ dô ®ßi hái viÖc

h×nh thµnh tËp vÝ dô ®¸p øng yªu cÇu tËp vÝ dô "duy tr×" cÊu tróc cña miÒn d÷

liÖu mµ cÊu tróc c¬ b¶n nhÊt lµ ph©n bè x¸c suÊt cña d÷ liÖu. Robert Nisbet vµ

céng sù [NEM09] cho mét vÝ dô vÒ t×nh huèng tri thøc tiÒm Èn ®­îc vÝ nh­ "c¸i

kim trong ®èng cã kh«" d÷ liÖu trong bµi to¸n ph¸t hiÖn gian lËn tÝn dông ng©n

hµng. M« h×nh d÷ liÖu ®­îc h×nh thµnh tõ tËp vÝ dô mÉu cho phÐp kh«ng bá sãt

c¸c mÉu tiÒm Èn ®ã.

Lçi thiÕu d÷ liÖu xuÊt ph¸t tõ mét sè nguyªn nh©n. Thø nhÊt, mét vÝ dô

th­êng ®­îc t¹o ra b»ng ph­¬ng ph¸p thñ c«ng víi nh÷ng thao t¸c dÔ g©y nhµm

ch¸n cho ng­êi thùc hiÖn. Thø hai, "hiÓu d÷ liÖu" (nh­ tr×nh bµy ë Ch­¬ng 3) lµ

mét c«ng viÖc nghiªn cøu vµ triÓn khai c«ng phu, trong ®ã ®¸ng chó ý lµ c«ng

viÖc kiÓm nghiÖm gi¶ thiÕt m« h×nh d÷ liÖu. Kh«ng hiÓu tèt d÷ liÖu dÉn ®Õn t×nh

huèng nhËn ®­îc mét tËp vÝ dô víi kÝch th­íc lín song vÉn trong t×nh tr¹ng

thiÕu d÷ liÖu do chän nhÇm (thõa) vÝ dô võa tèn c«ng søc võa cã thÓ lµm sai lÖch

m« h×nh d÷ liÖu.

Häc b¸n gi¸m s¸t lµ mét ®Þnh h­íng gi¶i ph¸p tèt ®Ó kh¾c phôc lçi thiÕu d÷

liÖu, tuy nhiªn, nã kh«ng ph¶i lµ gi¶i ph¸p v¹n n¨ng ¸p dông ®­îc cho mäi

tr­êng hîp [Gold10, Zhu08]. Trong nh÷ng tr­êng hîp ¸p dông ®­îc gi¶i ph¸p

häc b¸n gi¸m s¸t, "hiÓu d÷ liÖu" cµng cã vai trß ®Æc biÖt quan träng.

CÇn ph©n biÖt kh¸i niÖm tËp d÷ liÖu trong t×nh huèng ®¸nh gi¸ mét thuËt

to¸n khai ph¸ d÷ liÖu víi t×nh huèng triÓn khai mét dù ¸n khai ph¸ d÷ liÖu.

Trong t×nh huèng ®Çu tiªn, c¸c bé d÷ liÖu "chuÈn" cña c«ng ®ång nghiªn cøu

®­îc c«ng bè trªn Internet lµ mét lùa chän tèt. T×nh huèng thø hai c«ng phu

h¬n, võa ph¶i sö dông c¸c bé d÷ liÖu chuÈn võa ph¶i hiÓu d÷ liÖu miÒn øng dông

®Ó h×nh thµnh tËp vÝ dô mÉu.

Qu¸ chó träng vµo viÖc häc

NhÊn m¹nh c«ng viÖc tinh chØnh m« h×nh theo d÷ liÖu ®Ó nhËn ®­îc mét

m« h×nh tèt theo tËp vÝ dô lµ mét biÓu hiÖn cña t×nh huèng qu¸ chó träng vµo

viÖc häc. ViÖc lµm nh­ vËy th­êng dÉn ®Õn t×nh huèng "qu¸ khíp" (overfitting)

gi÷a m« h×nh vµ d÷ liÖu bëi v× dï b­íc hiÓu d÷ liÖu cã ®­îc tiÕn hµnh c«ng phu

®Õn mÊy th× tËp vÝ dô còng kh«ng thÓ ®¹i diÖn ®Çy ®ñ cho d÷ liÖu miÒn øng

dông. Khi chó träng lµm khÝt m« h×nh víi d÷ liÖu häc, chóng ta cã thiªn h­íng

Page 140: KPDL_C1-6 & C10

349 350

nhÊn m¹nh ®Æc tr­ng riªng cña tËp vÝ dô h¬n lµ c¸c ®Æc tr­ng chung cña d÷ liÖu

miÒn øng dông mµ tËp vÝ dô ®¹i diÖn.

Dù tr÷ vÝ dô ®Ó ®¸nh gi¸ sau m« h×nh lµ mét gi¶i ph¸p ®Þnh h­íng cho

phÐp kh¾c phôc lçi qu¸ chó träng vµo viÖc häc. Tuy nhiªn, vÝ dô häc lµ tµi

nguyªn qu¸ cho x©y dùng m« h×nh cho nªn kh«ng ph¶i lóc nµo còng dµnh ®­îc

vÝ dô dù tr÷. Trong tr­êng hîp ®ã, viÖc lÊy mÉu bæ sung (resampling) cÇn ®­îc

tiÕn hµnh.

Trong nhiÒu tr­êng hîp, kü thuËt ®¸nh gi¸ chÐo (cross-folds valuation)

còng ®­îc coi lµ mét gi¶i ph¸p kh¾c phôc lçi m« h×nh "qu¸ khÝt" víi vÝ dô häc.

Khi ¸p dông kü thuËt ®¸nh gi¸ chÐo, tÝnh ngÉu nhiªn cña viÖc ph©n chia tËp vÝ dô

cã ý nghÜa rÊt quan träng.

Dùa vµo chØ mét kü thuËt

Trong to¸n häc, kÕt qu¶ nghiªn cøu lµ b¶n chÊt cßn kü thuËt thi hµnh ®Ó ®i

tíi kÕt qu¶ chØ lµ thø yÕu. Theo c¸ch nãi cña Gian-Carlo Rota29, mçi nhµ to¸n

häc (thËm chÝ c¶ nhµ to¸n häc vÜ ®¹i ng­êi §øc David Hilbert) chØ cã mét vµi

mÑo vÆt (nguyªn v¨n tiÕng Anh: "Every mathematician has only a few tricks").

Trong khai ph¸ d÷ liÖu, th× cã ®iÒu kh¸c biÖt lµ chóng ta kh«ng chØ dùa vµo

nh÷ng kü thuËt khai ph¸ d÷ liÖu quen biÕt ®Ó thùc hiÖn c¸c bµi to¸n khai ph¸ d÷

liÖu kh¸c nhau. Sù kh¸c biÖt nµy cã xuÊt ph¸t ®iÓm tõ sù kh¸c biÖt cña nguån

gèc tri thøc "míi". Trong to¸n häc, tri thøc míi cã ®­îc dùa trªn suy luËn l«gic,

biÖn luËn, chøng minh cña nhµ to¸n häc theo nh÷ng kü thuËt riªng v× vËy nhµ

to¸n häc th­êng ­a chuéng c¸c kü thuËt s¾n cã cña m×nh. Trong khi ®ã, trong

khai ph¸ d÷ liÖu, tri thøc míi ®­îc tiÒm Èn trong d÷ liÖu, kh«ng phô thuéc vµo ý

kiÕn chñ quan cña c¸c ng­êi khai ph¸ d÷ liÖu, v× vËy, kh«ng thÓ dùa vµo c¸c kü

thuËt nµo ®ã quen thuéc cña hä.

ViÖc ¸p dông mét sè kü thuËt kh¸c nhau ®Ó gi¶i bµi to¸n khai ph¸ d÷ liÖu

cho phÐp chóng ta ®­a ra ®­îc nhiÒu ph­¬ng ¸n nh»m môc ®Þch ®¸nh gi¸ chóng

29 http://alumni.media.mit.edu/~cahn/life/gian-carlo-rota-10-

lessons.html

vµ lùa chän ph­¬ng ¸n tèt nhÊt trong sè c¸c ph­¬ng ¸n ®· ®­îc thi hµnh. TiÕn

hµnh c«ng viÖc nh­ vËy cã thÓ g©y ra sù tèn kÐm nhÊt ®Þnh, ®Æc biÖt trong thùc

nghiÖm, song lµ rÊt cÇn thiÕt.

TÝch hîp c¸c kü thuËt kh¸c nhau lµ mét tiÕp cËn ®­îc xem xÐt khi gi¶i

quyÕt c¸c bµi to¸n khai ph¸ d÷ liÖu. Mçi kü thuËt khai ph¸ d÷ liÖu phï hîp tèt

víi mét lo¹i m« h×nh d÷ liÖu t­¬ng øng, tuy nhiªn, gi¶ thiÕt vÒ m« h×nh d÷ liÖu

miÒn øng dông kh«ng ph¶i lµ chÝnh x¸c hoÆc hoµn toµn chÝnh x¸c. Khi tÝch hîp

nhiÒu kü thuËt khai ph¸ d÷ liÖu víi nhau th× c¸ch kü thuËt nµy bæ sung cho nhau

nh÷ng h¹n chÕ vÒ gi¶ thiÕt m« h×nh d÷ liÖu cña mçi m« h×nh. Robert Nisbet vµ

céng sù [NEM09] ®· chØ dÉn cô thÓ vÒ lîi thÕ cña tÝch hîp m« h×nh trong nhiÒu

øng dông khai ph¸ d÷ liÖu.

Christophe Giraud Carrier vµ Margaret H. Dunham [CD10] nhÊn m¹nh

r»ng kh«ng ph¶i mäi kü thuËt khai ph¸ d÷ liÖu ®­îc coi lµ tèt th× ®Òu ¸p dông

®­îc cho mäi t×nh huèng. C¸c t¸c gi¶ tæng hîp ba tr­êng hîp vÒ c¸c kü thuËt

hiÖu qu¶ rÊt phæ biÕn song trong mét sè tr­êng hîp c¸c kü thuËt nµy l¹i cho kÕt

qu¶ rÊt h¹n chÕ

(i) m« h×nh ng÷ nghÜa Èn Latent Semantic Indexing LSI kh«ng bao gåm ®­îc

c¸c mèi quan hÖ gi÷a tõ, chñ ®Ò Èn vµ tµi liÖu trong c¸c bé d÷ liÖu TREC,

(ii) kü thuËt ®¸nh gi¸ chÐo theo ®é ®o AUC cho hiÖu qu¶ thÊp trong th­êng

hîp sö dông c¬ chÕ stack vµ mÉu cã Ýt vÝ dô d­¬ng,

(iii) hiÖu n¨ng cña c¸c bé ph©n líp kh«ng t¨ng khi th«ng tin/vÝ dô mÉu

®­îc bæ sung vµo tËp vÝ dô mÉu. Mét nguyªn nh©n lien quan tíi ®iÓm phï hîp

trªn lµ cÊu t¹o cña kiÕn tróc líp kh«ng ph¶n ¸nh t­¬ng øng víi ph©n bè cña c¸c

thÓ hiÖn.

Nh÷ng khuyÕn c¸o trªn ®©y gióp mäi ng­êi tr¸nh lçi chØ sö dông c¸c kü

thuËt khai ph¸ d÷ liÖu quen thuéc.

§Æt sai c©u hái

Lçi ®Æt sai c©u hái xuÊt hiÖn ë hai cÊp ®é x¸c ®Þnh môc tiªu vµ x¸c ®Þnh

m« h×nh môc tiªu.

Page 141: KPDL_C1-6 & C10

351 352

Thø nhÊt, ®Æt c©u hái sai cã nguyªn nh©n tõ x¸c ®Þnh sai môc tiªu khai ph¸

d÷ liÖu. Nh­ vËy, lçi nµy liªn quan mËt thiÕt tíi bµi häc cÇn ®Æt ®óng bµi to¸n

khai ph¸ d÷ liÖu. Môc tiªu cña bµi to¸n khai ph¸ d÷ liÖu g¾n kÕt víi môc tiªu

kinh doanh, viÖc chuyÓn ®æi tõ môc tiªu kinh doanh thµnh môc tiªu khai ph¸ d÷

liÖu lµ rÊt khã kh¨n, phøc t¹p, v× vËy sù céng t¸c c¸c chuyªn gia nhiÒu lÜnh vùc

lµ hÕt søc quan träng.

Mét vµi nguyªn nh©n ®iÓn h×nh g©y ra t×nh huèng ®Æt sai c©u hái (x¸c ®Þnh

sai môc tiªu) khai ph¸ d÷ liÖu lµ do c«ng søc lµm viÖc ®Ó hiÓu bµi to¸n vµ d÷

liÖu ch­a ®­îc bá ra ®óng møc ®é, do nh÷ng ng­êi liªn quan ®· ¸p ®Æt viÖc thõa

kÕ qu¸ møc bµi to¸n khai ph¸ d÷ liÖu s¾n cã mµ ®­îc coi lµ cïng lo¹i hoÆc do ®·

­u tiªn qu¸ møc kinh nghiÖm cña c¸c chuyªn viªn khai ph¸ d÷ liÖu.

Thø hai, môc tiªu khai ph¸ d÷ liÖu ®­îc ®Æt ®óng song x¸c ®Þnh m« h×nh

môc tiªu cã thÓ kh«ng ®óng. C©u hái ®Æt ra cho øng dông khai ph¸ d÷ liÖu lµ

mét bé phËn trong c¸ch thøc x¸c ®Þnh m« h×nh môc tiªu. Ph©n tÝch ®a chiÒu

m¹nh cho phÐp x¸c ®Þnh m« h×nh môc tiªu tèt.

ChØ “nghe” tõ d÷ liÖu

TiÕp cËn khai ph¸ d÷ liÖu "t×m nh÷ng mÉu (tri thøc) míi, h÷u dông, cã gi¸

trÞ, tiÒm Èn trong d÷ liÖu" kh«ng ®ång nhÊt víi quan niÖm r»ng d÷ liÖu s½n cã lµ

tÊt c¶ c¸c nguån tµi nguyªn cã thÓ cã phôc vô qu¸ tr×nh khai ph¸ d÷ liÖu. Bµi

to¸n khai ph¸ d÷ liÖu cÇn nh÷ng nguån tµi nguyªn bæ sung kh¸c.

Mét mÆt, d÷ liÖu chóng ta thu thËp ®­îc cã thÓ ch­a bao gåm hÕt c¸c ®Æc

tr­ng d÷ liÖu miÒn øng dông cho bµi to¸n khai ph¸ d÷ liÖu. Trong thùc tiÔn, d÷

liÖu thu thËp ®­îc tõ c¸c hÖ thèng quan s¸t mµ c¸c hÖ thèng quan s¸t ®ã kh«ng

ph¶i lóc nµo còng cho phÐp h×nh thµnh th«ng tin toµn diÖn m« t¶ d÷ liÖu. Cã thÓ

nãi mét sè "®Æc tr­ng" (thuéc tÝnh) cña d÷ liÖu bÞ bá sãt trong qu¸ tr×nh thu thËp

d÷ liÖu. Tri thøc miÒn øng dông cho phÐp gi¶m thiÓu t×nh huèng bá sãt nh­ vËy.

MÆt kh¸c, mÆc dï chuyªn gia khai ph¸ d÷ liÖu cã kh¶ n¨ng "nghe ®­îc c¸c

c©u chuyÖn do d÷ liÖu kÓ" nh­ng ®Ó nghe ®­îc "c©u chuyÖn tõ d÷ liÖu" th× hä

cÇn ph¶i ®­îc cung cÊp thªm tri thøc miÒn øng dông (do c¸c chuyªn gia miÒn

øng dông cung cÊp) vµ néi dung vµ ý nghÜa môc tiªu cña bµi to¸n khai ph¸ d÷

liÖu (do ng­êi qu¶n lý cao cÊp cung cÊp).

Nh­ tr×nh bµy trong Ch­¬ng 1, hÖ thèng khai ph¸ d÷ liÖu chøa mét c¬ së tri

thøc nh­ mét thµnh phÇn t¸ch ra khái tµi nguyªn d÷ liÖu ®Çu v¸o cho bµi to¸n

khai ph¸ d÷ liÖu. H¬n n÷a, c¬ së tri thøc nµy lµ kh«ng ®Çy ®ñ vµ c¸c yÕu tè trong

c¬ së tri thøc nµy cã thÓ ®­îc bæ sung, thay ®æi, hay lo¹i bá.

ChÊp nhËn dß rØ tõ t­¬ng lai

Tiªu ®Ò cña môc nhá nµy ¸m chØ r»ng cã sù nhËp nh»ng gi÷a ®Çu vµo vµ

®Çu ra cña bµi to¸n khai ph¸ d÷ liÖu, hay nãi kh¸c ®i, tån t¹i mét sù giao thoa

nµo ®ã cña tËp biÕn ®Çu vµo víi tËp biÕn ®Çu ra. Sù giao thoa nh­ vËy cã nguyªn

nh©n tõ viÖc hiÓu d÷ liÖu trong giai ®o¹n tiÒn xö lý d÷ liÖu ch­a chÝnh x¸c.

Robert Nisbet vµ céng sù [NEM09] ®­a ra mét sè vÝ dô cña lo¹i lçi nµy, trong

®ã cã vÝ dô ®i t×m luËt liªn quan tíi sù ph¸ s¶n cña c¸c c«ng ty tõ viÖc nghiªn

cøu d÷ liÖu cña c¸c c«ng ty ®ang tån t¹i.

Mét vÝ dô tÇm th­êng cña lçi nµy lµ sù giao thoa gi÷a tËp vÝ dô häc víi tËp

vÝ dô ®¸nh gi¸ m« h×nh. Mét sè ng­êi míi lµm quen víi khai ph¸ d÷ liÖu khi tiÕn

hµnh ®¸nh gi¸ m« h×nh l¹i cho phÐp vÝ dô häc ®ãng vai trß cña d÷ liÖu kiÓm thö.

Gi¶m bít vÝ dô "lµm phiÒn"

Trong qu¸ tr×nh hiÓu d÷ liÖu, cã thÓ chóng ta ph¸t hiÖn ra mét vµi vÝ dô

kh¸c biÖt hoµn toµn víi ®Æc tr­ng chung cña tËp vÝ dô cßn l¹i. Nh÷ng vÝ dô kh¸c

biÖt nµy tån t¹i trong thùc tiÔn song cã vÎ nh­ nã g©y khã kh¨n rÊt lín khi x©y

dùng m« h×nh. Trong tr­êng hîp ®ã, dÔ x¶y ra nhËn ®Þnh r»ng nÕu bá ®i c¸c vÝ

dô nµy, qu¸ tr×nh x©y dùng m« h×nh võa ®¬n gi¶n vµ m« h×nh x©y dùng ®­îc cã

vÎ rÊt phï hîp víi tËp d÷ liÖu cßn l¹i. Tõ nhËn ®Þnh nµy dÉn tíi viÖc lo¹i bá c¸c

vÝ dô kh¸c biÖt nh­ ®· nãi vµ lçi gi¶m bít vÝ dô lµm phiÒn xuÊt hiÖn.

Christophe Giraud Carrier vµ Margaret H. Dunham [CD10] khuyÕn c¸o vÒ

viÖc cÇn ph¶i tr¸nh nh÷ng lçi khi lùa chän vµ sö dông d÷ liÖu ®Çu vµo.

Page 142: KPDL_C1-6 & C10

353 354

§¸p øng mäi yªu cÇu

Lèi nµy cã nguyªn nh©n tõ nhËn thøc ch­a toµn diÖn vÒ khai ph¸ d÷ liÖu,

ch­a h×nh dung hÕt qu¸ tr×nh khã kh¨n vµ phøc t¹p cña khai ph¸ d÷ liÖu. Trong

mét sè tr­êng hîp, quyÕt ®Þnh nãng véi mong muèn øng dông mét c«ng nghÖ

tiªn tiÕn còng lµ mét nguyªn nh©n dÉn tíi t×nh tr¹ng sù chuÈn bÞ tri thøc vµ kü

n¨ng ch­a theo kÞp víi mong muèn ®ã. C¸c nguyªn nh©n nãi trªn dÉn tíi t×nh

tr¹ng x¸c ®Þnh ch­a ®óng ph¹m vi kÕt qu¶ cña khai ph¸ d÷ liÖu.

Yªu cÇu ®èi víi mét øng dông khai ph¸ d÷ liÖu hay còng vËy ph¹m vi kÕt

qu¶ cña øng dông nh­ vËy cÇn ®­îc x¸c ®Þnh phï hîp víi giíi h¹n môc tiªu cña

øng dông mµ ®· ®­îc khuyÕn c¸o lµ kh«ng qu¸ ba môc tiªu cho mét øng dông.

Qu¸ tËp trung vµo viÖc ®i t×m m« h×nh tèt

Cã thÓ coi lçi nµy lµ ®ång d¹ng víi lçi dùa vµo chØ mét kü thuËt khai ph¸

d÷ liÖu. T×m ®­îc m« h×nh tèt, phï hîp víi ng÷ c¶nh cña bµi to¸n khai ph¸ d÷

liÖu lµ ®Þnh h­íng chñ ®¹o cña qu¸ tr×nh khai ph¸ d÷ liÖu. NÕu qu¸ tËp trung vµo

viÖc ®i t×m mét m« h×nh tèt, mét mÆt, sÏ x¶y ra hiÖn t­îng coi nhÑ c¸c thµnh

phÇn quan träng kh¸c cña qu¸ tr×nh khai ph¸ d÷ liÖu, mÆt kh¸c, dÔ bÞ l¹c vµo

"mª cung" khi t×m kiÕm m« h×nh.

Nh­ ®· biÕt, tiÕp cËn lêi gi¶i cho bµi to¸n khai ph¸ d÷ liÖu lµ "lêi gi¶i ®ñ

tèt" mµ kh«ng ph¶i lµ "lêi gi¶i tèt ­u", viÖc t×m m« h×nh tèt cÇn ®­îc thi hµnh

víi møc ®é tËp trung phï hîp song còng cÇn giµnh thêi gian vµ c«ng søc cho c¸c

c«ng viÖc kh¸c trong toµn bé qu¸ tr×nh ph¸t hiÖn tri thøc tõ d÷ liÖu, ®Æc biÖt lµ

cÇn ®Çu t­ thÝch ®¸ng cho c«ng viÖc tiÒn xö lý d÷ liÖu, biÓu diÔn d÷ liÖu, gi¶i

thÝch vµ trùc quan hãa kÕt qu¶.

H×nh 10.1. So s¸nh mét sè kü thuËt ph¸t hiÖn vµ trÝch chän

danh s¸ch trªn Web [Weni10]

Nh­ ®· biÕt, mçi mét m« h×nh khai ph¸ d÷ liÖu ®ßi hái miÒn øng dông bµi

to¸n khai ph¸ d÷ liÖu cÇn ®¸p øng yªu cÇu gi¶ thiÕt cña m« h×nh. Dï r»ng, trong

hÇu hÕt tr­êng hîp øng dông khai ph¸ d÷ liÖu, nÕu kh«ng b¸c bá ®­îc gi¶ thiÕt

vÒ mét m« h×nh trªn miÒn øng dông cña bµi to¸n th× cÇn chÊp nhËn m« h×nh ®ã,

song "m« h×nh tèt" sÏ ®ßi hái nhiÒu gi¶ thiÕt h¬n v× vËy kh¶ n¨ng xuÊt hiÖn ph¶n

vÝ dô ®Ó b¸c bá m« h×nh sÏ cao h¬n.

Tim Weninger vµ céng sù [Weni10] kh¶o s¸t c¸c kü thuËt ph¸t hiÖn vµ

trÝch chän danh s¸ch chung trªn web. C¸c t¸c gi¶ kú väng r»ng c¸c kü thuËt lµm

tinh vi sÏ cho mét hiÖu n¨ng cao ph¸t hiÖn vµ trÝch chän danh s¸ch chung. Tuy

nhiªn, kÕt qu¶ thù nghiÖm chØ ra r»ng kü thuËt trùc quan (theo tiÕp cËn ®¬n gi¶n

“ng©y th¬”) l¹i cho kÕt qu¶ trung b×nh (®é håi t­ëng ®¹t 55%) cao h¬n nhiÒu so

víi c¸c kü thuËt tinh vi h¬n nh­ Google Sets, WebTables vµ WWT MDR (h×nh

10.1).

MÉu tÝnh cê

Ph¸t hiÖn tri thøc tõ d÷ liÖu ®­îc vÝ nh­ "t×m kimtrong ®èng cá" cho nªn

®Æt ra yªu cÇu lµ sè l­îng mÉu ®Ó häc m« h×nh cÇn kho¶ng 10% sè l­îng d÷ liÖu

cã thÓ trong miÒn øng dông. §Ó ®¹t ®­îc tû lÖ nµy hoÆc chóng ta ph¶i gi¶m kÝch

th­íc kh«ng gian d÷ liÖu miÒn øng dông b»ng c¸c bá ®i c¸c mÉu th«ng dông

nhÊt (under sample) hoÆc bæ sung c¸c mÉu míi. Trong c¶ hai tr­êng hîp, lo¹i bá

mÉu (®Þnh h­íng gi¶m kÝch th­íc kh«ng gian d÷ liÖu) hoÆc bæ sung mÉu míi,

lçi mÉu t×nh cê xÈy ra; viÖc lo¹i bá hay bæ sung mÉu kh«ng nh­ mong muèn.

VÒ lý thuyÕt, tËp vÝ dô mÉu (vÝ dô häc vµ vÝ dô kiÓm thö) lµ ®¹i diÖn cho

tËp d÷ liÖu miÒn øng dông, ®­îc chän mét c¸ch "ngÉu nhiªn" tõ d÷ liÖu miÒn

øng dông. Trªn thùc tÕ, yªu cÇu nµy rÊt khã thùc hiÖn mét c¸ch tuyÖt ®èi chÝnh

x¸c. X¸c ®Þnh tèt ph©n bè d÷ liÖu theo c¸c ®Æc tr­ng cho phÐp viÖc x©y dùng vÝ

dô mÉu mét c¸ch ngÉu nhiªn theo ph©n bè ®Æc tr­ng ®· ®­îc x¸c ®Þnh cho phÐp

gi¶m thiÓu lçi t×nh cê. Trong tr­êng hîp khã kh¨n ®¶m b¶o tÝnh ngÉu nhiªn

trong x©y dùng vÝ dô mÉu th× nªn ¸p dông mét thø tù ngÉu nhiªn cho c¸c mÉu.

Thø tù nµy cã thÓ ®­îc dïng trong viÖc lùa chän tËp vÝ dô häc vµ tËp vÝ dô kiÓm

thö.

Page 143: KPDL_C1-6 & C10

355 356

Theo Tim Weninger vµ céng sù [Weni10], trong tr­êng hîp cña bµi to¸n

ph¸t hiÖn vµ trÝch chän danh s¸ch, c¸c ph­¬ng ph¸p tinh vi ®­îc xem xÐt cã xu

h­íng thiªn vÞ trong viÖc lÊy mÉu; sù thiªn vÞ nh­ vËy cã thÓ lµ nguyªn nh©n lµm

cho c¸c kü thuËt tinh vi ®ã kh«ng ®¹t kÕt qu¶ nh­ kú väng.

Ngo¹i suy

Lçi ngo¹i suy cã xuÊt ph¸t ®iÓm tõ viÖc l¹m dông kinh nghiÖm tõ c¸c dù ¸n

khai ph¸ d÷ liÖu ®· thùc hiÖn. GÆp mét tr­êng hîp mµ ®­îc coi lµ "t­¬ng tù",

nh÷ng kinh nghiÖm ®· cã th­êng dÉn ®Õn ngo¹i suy c¸c t×nh huèng bµi to¸n liªn

quan. Mét lo¹i mÉu ngo¹i suy ®iÓn h×nh lµ ngo¹i suy theo sè chiÒu kh«ng gian

d÷ liÖu miÒn øng dông: tõ kinh nghiÖm trong qu¸ khø ®èi víi cì chiÒu nhá,

ngo¹i suy t×nh huèng "t­¬ng tù" ®èi víi cì chiÒu lín. Liªn quan tíi ngo¹i suy

theo cì kh«ng gian d÷ liÖu, Robert Nisbet vµ céng sù [NEM09] nªu c¸c nhËn

®Þnh sau ®©y cña Friedman:

- Cì cña tËp vÝ dô mÉu t¨ng cÊp sè nh©n theo sè chiÒu cña kh«ng gian d÷

liÖu,

- L©n cËn cña mét bé phËn nhá d÷ liÖu cã thÓ lµ rÊt lín,

- HÇu hÕt c¸c ®iÓm lµ gÇn mét c¹nh cña kh«ng gian mÉu h¬n ®iÓm gÇn

nhÊt víi nã,

- HÇu hÕt c¸c ®iÓm lµ kh¸c biÖt (bÊt th­êng) theo phÐp chiÕu riªng cña

nã.

Nh÷ng nhËn ®Þnh trªn ®©y cho thÊy vÒ ®é phøc t¹p cña kh«ng gian d÷ liÖu

miÒn øng dông lµ nh÷ng th¸ch thøc kh«ng nhá khi sö dông tiÕp cËn ngo¹i suy.

Mét gi¶i ph¸p tèt ®Ó cã thÓ ph¸t huy tèt kinh nghiÖm trong qu¸ khø vµ

tr¸nh ®­îc c¸c lçi ngo¹i suy lµ c¸c chuyªn viªn khai ph¸ d÷ liÖu cÇn th­êng

xuyªn giao tiÕp vµ trao ®æi víi nhau vµ víi kh¸ch hµng vÒ t×nh huèng bµi to¸n,

nh»m bæ sung ®­îc c¸c gi¶ thuyÕt kh¸ch quan vÒ kh«ng gian d÷ liÖu miÒn øng

dông.

10.3. C«ng cô Khai ph¸ d÷ liÖu

Sù ph¸t triÓn vÒ sè l­îng c«ng cô khai ph¸ d÷ liÖu vµ doanh sè cña c«ng cô

khai ph¸ d÷ liÖu trong kinh doanh th«ng minh (business intelligence) lµ mét

minh chøng næi bËt cho ý nghÜa vµ tÇm quan träng cña khai lhas d÷ liÖu. Theo

Ralf Mikut vµ Markus Reischl [MR11], thÞ tr­êng toµn thÕ giíi vÒ kinh doanh

th«ng minh (phÇn mÒm vµ lÖ phÝ b¶o tr×) ®¹t 7,8 tû ®« la Mü vµo n¨m 2008,

trong ®ã cã 1,5 tû ®« la Mü cho c¸c ph©n tÝch cao cÊp bao gåm khai ph¸ d÷ liÖu

vµ thèng kª; khu vùc kinh doanh nµy ®· t¨ng 12,1% so víi n¨m 2007. C¸c c«ng

cô cã thÞ phÇn lín lµ SAS Enterprise Miner (33,2%), IBM SPSS Modeler

(14,3%), MicroSoft SQL Server Analysis Services (1,7%), Teradata Database

(1,5%), TIBCO Spotfire (1,4%). §ång thêi, nhiÒu c«ng cô phÇn mÒm më (miÔn

phÝ) còng trë nªn rÊt phæ biÕn, ch¼ng h¹n nh­ Waikato Environment for

Knowledge Analysis (WEKA). Ralf Mikut vµ Markus Reischl [MR11] ®· cung

cÊp mét nghiªn cøu tæng quan vÒ c«ng cô khai ph¸ d÷ liÖu vµ néi dung c¬ b¶n

cña nghiªn cøu trªn ®­îc tr×nh bµy trong môc nµy.

10.3.1. Tiªu chÝ ph©n lo¹i c¸c c«ng cô khai ph¸ d÷ liÖu

C«ng cô khai ph¸ d÷ liÖu ®­îc ph©n lo¹i dùa theo mét sè tiªu chÝ gåm

nhãm ng­êi dïng, kiÓu d÷ liÖu, bµi to¸n vµ ph­¬ng ph¸p khai ph¸ d÷ liÖu,

ph­¬ng ¸n nhËp d÷ liÖu vµ ®­a ra kÕt qu¶, m« h×nh giÊy phÐp.

Theo nhãm ng­êi dïng, c«ng cô khai ph¸ d÷ liÖu ®­îc ph©n lo¹i thµnh bèn

nhãm lµ øng dông kinh doanh, øng dông nghiªn cøu, ph¸t triÓn thuËt to¸n, vµ

d¹y - häc. Nhãm ng­êi dïng øng dông kinh doanh sö dông c«ng cô khai ph¸ d÷

liÖu ®Ó gi¶i quyÕt c¸c bµi to¸n ¸p dông kinh doanh th­¬ng m¹i hãa nh­ qu¶n lý

quan hÖ kh¸ch kh¸ch, ph¸t hiÖn gian lËn... Hä chñ yÕu quan t©m tíi c¸c c«ng cô

®· ®­îc th­¬ng m¹i hãa cung cÊp hç trî c¸c CSDL lín vµ tÝch hîp víi dßng kinh

doanh cña doanh nghiÖp. C¸c c«ng cô næi bËt nhÊt thuéc nhãm nµy lµ

ADAPA(Zementis), CART, IBM SPSS Modeler, IBM SPSS Statistics, KXEN,

MATLAB, Oracle Data Mining (ODM), SAP Netweaver Business Warehouse

(BW), SAS Enterprise Miner, SQL Server Analysis Services, STATISTICA,

Page 144: KPDL_C1-6 & C10

357 358

TIBCO Spotfire. Nhãm ng­êi dïng øng dông nghiªn cøu ¸p dông c«ng cô khai

ph¸ d÷ liÖu ®· ®­îc chøng minh theo ph­¬ng ph¸p luËn, c¸c giao diÖn (giao diÖn

®å häa, giao diÖn khu«n d¹ng d÷ liÖu hoÆc CSDL miÒn øng dông) vµo ho¹t ®éng

nghiªn cøu (vÝ dô, c«ng nghÖ vµ khoa häc ®êi sèng). Nhãm ng­êi dïng ph¸t

triÓn thuËt to¸n ®ßi hái c¸c c«ng cô khai ph¸ d÷ liÖu chøa nhiÒu thuËt to¸n hiÖn

thêi ®Ó ph¸t triÓn thuËt to¸n khai ph¸ d÷ liÖu míi theo hai ph­¬ng diÖn tÝch hîp

thuËt to¸n míi víi c¸c c«ng cô vµ so s¸nh nã víi thuËt to¸n ®· cã. Nhãm ng­êi

dïng day – häc cÇn c¸c c«ng cô khai ph¸ d÷ liÖu trùc quan, giao diÖn ng­êi

dïng tiÖn dông vµ kh«ng tèn kÐm. H¬n n÷a, nã cÇn céng cô cã kh¶ n¨ng cho

phÐp tÝch hîp ph­¬ng ph¸p tù ph¸t triÓn t¹i c¸c tr­êng ®¹i häc.

Cã mét thuéc tÝnh c¬ b¶n cña kiÓu d÷ liÖu lµ sè chiÒu (dimension) cña kiÓu

d÷ liÖu ®ã. C¸c c«ng cô khai ph¸ d÷ liÖu lµm viÖc víi c¸c kiÓu d÷ liÖu lµ b¶ng

®Æc tr­ng (feature tables) hai chiÒu, v¨n b¶n (texts) hai chiÒu, chuçi thêi gian

(time series) ba chiÒu, d·y (sequences) ba chiÒu, ¶nh (images) bèn chiÒu, ®å thÞ

(graphics) bèn chiÒu, ¶nh ba chiÒu (3D graphics) n¨m chiÒu, video n¨m chiÒu,

3D video s¸u chiÒu.

C¸c c«ng cô phÇn mÒm bao phñ toµn bé c¸c bµi to¸n khai ph¸ d÷ liÖu nh­

häc gi¸m s¸t (ph©n líp, ph©n líp mê, håi quy), häc kh«ng gi¸m s¸t (ph©n côm,

ph©n ®o¹n), vµ häc b¸n gi¸m s¸t. C«ng cô khai ph¸ d÷ liÖu còng gi¶i quyÕt c¸c

bµi to¸n ®i kÌm c¸c bµi to¸n trªn ®©y nh­ lµm s¹ch d÷ liÖu, läc d÷ liÖu, trÝch xuÊt

®Æc tr­ng, chuyÓn d¹ng d÷ liÖu, ®¸nh gi¸ vµ lùa chän ®Æc tr­ng, tÝnh to¸n tÝnh

t­¬ng tù vµ ph¸t hiÖn c¸c phÇn tö t­¬ng tù, x¸c nhËn m« h×nh, hîp nhÊt m« h×nh

(hîp nhÊt víi tri thøc chuyªn gia), tèi ­u hãa m« h×nh.

HÇu hÕt c¸c ph­¬ng ph¸p häc m¸y thèng kª cæ ®iÓn vµ c¸c ph­¬ng ph¸p

häc m¸y míi h¬n ®Òu cã s½n c«ng cô phÇn mÒm thi hµnh. §é th­êng xuyªn xuÊt

hiÖn cña c¸c ph­¬ng ph¸p nµy trong c¸c c«ng cô khai ph¸ d÷ liÖu lµ mét tiªu chÝ

so s¸nh chóng. XuÊt hiÖn th­êng xuyªn (cã trong hÇu hÕt c¸c c«ng cô khai ph¸

d÷ liÖu) lµ c¸c ph­¬ng ph¸p ph©n líp dùa trªn hµm mËt ®é x¸c suÊt ­íc tÝnh

(nh­ Bayes), ph©n tÝch t­¬ng quan, lùa chän ®Æc tr­ng theo thèng kª, vµ tÝnh

to¸n (test) t­¬ng quan. XuÊt hiÖn trong nhiÒu c«ng cô khai ph¸ d÷ liÖu lµ c¸c

ph­¬ng ph¸p c©y quyÕt ®Þnh, ph©n côm, håi quy, lµm s¸ch d÷ liÖu, läc d÷ liÖu,

trÝch xuÊt ®Æc tr­ng, ph©n tÝch thµnh phÇn chÝnh (PCA: principal component

analysis), ph©n tÝch nh©n tö (factor analysis), ®¸nh gi¸ vµ lùa chän ®Æc tr­ng tiªn

tiÕn, tÝnh to¸n ®é t­¬ng tù, m¹ng n¬ ron, ®¸nh g¸i chÐo m« h×nh, tÝnh to¸n (test)

t­¬ng quan thèng kª. XuÊt hiÖn trong mét vµi c«ng cô khai ph¸ d÷ liÖu lµ c¸c

ph­¬ng ph¸p ph©n líp mê (fuzzy classification), häc luËt kÕt hîp vµ khai ph¸ tËp

môc th­êng xuyªn, ph©n tÝch thµnh phÇn ®éc lËp (independent component

analysis), bootstrapping, ®é ®o phøc (complexity measures), hîp nhÊt m« h×nh,

m¸y hç trî vector (SVM), k l¸ng giªngf gÇn nhÊt (k-NN), m¹ng Bayes (Bayesian

networks), vµ häc c¸c luËt râ (crisp rules). XuÊt hiÖn trong mét vµi c«ng cô khai

ph¸ d÷ liÖu lµ c¸c ph­¬ng ph¸p rõng ngÉu nhiªn (random forests), häc hÖ thèng

mê, tËp th«, tèi ­u hãa thuËn to¸n b»ng thuËt to¸n tiÕn hãa.

VÒ t­¬ng t¸c ng­êi dïng, c«ng cô khai ph¸ d÷ liÖu ®­îc ph©n thµnh ba lo¹i

(theo møc ®é tiÖn dông tõ thÊp lªn cao cho ng­êi dïng) lµ t­¬ng t¸c dßng lÖnh

thuÇn tóy sö dông mét ng«n ng÷ lËp tr×nh, t­¬ng t¸c ®å häa víi cÊu tróc thùc

®¬n, t­¬ng t¸c ®å häa ng­êi dïng thùc sù.

M« h×nh xuÊt ra kÕt qu¶ (®­a ra) vµ ®­a vµo nhËp d÷ liÖu trong c¸c c«ng cô

khai ph¸ d÷ liÖu cã vai trß rÊt quan träng. C¸c m« h×nh nhËp – xuÊt ë ®©y

th­êng tu©n theo mét sè d¹ng chuÈn ®Ó lµm thuËn tiÖn h¬n trong viÖc kÕt nèi

th«ng tin gi÷a céng cô nµy víi c¸c hÖ thèng phÇn mÒm kh¸c.

C«ng cô khai ph¸ d÷ liÖu cã thÓ ch¹y trªn nÒn hÖ thèng ®éc lËp hoÆc hÖ

thèng kh¸ch/chñ. C¸c c«ng cô khai ph¸ d÷ liÖu ®ang ®i theo xu h­íng ch¹y trªn

nÒn web vµ hç trî ch¹y trªn nÒn tÝnh to¸n ®¸m m©y.

Theo m« h×nh giÊy phÐp, c¸c c«ng cô khai ph¸ d÷ liÖu ®­îc chia thµnh hai

nhãm chÝnh: S¶n phÈm th­¬ng m¹i vµ phÇn mÒm nguån më (tù do). C«ng cô

khai ph¸ d÷ liÖu th­¬ng m¹i lµ sù lùa chän cña nhãm ng­êi dïng ¸p dông khai

ph¸ d÷ liÖu trong kinh doanh do c¸c c«ng cô nµy cã lîi thÓ vÒ tÝnh æn ®Þnh cao,

vÒ kh¶ n¨ng tÝch hîp víi c¸c c«ng cô kho d÷ liÖu, vÒ b¶o tr× hÖ thèng vµ vÒ

h­íng dÉn, ®µo t¹o. C¸c nhãm ng­êi dïng kh¸c sö dông c«ng cô khai ph¸ d÷

liÖu nguån më (tù do) víi møc ®é giÊy phÐp kh¸c nhau. PhÇn mÒm nguån më cã

lîi thÕ vÒ söa lçi nhanh h¬n, vÒ tÝnh dÔ dµng ph¸t triÓn, vÒ sù tån t¹o céng ®ång

cïng ph¸t triÓn nguån më. Nªn l­u ý r»ng phÇn mÒm tù do hay nguån më kh«ng

Page 145: KPDL_C1-6 & C10

359 360

®ång nhÊt víi tÝnh miÔn phÝ. M« h×nh giÊy phÐp c«ng cô phÇn mÒm nguån më

khai ph¸ d÷ liÖu lµ m« h×nh giÊy phÐp GNU General Public License của Free

Software Foundation. Mét sè c«ng cô khai ph¸ d÷ liÖu theo m« h×nh trén nh­

MatLab khi sö dông phÇn mÒm nguån më cho c¸c c«ng cô th­¬ng m¹i.

10.3.2. C¸c kiÓu c«ng cô khai ph¸ d÷ liÖu

Dùa theo c¸c tiªu chÝ ph©n lo¹i nãi trªn, c«ng cô khai ph¸ d÷ liÖu ®­îc

ph©n thµnh hÖ thèng khai ph¸ d÷ liÖu (Data mining suites: DMS), Gãi th«ng

minh kinh doanh (Business intelligence packages: BI), gãi to¸n häc

(Mathematical packages: MAT), gãi tÝch hîp (INT), c«ng cô dµnh riªng

(extensions: EXT), th­ viÖn khai ph¸ d÷ liÖu (Data mining libraries: LIB), c«ng

cô chuyªn dông (Specialties: SPEC), c«ng cô nghiªn cøu (research: RES), gi¶i

ph¸p (Solutions: SOL).

- HÖ thèng khai ph¸ d÷ liÖu (DMS) thi hµnh nhiÒu ph­¬ng ph¸p gi¶i quyÕt

c¸c bµi to¸n khai ph¸ d÷ liÖu, ®­îc ®Þnh h­íng tíi miÒn øng dông réng r·i song

s½n cã c¸c tiÖn Ých ®Ó t¹o ph­¬ng ¸n øng dông cô thÓ. PhÇn lín DMS lµ phÇn

mÒm th­¬ng m¹i vµ kh¸ ®¾t tiÒn vµ còng cã mét vµi DMS nguån më nh­

RapidMiner. C¸c DMS ®iÓn h×nh lµ IBM SPSS Modeler, SAS Enterprise Miner,

Alice d’Isoft, DataEngine, DataDetective, GhostMiner, Knowledge Studio,

KXEN, thµnh phÇn khai ph¸ d÷ liÖu trong NAG, Partek Discovery Suite,

STATISTICA, vµ TIBCO Spotfire.

- Gãi th«ng minh kinh doanh (BI) chøa c¸c hµm khai ph¸ d÷ liÖu c¬ b¶n

(®Æc biÖt lµ c¸c ph­¬ng ph¸p thèng kª) øng dông trong kinh doanh. HÇu hÕt gãi

BI lµ th­¬ng m¹i (IBM Cognos 8 BI, Oracle DataMining, SAPNetweaver

Business Warehouse, Teradata Database, IBM DB2 Data Warehouse, vµ

PolyVista) nh­ng còng cã gãi nguån më (Pentaho).

- Gãi to¸n häc (MAT) cung cÊp mét tËp lín vµ më réng ®­îc c¸c thuËt

to¸n vµ ch­¬ng tr×nh con trùc quan hãa. HiÖn cã c¸c gãi MAT th­¬ng m¹i

(MATLAB vµ R-PLUS) hoÆc nguån më (R, Kepler).

- Gãi tÝch hîp (INT) ®­îc më réng tõ nhiÒu thuËt to¸n khai ph¸ d÷ liÖu

nguån më. Gãi tÝch hîp hoÆc lµ ch¹y ®éc lËp (chñ yÕu ®­îc viÕt trªn Java:

KNIME, phiªn b¶n giao diÖn ®å häa cña WEKA, KEEL, vµ TANAGRA) hoÆc

lµ gãi ®­îc më réng tõ gãi to¸n häc MAT (nh­ Gait-CAD, PRTools cho

MATLAB, vµ RWEKA cho R).

B¶ng 10.1. Quan hÖ kiÓu c«ng cô – nhãm ng­êi dïng (+" ®Æc biÖt h÷u dông, 0: Ýt h÷u

dông, -: kh«ng h÷u dông) [MR11].

- C«ng cô dµnh riªng (EXT) lµ tiÖn Ých nhá thi hµnh mét thuËt to¸n khai

ph¸ d÷ liÖu cho c¸c c«ng cô kh¸c: Forecaster XL vµ XLMiner cho Excel,

Toolbox Matlab Neural Networks cho Matlab. Cã c¶ hai d¹ng EXT th­¬ng m¹i

vµ nguån më.

- Th­ viÖn khai ph¸ d÷ liÖu (LIB) lµ mét gãi hµm thùc hiÖn c¸c ph­¬ng

ph¸p khai ph¸ d÷ liÖu. C¸c hµm nµy cã thÓ ®­îc nhóng trong c¸c c«ng cô phÇn

mÒm kh¸c b»ng c¸ch sö dông mét giao diÖn lËp tr×nh øng dông.

- C«ng cô chuyªn dông (SPEC) lµ t­¬ng tù nh­ DMS, nh­ng chØ thùc hiÖn

mét häc ph­¬ng ph¸p ®Æc biÖt (ch¼ng h¹n, häc ph­¬ng ph¸p m¹ng n¬ ron nh©n

t¹o). SPEC còng bao gãi nhiÒu kü thuËt trùc quan.

B¶ng 10.2.a C¸c c«ng cô khai ph¸ d÷ liÖu th­¬ng m¹i ®iÓn h×nh [MR11].

Page 146: KPDL_C1-6 & C10

361 362

B¶ng 10.2.b C¸c c«ng cô khai ph¸ d÷ liÖu th­¬ng m¹i ®iÓn h×nh

(tiÕp)[MR11].

- C«ng cô nghiªn cøu (RES) thùc hiÖn mét (hoÆc rÊt Ýt) thuËt to¸n míi vµ

s¸ng t¹o, v× vËy, chóng th­êng ch­a æn ®Þnh. HÇu hÕt RES lµ m· nguån më.

Trong RES, hç trî ®å häa, vµo-ra d÷ liÖu vµ tù ®éng hãa Ýt ®­îc quan t©m.

Page 147: KPDL_C1-6 & C10

363 364

B¶ng 10.3.C¸c c«ng cô khai ph¸ d÷ liÖu nguån më ®iÓn h×nh

[MR11].

- Gi¶i ph¸p (SOL) lµ mét nhãm c«ng cô tïy chØnh vµ hç trî rÊt tèt cho mét miÒn

øng dông hÑp ch¼ng h¹n nh­ khai ph¸ v¨n b¶n (GATE), xö lý h×nh ¶nh (ITK,

ImageJ), ph¸t hiÖn ma tóy (Molegro Data Modeler), ph©n tÝch h×nh ¶nh trong

kÝnh hiÓn vi (CellProfilerAnalyst), hoÆc khai ph¸ d÷ liÖu hå s¬ biÓu hiÖn gen

(Partek Genomics Suite, MEGA). HiÖn cã rÊt nhiÒu SOL th­¬ng m¹i vµ nguån

më.

B¶ng 10.1 chØ ra mèi quan hÖ gi÷a c¸c kiÓu c«ng cô khai ph¸ d÷ liÖu víi

c¸c nhãm ng­êi dïng. HÖ thèng khai ph¸ d÷ liÖu tá ra h÷u dông cho ba líp

ng­êi dïng øng dông kinh doanh, øng dông nghiªn cøu vµ d¹y-häc.

B¶ng 10.2 (a,b) liÖt kª c¸c c«ng cô khai ph¸ d÷ liÖu th­¬ng m¹i ®iÓn h×nh.

Hai b¶ng nµy cung cÊp tªn c«ng cô, kiÓu c«ng cô vµ chØ dÉn trang web cña c«ng

cô khai ph¸ d÷ liÖu.

B¶ng 10.3 cung cÊp mét danh s¸ch c¸c c«ng cô khai ph¸ d÷ liÖu m· nguån

më víi bèn c«ng cô phæ sông nhÊt lµ ITK, KMINE, Orange, vµ WEKA. Tµi liÖu

m« t¶ vµ h­íng dÉn sö dông c«ng cô lµ cã s½n t¹i trang web cña mçi c«ng cô.

10.3.3. TËp vÝ dô ®¸nh gi¸ c«ng cô nghiªn cøu

So s¸nh mét thuËt to¸n khai ph¸ d÷ liÖu míi víi c¸c thuËt to¸n cïng gi¶i

mét bµi to¸n cÇn ph¶i ®­îc tiÕn hµnh trªn tËp d÷ liÖu miÒn øng dông hoÆc mét

tËp d÷ liÖu "®¹i diÖn" cho tËp d÷ liÖu miÒn øng dông. ViÖc thu thËp vµ g¸n nh·n

d÷ liÖu lµ mét c«ng viÖc tèn nhiÒu c«ng søc, h¬n n÷a, viÖc chøng tá tËp d÷ liÖu

x©y dùng ®­îc ®¶m b¶o tÝnh "®¹i diÖn" cho d÷ liÖu miÒn øng dông l¹i lµ mét bµi

to¸n khã. Thõa kÕ vµ ph¸t triÓn c¸c bé d÷ liÖu ®­îc céng ®ång nghiªn cøu thõa

nhËn lµ mét tiÕp cËn tèt ®Ó cã ®­îc c¸c bé d÷ liÖu mÉu cho qu¸ tr×nh x©y dùng

vµ ®¸nh gi¸ m« h×nh cña thuËt to¸n míi ®­îc ®Ò xuÊt.

Víi mçi líp bµi to¸n, céng ®ång nghiªn cøu thõa nhËn cã mét sè CSDL

liÖu mÉu ®­îc sö dông ®Ó hç trî viÖc ®¸nh gi¸ thuËt to¸n míi. Kho chøa d÷ liÖu

cña nhãm häc m¸y t¹i University of California, Irvine (UC Irvine Machine

Learning Repository) lµ mét vÝ dô ®iÓn h×nh.

UC Irvine Machine Learning Repository ®­îc thõa nhËn réng r·i nh­ mét

tËp c¸c CSDL mÉu dïng ®Ó ®¸nh gi¸ thuËt to¸n häc m¸y30. H×nh 10.4 chØ dÉn

30 http://archive.ics.uci.edu/ml/

Page 148: KPDL_C1-6 & C10

365 366

danh môc mét sè tËp d÷ liÖu mÉu UCI (cét tr¸i) vµ nh÷ng tËp d÷ liÖu ®­îc truy

cËp nhiÒu nhÊt (cét ph¶i).

H×nh 10.4. Mét sè tËp d÷ liÖu mÉu trong kho chøa UCI

10.4. Khuynh h­íng ph¸t triÓn cña khai ph¸ d÷ liÖu

Theo Ralf Mikut vµ Markus Reischl [MR11], thuËt ng÷ "data mining" lÇn ®Çu

tiªn xuÊt hiÖn vµo n¨m 1983 trong bµi b¸o cña M. C. Lovell (M. C. (Lovell (1983).

Data Mining, The Review of Economics and Statistics 65:1-12) vµ thùc sù ®­îc ph¸t

triÓn tõ cuèi nh÷ng n¨m 1980. Tr¶i qua kho¶ng 30 n¨m qu¸ tr×nh ph¸t triÓn, khai

ph¸ d÷ liÖu kh«ng nh÷ng trë thµnh mét lÜnh vùc khoa häc-c«ng nghÖ rÊt réng

lín mµ vÉn lu«n lµ néi dung nghiªn cøu thêi sù vµ ®ang ®­îc ph¸t triÓn rÊt m¹nh

mÏ.

HiÖp héi c¸c nhµ khoa häc vÒ ph¸t hiÖn tri thøc vµ Khai ph¸ d÷ liÖu (The

Association for Computing Machinery's Special Interest Group on Knowledge

Discovery and Data Mining, viÕt t¾t lµ SIGKDD) ®­îc thµnh lËp vµ ho¹t ®éng.

Ban ®iÒu hµnh cña SIGKDD gåm mét sè nhµ khoa häc hµng ®Çu thÕ giíi vÒ lÜnh

vùc nµy do Piatetsky-Shapiro31 chñ tr×. Tõ n¨m 1995, ho¹t ®éng ®iÓn h×nh nhÊt

cña SIGKDD lµ tæ chøc Héi nghÞ khoa häc quèc tÕ th­êng niªn ACM SIGKDD

Conference on Knowledge Discovery and Data Mining.

Lµ mét thµnh phÇn n¨ng ®éng cña khoa häc m¸y tÝnh cho nªn khuynh

h­íng ph¸t triÓn cña khai ph¸ d÷ liÖu cã mèi liªn hÖ mËt thiÕt víi khuynh h­íng

ph¸t triÓn cña khoa häc m¸y tÝnh.

10.4.1. Khuynh h­íng ph¸t triÓn cña khoa häc m¸y tÝnh

Trong [Hop11], John E. Hopcroft tr×nh bµy vÒ khuynh h­íng ph¸t triÓn cña

khoa häc m¸y tÝnh, bao gåm sù chuyÓn ®æi c¸c chñ ®Ò cña khoa häc m¸y tÝnh

theo thêi gian. C¸c chñ ®Ò khoa häc m¸y tÝnh næi bËt ®· chuyÓn ®æi tõ c¸c chñ

®Ò nh­ Ng«n ng÷ lËp tr×nh, Ch­¬ng tr×nh dÞch, HÖ ®iÒu hµnh, ThuËt to¸n, C¬ së

d÷ liÖu... tíi c¸c chñ ®Ò nh­ Theo dâi dßng t­ t­ëng trong tµi liÖu khoa häc,

Theo dâi qu¸ tr×nh tiÕn hãa cña c¸c céng ®ång trong c¸c m¹ng x· héi, TrÝch xuÊt

th«ng tin tõ c¸c nguån d÷ liÖu phi cÊu tróc, Xö lý c¸c bé d÷ liÖu vµ dßng d÷ liÖu

®å sé, TrÝch xuÊt c¸c tÝn hiÖu tõ tiÕng ån, Xö lý d÷ liÖu nhiÒu chiÒu vµ gi¶m kÝch

th­íc...

Khuynh h­íng chuyÓn ®æi nãi trªn ®èi víi c¸c chñ ®Ò næi bËt cña khoa häc

m¸y tÝnh còng kh«ng n»m ngoµi xu thÕ t¨ng tr­ëng víi tèc ®é cao khèi l­îng d÷

liÖu, ®Æc biÖt lµ thµnh phÇn do ng­êi dïng t¹o ra (UGC) nh­ ®· giíi thiÖu ë

Ch­¬ng 1. Trong nghiªn cøu nãi trªn, J. E. Hopcroft giíi thiÖu mét sè néi dung

lý thuyÕt cÇn ®­îc quan t©m ®Ó lµm nÒn t¶ng khoa häc gi¶i quyÕt c¸c bµi to¸n

thi hµnh x· héi ®iÖn tö nh­ sau:

31 http://www.kdnuggets.com/gps.html

Page 149: KPDL_C1-6 & C10

367 368

- Lý thuyÕt, m« h×nh vµ gi¶i ph¸p t×m kiÕm. Thø nhÊt, c©u hái t×m kiÕm ®·

cã sù thay ®æi vÒ chÊt tõ c©u hái mang tÝnh cô thÓ, thèng kª sang c©u hái mang

tÝnh t­ vÊn vµ ®ßi hái sù ph©n tÝch phøc hîp nh­ "Víi t«i, mua « t« lo¹i nµo lµ

thÝch hîp ?", "H·y x©y dùng mét lÞch sö cã chó gi¶i vÒ lý thuyÕt ®å thÞ", "T«i

nªn vµo tr­êng ®¹i häc nµo ?", "C¸c lÜnh vùc cña khoa häc m¸y tÝnh ®· ph¸t

triÓn nh­ thÕ nµo ?"... Thø hai, kh«ng gian t×m kiÕm lµ réng lín vµ c©u hái ®­îc

®Æt ra mäi lóc, mäi n¬i.

- M¹ng vµ c¶m biÕn. Trong mét m«i tr­êng cã tÝnh s½n sµng theo kh«ng

gian vµ thêi gian, ho¹t ®éng cã tÝnh ngÉu nhiªn, giao tiÕp víi m«i tr­êng th«ng

qua c¸c c¶m biÕn vµ kÕt nèi m¹ng c¸c møc thµnh phÇn (møc c¶m biÕn, møc

m¹ng c¸c m¹ng con, møc c¸c thµnh phÇn lín vµ cùc lín...) cÇn ®­îc m« h×nh

hãa víi c¸c gi¶i ph¸p tÝch hîp hiÖu qu¶.

- Xö lý d÷ liÖu nhiÒu chiÒu ®å sé vµ chøa nhiÒu nhiÔu. TÝnh ®å sé cña d÷

liÖu n»m trong xu thÕ bïng næ th«ng tin nh­ ®· biÕt. D÷ liÖu cÇn cã nhiÒu chiÒu

®Ó biÓu diÔn s¸t thùc h¬n vÒ thùc t¹i. TÝnh ngÉu nhiªn cïng víi tÝnh phøc t¹p cña

hÖ thèng dÉn ®Õn viÖc d÷ liÖu cã thÓ cã chøa nhiÒu nhiÔu.

- M« h×nh vµ gi¶i ph¸p tÝch hîp hÖ thèng vµ tµi nguyªn d÷ liÖu. Dï sö dông

ph­¬ng ph¸p x©y dùng hÖ thèng nµo (chøc n¨ng, ®èi t­îng, kh¸c, vµ kÕt hîp) th×

c¸ch tiÕp cËn dùa trªn thµnh phÇn ®· trë thµnh c¸ch tiÕp cËn chung, rÊt h÷u hiÖu

®Æc biÖt lµ ®èi víi c¸c hÖ thèng lín.

Mét trong nh÷ng m« h×nh to¸n häc ®iÓn h×nh nhÊt liªn quan tíi c¸c néi

dung lý thuyÕt nªu trªn lµ ®å thÞ lín. Mét vÝ dô ®¬n gi¶n lµ ®å thÞ Web ®­îc ®Ò

cËp trong c¸c m¸y t×m kiÕm hiÖn nay ®· cã sè ®Ønh lªn tíi hµng tû nót. TÝnh s½n

sµng, mäi lóc, mäi n¬i ®ßi hái m« h×nh hÖ thèng ®­îc thiÕt lËp d­íi d¹ng ®å thÞ

sÏ cã sè nót rÊt lín. H¬n n÷a, c¸c ®å thÞ lín nµy cÇn lµ c¸c ®å thÞ ngÉu nhiªn.

Lêi gi¶i cho c¸c ®å thÞ lín hiÖn nhËn ®­îc sù quan t©m ®Æc biÖt.

10.4.2. Khuynh h­íng ph¸t triÓn cña khai ph¸ d÷ liÖu

Http://www.sigkdd.org/index.php vµ http://www.kdnuggets.com/ lµ hai

tramh web cung cÊp nhiÒu kÕt qu¶ nghiªn cøu vµ triÓn khai cËp nhËt nhÊt vÒ lÜnh

vùc ph¸t hiÖn tri thøc tõ d÷ liÖu, lµ nguån d÷ liÖu tiÒm Èn c¸c th«ng tin h÷u Ých

vÒ khuynh h­íng ph¸t triÓn cña lÜnh vùc nµy mµ chón ta cã thÓ “ph¸t hiÖn” ra.

Theo Jiawei Han vµ céng sù [HKL12], xu h­íng ph¸t triÓn nghiªn cøu vµ

triÓn khai ®iÓn h×nh vÒ khai ph¸ d÷ liÖu bao gåm:

- Ph¸t triÓn mét lý thuyÕt thèng nhÊt vÒ khai ph¸ d÷ liÖu. Nh­ ®· ®­îc tr×nh

bµy, lÜnh vùc khai ph¸ d÷ liÖu ®­îc øng dông réng r·i, nhËn ®­îc sù quan t©m

cña ®«ng ®¶o c¸c nhµ khoa häc thuéc c¸c lÜnh vùc nghiªn cøu rÊt ®a d¹ng v× vËy

tr×nh ®é ph¸t triÓn hiÖn thêi cña mçi mét nghiªn cøu vÒ khai ph¸ d÷ liÖu l¹i

mang tÝnh qu¸ ®Æc thï. RÊt nhiÒu kü thuËt ®­îc thiÕt kÕ cho c¸c bµi to¸n riªng

lÎ, ch¼ng h¹n nh­ ph©n líp hoÆc ph©n côm, mµ kh«ng cã mét c¬ së lý thuyÕt

thèng nhÊt.

- Më réng miÒn øng dông khai ph¸ d÷ liÖu c¶ vÒ bÒ réng vµ chiÒu s©u

(kh«ng gian-thêi gian, ®èi t­îng di chuyÓn vµ hÖ thèng m¹ng vËt lý, d÷ liÖu ®a

ph­¬ng tiÖn khai ph¸, v¨n b¶n vµ web; d÷ liÖu sinh häc vµ y sinh; h×nh ¶nh vµ

©m thanh; m¹ng x· héi vµ m¹ng th«ng tin). Ph¸t triÓn c¸c øng dông khai ph¸ d÷

liÖu ®­îc më réng tíi th­¬ng m¹i ®iÖn tö, tiÕp thÞ ®iÖn tö vµ trë thµnh trµo l­u

trong dÞch vô b¸n lÎ, ®ång thêi, ®­îc t¨ng c­êng sö dông trong nhiÒu lÜnh vùc

kh¸c nh­ ph©n tÝch tµi chÝnh, viÔn th«ng, sinh d­îc phÈm vµ c¸c ngµnh khoa

häc. Xu thÕ tr×nh ®é kinh tÕ tri thøc cña x· héi ngµy cµng ®­îc t¨ng c­êng lµ

tiÒn ®Ò cho viÖc më réng miÒn øng dông cña khai ph¸ d÷ liÖu.

- Ph¸t triÓn c¸c ph­¬ng ph¸p khai ph¸ d÷ liÖu cã tÝnh kh¶ cì vµ t­¬ng t¸c,

ph¸t triÓn c¸c ph­¬ng ph¸p th¨m dß. Sù t¨ng tr­ëng khèi l­îng c¸c d÷ liÖu cã rÊt

nhiÒu chiÒu vµ dßng d÷ liÖu tèc ®é cao. Phï hîp víi sù bïng næ th«ng tin vµ nhu

cÇu ph¸t triÓn øng dông khai ph¸ d÷ liÖu, viÖc ®Ò xuÊt c¸c thuËt to¸n khai ph¸ d÷

liÖu cã chøc n¨ng tù t­¬ng t¸c vµ t­¬ng t¸c lÉn nhau ®· cã tÝnh b¶n chÊt. Trong

mét sè øng dông, ch¼ng h¹n trong khai ph¸ text hoÆc ph©n tÝch an toµn hÖ thÇn

kinh, sè chiÒu cña d÷ liÖu lªn tíi tõ hµng tr¨m triÖu tíi hµng tû ®Æc tr­ng. Trong

mét sè øng dông kh¸c, ch¼ng h¹n trong c¸c bµi to¸n nghiªn cøu vÒ thiªn v¨n

hoÆc vÒ m¹ng m¸y tÝnh, dßng d÷ liÖu lµ rÊt lín (cã thÓ lªn tíi hµng tr¨m TB t¹i

thêi ®iÓm hiÖn nay). C«ng nghÖ khai ph¸ d÷ liÖu hiÖn t¹i vÉn qu¸ chËm ®Ó chñ

®éng ®­îc ®èi víi c¸c d÷ liÖu lín nh­ vËy. MÆt kh¸c, khai ph¸ d÷ liÖu dùa trªn

Page 150: KPDL_C1-6 & C10

369 370

rµng buéc lµ mét ®Þnh h­íng quan träng n©ng cao n¨ng lùc tæng thÓ cña qu¸

tr×nh khai ph¸ d÷ liÖu cã sù t¨ng c­êng t­¬ng t¸c víi ng­êi sö dông.

- Ph¸t triÓn c¸c m« h×nh vµ ph­¬ng ph¸p tÝch hîp khai ph¸ d÷ liÖu vµo c¸c

hÖ thèng CSDL, hÖ thèng kho d÷ liÖu, hÖ thèng t×m kiÕm, hÖ thèng tÝnh to¸n

®¸m m©y. C¸c hÖ thèng nµy ®· trë thµnh trµo l­u cña c¸c hÖ thèng xö lý th«ng

tin. Ch¼ng h¹n, bµi to¸n tÝch hîp Web víi kho d÷ liÖu bao gåm nhiÒu néi dung

cña khai ph¸ néi dung Web ®Ó x©y dùng ®­îc kho d÷ liÖu víi nguån d÷ liÖu giÇu

cã cña Web. VÊn ®Ò quan träng khi tÝch hîp khai ph¸ d÷ liÖu ë ®©y ph¶i ®¶m

b¶o r»ng c¸c phôc vô khai ph¸ d÷ liÖu ®­îc coi lµ c¸c thµnh phÇn ph©n tÝch d÷

liÖu b¶n chÊt cña hÖ thèng cÇn ph¶i ®­îc tÝch hîp mét c¸ch tr¬n tru víi m«i

tr­êng xö lý th«ng tin.

- ChuÈn hãa qu¸ tr×nh ph¸t hiÖn tri thøc, chuÈn ho¸ c¸c ng«n ng÷ khai ph¸

d÷ liÖu cïng víi c¸c ph­¬ng tiÖn chuÈn hãa kh¸c lµm thuËn tiÖn h¬n viÖc ph¸t

triÓn cã tÝnh hÖ thèng c¸c gi¶i ph¸p khai ph¸ d÷ liÖu tÝnh liªn thao t¸c cña c¸c hÖ

thèng vµ chøc n¨ng khai ph¸ d÷ liÖu phøc hîp [AGHHL07]. Mét sè kÕt qu¶ ë

møc s¶n phÈm c«ng nghÖ ®iÓn h×nh theo h­íng nµy cã OLE DB (Object Linking

and Embedding, Database) dïng cho khai ph¸ d÷ liÖu cña MicroSoft, PMML

(Predictive Model Markup Language) cña Data Mining Group (DMG) vµ

CRISP-DM (CRoss Industry Standard Process for Data Mining) cña nhãm ph¸t

triÓn CRISP-DM (http://www.crisp-dm.org/).

- Khai ph¸ d÷ liÖu ®éng, kh«ng c©n b»ng vµ nh¹y c¶m vÒ chi phÝ. M« h×nh

khai ph¸ d÷ liÖu cÇn g¾n kÕt víi thêi gian v× d÷ liÖu lµ kh«ng tÜnh vµ th©y ®æi

theo thêi gian. Theo c¸ch th«ng th­êng, m« h×nh ®­îc häc cÇn phï hîp theo thêi

gian, khi cã d÷ liÖu hiÖn thêi cÇn häc tiÕp m« h×nh cho c¸c khai ph¸ tiÕp theo, cã

nghÜa lµ m« h×nh còng cã tÝnh xu h­íng. Mét khuynh h­íng cña khai ph¸ d÷

liÖu lµ m« h×nh ®­îc x©y dùng bao hµm ®­îc tÝnh xu h­íng cµng nhiÒu cµng tèt.

T­¬ng tù vÒ khai ph¸ d÷ liÖu ®èi víi d÷ liÖu kh«ng c©n b»ng, nh¹y c¶m vÒ chi

phÝ.

- Khai ph¸ d÷ liÖu trong mét khung c¶nh m¹ng, trong ®ã cã c¸c m¹ng x·

héi trùc tuyÕn hoÆc c¸c m¹ng m¸y tÝnh (khai ph¸ d÷ liÖu tèc ®é cao ®èi víi dßng

d÷ liÖu tèc ®é cao). Liªn quan mËt thiÕt tíi khai ph¸ d÷ liÖu trong khung c¶nh

m¹ng lµ c¸c bµi to¸n khai ph¸ d÷ liÖu ph©n t¸n vµ khai ph¸ d÷ liÖu ®a t¸c tö còng

nh­ khai ph¸ d÷ liÖu liªn quan tíi c¸c qu¸ tr×nh, luång d÷ liÖu thêi gian thùc.

- T¨ng c­êng tÝnh trùc quan hãa trong khai ph¸ d÷ liÖu lµ gi¶i ph¸p hiÖu

qu¶ nh»m lµm cho qu¸ tr×nh ph¸t hiÖn tri thøc tõ tËp d÷ liÖu ®å sé ®­îc thi hµnh

b»ng c¸c bé c«ng cô trùc quan hãa vµ dÔ dµng tÝch hîp ®­îc víi c¸c thµnh phÇn

khai ph¸ d÷ liÖu.

- B¶o vÖ tÝnh riªng t­ vµ an ninh th«ng tin.

Th«ng b¸o cña c¸c héi nghÞ KDD thÕ giíi gÇn ®©y (KDD-2010,

Washington DC, July 25-28; http://www.kdd.org/kdd/2010/, KDD-2011, San

Diego CA, August 21-24, 2011; http://www.kdd.org/kdd/2011) vµ KDD-2012,

Beijing-China, August 12-16, 2012; http://www.kdd.org/kdd2012/ ®· ph¶n ¸nh

cô thÓ h¬n cho c¸c khuynh h­íng nghiªn cøu vµ triÓn khai nãi trªn:

- VÒ nghiªn cøu: m« t¶ viÖc nghiªn cøu s¸ng t¹o trªn mäi khÝa c¹nh cña

ph¸t hiÖn tri thøc vµ khai ph¸ d÷ liÖu theo c¸c chñ ®Ò vÒ ph­¬ng ph¸p ph©n líp

vµ håi quy, häc b¸n gi¸m s¸t, ph©n côm, lùa chän ®Æc tr­ng, c¸c m¹ng x· héi,

khai ph¸ d÷ liÖu ®å thÞ, ph©n tÝch d÷ liÖu thêi gian vµ kh«ng gian, tÝnh më réng,

sù riªng t­, trùc quan hãa, ph©n tÝch v¨n b¶n, khai ph¸ Web, hÖ thèng t­ vÊn,

v.v. M¶ng nghiªn cøu cÇn nhÊn m¹nh c¬ së lý thuyÕt cho c¸c tiÕp cËn míi l¹ vÒ

m« h×nh vµ ph­¬ng ph¸p thuËt to¸n cho bµi to¸n khai ph¸ d÷ liÖu cô thÓ trong

khoa häc, kinh doanh, y tÕ, vµ c¸c øng dông kü thuËt v.v..

- VÒ triÓn khai: m« t¶ viÖc triÓn khai c¸c gi¶i ph¸p KDD cã liªn quan tíi

viÖc thiÕt lËp c«ng nghiÖp hoÆc chÝnh quyÒn. NhÊn m¹nh viÖc thóc ®Èy sù hiÓu

biÕt thùc tiÔn, ¸p dông, hoÆc c¸c vÊn ®Ò thùc tÕ liªn quan ®Õn viÖc sö dông c¸c

c«ng nghÖ KDD trong c«ng nghiÖp vµ chÝnh quyÒn vµ lµm næi bËt c¸c th¸ch thøc

nghiªn cøu míi ph¸t sinh tõ nç lùc ®Ó t¹o ra c¸c øng dông KDD thùc tÕ. MiÒn

øng dông bao gåm th­¬ng m¹i ®iÖn tö, y tÕ vµ d­îc phÈm, quèc phßng, chÝnh

s¸ch c«ng, kü nghÖ, s¶n xuÊt, viÔn th«ng, vµ chÝnh phñ v.v.

Sù phong phó vÒ khuynh h­íng ph¸t triÓn cña khai ph¸ d÷ liÖu lµ minh

chøng râ rµng cho sù ph¸t triÓn m¹nh mÏ cña lÜnh vùc nµy. Khai ph¸ d÷ liÖu

Page 151: KPDL_C1-6 & C10

371 372

ph­¬ng tiÖn x· héi (data mining in social media) vµ häc m¸y kh«ng dõng (non-

ending learning) lµ nh÷ng chñ ®Ò nghiªn cøu næi bËt trong thêi gian gÇn ®©y.

10.4.2.1. Khai ph¸ d÷ liÖu ph­¬ng tiÖn x· héi

Néi dung do ng­êi dïng t¹o ra (UGC) ®· trë thµnh bé phËn chiÕm träng sè

lín t¨ng tr­ëng khèi l­îng d÷ liÖu (Ch­¬ng 1) lµ nÒn t¶ng cho sù ph¸t triÓn

nhanh chãng cña khai ph¸ d÷ liÖu ph­¬ng tiÖn x· héi (social media).

H×nh 10.5 Ph©n lo¹i m¹ng x· héi theo hiÖn diÖn x· héi/phong phó ph­¬ng tiÖn truyÒn th«ng (social presence/media richness) vµ tù tr×nh bµy/ tù tiÕt lé (self-presentation / self-disclosure)

[HK10]

Theo Andreas M Kaplan vµ Michael Haenlein [KH10], thuËt ng÷ "ph­¬ng

tiÖn x· héi" ®­îc hiÓu lµ "mét nhãm c¸c øng dông dùa trªn Internet ®­îc x©y

dùng trªn nÒn t¶ng t­ t­ëng vµ c«ng nghÖ cña Web 2.0 cho phÐp t¹o vµ trao ®æi

néi dung do ng­êi dïng t¹o ra". Theo c¸c t¸c gi¶, thêi ®¹i cña ph­¬ng tiÖn x·

héi ®­îc b¾t ®Çu tõ viÖc ra ®êi cña trang web ‘‘Open Diary’’32 (NhËt ký më) cña

Bruce vµ Susan Abelson (vµo th¸ng 5/2012, Open Diary cã trªn 381 ngh×n nhËt

ký më). Hai chiÒu ®Æc tr­ng c¬ b¶n ph©n biÖt c¸c lo¹i ph­¬ng tiÖn x· héi lµ hiÖn

diÖn x· héi/phong phó ph­¬ng tiÖn truyÒn th«ng (social presence/media

richness) vµ tù tr×nh bµy/ tù tiÕt lé (self-presentation / self-disclosure). C¸c t¸c

gi¶ gi¶i thÝch chi tiÕt vÒ néi dung ng÷ nghÜa cña hai chiÒu ®Æc tr­ng nµy. B¶ng

ph©n lo¹i c¸c ph­¬ng tiÖn x· héi theo hai chiÒu ®Æc tr­ng nãi trªn ®· ®­îc ®­a ra

32 http://www.opendiary.com/

(H×nh 10.3). Theo Jure Leskovec [Lesk11], ph­¬ng tiÖn x· héi ®­îc thiÕt kÕ ®Ó

phæ biÕn th«ng qua t­¬ng t¸c x· héi. Ph­¬ng tiÖn x· héi ®­îc thi hµnh b»ng c¸c

m¹ng x· héi trùc tuyÕn ®· t¹o nªn nguån d÷ liÖu vÒ ®êi sèng x· héi loµi ng­êi.

Chóng ta dïng thuËt ng÷ khai ph¸ d÷ liÖu ph­¬ng tiÖn x· héi ®Ó chØ c¸c

nghiªn cøu vµ triÓn khai khai ph¸ d÷ liÖu tõ ph­¬ng tiÖn x· héi vµ tõ m¹ng x·

héi trùc tuyÕn, néi dung do ng­êi dïng t¹o ra ... do mèi liªn quan chÆt chÏ cña

chóng víi ph­¬ng tiÖn x· héi. D÷ liÖu ph­¬ng tiÖn x· héi tr¶i trªn mét miÒn

réng lín c¸c lÜnh vùc trong ®êi sèng x· héi, ®Æc biÖt chóng ph¶n ¸nh tÝnh "hiÖn

thêi" cña ®êi sèng cho nªn khai ph¸ d÷ liÖu ph­¬ng tiÖn x· héi cßn lµ néi dung

chñ yÕu cña "ph©n tÝch cuéc sèng" (living analytics33). Cã thÓ nãi khai ph¸ d÷

liÖu ph­¬ng tiÖn x· héi héi tô nh÷ng néi dung thêi sù nhÊt vÒ m¹ng x· héi, vÒ

khai ph¸ d÷ liÖu, vÒ tiÕp thÞ vµ kinh doanh, vÒ hµnh vi con ng­êi...

RÊt nhiÒu c«ng tr×nh nghiªn cøu vÒ khai ph¸ d÷ liÖu ph­¬ng tiÖn x· héi ®·

vµ sÏ ®­îc c«ng bè. David Easley vµ Jon Kleinberg [EK10], Jiawei Han vµ céng

sù [HSYY10], Jure Leskovec [Lesk11], David Easley vµ Jon Kleinberg [EK10]

cung cÊp c¸c khÝa c¹nh kh¸c nhau cña mét khung nh×n tæng thÓ vÒ khai ph¸ d÷

liÖu ph­¬ng tiÖn x· héi bao gåm c¸c kh¸i niÖm vµ néi dung vÒ ph­¬ng tiÖn x·

héi, ý nghÜa kinh tÕ vµ x· héi cña nghiªn cøu ph­¬ng tiÖn x· héi.

Hai kiÓu ®èi t­îng nghiªn cøu chÝnh trong khai ph¸ d÷ liÖu ph­¬ng tiÖn x·

héi lµ néi dung ph­¬ng tiÖn x· héi vµ cÊu tróc ph­¬ng tiÖn x· héi (m¹ng x· héi).

Khai ph¸ d÷ liÖu néi dung ph­¬ng tiÖn x· héi ®Ó chØ ho¹t ®éng khai ph¸ d÷ liÖu

néi dung v¨n b¶n mµ ng­êi dïng t¹o ra trªn ph­¬ng tiÖn x· héi. Thµnh phÇn nµy

t¹o thµnh mét miÒn øng dông rÊt réng lín. Khai ph¸ d÷ liÖu cÊu tróc ph­¬ng tiÖn

x· héi ®Ó chØ ho¹t ®éng khai ph¸ d÷ liÖu vÒ cÊu tróc m¹ng x· héi t­¬ng øng víi

ph­¬ng tiÖn x· héi. H¬n n÷a, khai ph¸ d÷ liÖu còng ®­îc tiÕn hµnh dùa trªn sù

kÕt hîp néi dung vµ cÊu tróc trong ph­¬ng tiÖn x· héi. Ph­¬ng tiÖn x· héi lµ mét

c¸ch thøc mµ ng­êi dïng bÊt kú trong x· héi ®Òu cã thÎ chia sÎ vµ ®ãng gãp néi

dung, bµy tá quan ®iÓm vµ kÕt nèi víi nh÷ng ng­êi kh¸c, v× vËy ph­¬ng tiÖn x·

héi mang h¬i thë cña cuéc sèng ®êi th­êng ®ang diÔn ra víi tÝnh ®éng cao.

33 http://www.larc.smu.edu.sg/

Page 152: KPDL_C1-6 & C10

373 374

Khai ph¸ d÷ liÖu néi dung ph­¬ng tiÖn x· héi ®Ò cËp tíi toµn bé néi dung

cña hai líp bµi to¸n khai ph¸ d÷ liÖu m« t¶ vµ dù b¸o; nã huy ®éng mét ph¹m vi

toµn diÖn c¸c thuËt to¸n khai ph¸ d÷ liÖu [HSYY10, Lesk11]. Khai ph¸ d÷ liÖu

néi dung ph­¬ng tiÖn x· héi cã mét ph¹m vi øng dông rÊt réng lín trong qu¶n lý

danh tiÕng (reputation management), tiÕp thÞ ph­¬ng tiÖn x· héi (Social media

marketing), ph¶n øng c«ng d©n (citizen response), ph©n tÝch hµnh vi con ng­êi

(Human behavior analysic), phãng viªn c«ng d©n thêi gian thùc (Real time

citizen journalist) vµ rÊt nhiÒu øng dông kh¸c.

Ch¼ng h¹n, Craig Macdonald vµ céng sù [MSOS10] cho mét ph©n tÝch vÒ

c¸c nghiªn cøu khai ph¸ d÷ liÖu blogs trong khu«n khæ TREC giai ®o¹n 2006-

2009 ®èi víi ba bµi to¸n: ph¸t hiÖn quan ®iÓm (opinion-finding) ®èi víi mét ®èi

t­îng ®· cho (Ng­êi sö dông blogs nghÜ g× vÒ ®èi t­îng X ®· cho?), ch­ng cÊt

blog (blog distillation) ®Ó t×m ra c¸c blog quan t©m tíi ®èi t­îng X (T×m blog

quan t©m chÝnh, ®Þnh kú tíi X ?) vµ ph¸t hiÖn tin næi bËt (top news) tõ blogs (t×m

c¸c tin cã gi¸ trÞ gÇn ®©y nhÊt ?). Hµng chôc c«ng tr×nh nghiªn cøu tham gia

TREC-Blogs Track cung cÊp mét phæ réng lín c¸c gi¶i ph¸p khai ph¸ d÷ liÖu ®Ó

gi¶i quyÕt ba bµi to¸n nãi trªn. Theo c¸c t¸c gi¶, bµi to¸n ph¸t hiÖn quan ®iÓm

(bµi to¸n ®Çu tiªn) tõ blogs kh«ng cã nhiÒu kh¸c biÖt so víi bµi to¸n khai ph¸

quan ®iÓm nãi chung.

Xem xÐt mét nghiªn cøu kh¸c vÒ khai ph¸ d÷ liÖu microblogs. §Æc thï vÒ

®é dµi th«ng ®iÖp ng¾n, vÒ cÊu tróc liªn kÕt thµnh viªn vµ th«ng ®iÖp t¹o ra mét

sè yÕu tè bæ sung cho khai ph¸ d÷ liÖu néi dung tõ microblogs. TÝnh cËp nhËt

th«ng tin nhanh trªn microblogs lµ tiÒn ®Ò cho c¸c gi¶i ph¸p dù b¸o ng¾n h¹n

trªn microblogs. Trong [MCB11], Huina Mao vµ céng sù cung cÊp mét kh¶o s¸t

c«ng phu vÒ c¸c chØ sè t©m tr¹ng cña nhµ ®Çu t­ chøng kho¸n gåm cã tû lÖ phÇn

tr¨m t¨ng gi¸ DSI (DSI bullish percentage: DSI), chØ sè th«ng minh cña nhµ ®Çu

t­ (Investor Intelligence: II), ®¸nh gi¸ nhµ ®Çu t­ Twitter (Twitter Investor

Sentiment: TIS), l­îng thuËt ng÷ t×m kiÕm tµi chÝnh Twest (Tweet volumes of

financial search terms: TV-FST), ®¸nh gi¸ tin tøc tiªu cùc (Negative News

Sentiment: NNS), vµ l­îng t×m kiÕm Google cña c¸c thuËt ng÷ tµi chÝnh (Google

search volumes of financial search terms: GIS). Qua thùc nghiÖm theo thêi gian

mét tuÇn, c¸c t¸c gi¶ ph¸t hiÖn r»ng GIS cã ®é liªn quan ®¸ng kÓ víi c¸c chØ sè

tµi chÝnh ph©n biÖt (different financial indexes: DJIA) vµ nh­ vËy GIS cã thÓ

thay thÕ c¸c chØ sè dù b¸o tµi chÝnh. Tuy nhiªn, ®èi víi chØ sè th«ng minh nhµ

®Çu t­ (II) th× kh«ng cã ®­îc vai trß ®ã. §é chÝnh x¸c cña dù b¸o cã thÓ c¶i

thiÖn khi lµm giµu ®Æc tr­ng. Thùc nghiÖm theo thêi gian ngµy cho thÊy TIS vµ

TV-FST cho phÐp dù b¸o tèt ®¸ng kÓ theo thèng kª vÒ hoµn vèn thÞ tr­êng hµng

ngµy trong khi DSI th× kh«ng cho phÐp. NNS còng cho kÕt qu¶ theo chiÒu h­íng

t­¬ng tù nh­ TSI vµ TV-FST nh­ng kÐm h¬n vÒ ®é liªn quan.

Khai ph¸ d÷ liÖu cÊu tróc ph­¬ng tiÖn x· héi ®Ò cËp tíi mÉu vµ tÝnh ®éng

cña cÊu tróc ph­¬ng tiÖn x· héi. MÉu cÊu tróc cña mét ph­¬ng tiÖn x· héi phï

hîp víi tÝnh chÊt chung cña m¹ng x· héi vµ ®Æc tÝnh riªng cña ph­¬ng tiÖn x·

héi ®ã.

TÝnh chÊt chung cña m¹ng x· héi gåm tÝnh chÊt thÕ giíi nhá (small world),

liªn kÕt m¹nh – yÕu (strong – weak tie), ph©n bè luËt lòy thõa (power law

distribution, cÊu tróc céng ®ång (community). Tinh chÊt thÕ giíi nhá chØ ra r»ng

®é dµi ®­êng ®i liªn kÕt hai ®Ønh bÊt kú trong m¹ng x· héi kh«ng v­ît qu¸ mét

sè nguyªn d­¬ng nhá. TÝnh chÊt nµy ®­îc Stanley Milgram ph¸t hiÖn tõ thùc

nghiÖm vµo n¨m 1969. TÝnh chÊt liªn kÕt m¹nh – yÕu chØ ra r»ng liªn kÕt gi÷a

hai nót trong m¹ng x· héi kh«ng gièng nhau vµ ®­¬c chia thµnh hai líp liªn kÕt

m¹nh vµ liªn kÕt yÕu. VÒ mÆt x· héi, liªn kÕt m¹nh thÓ hiÖn mèi quan hÖ ng­êi

th©n, cßn liªn kÕt yÕu thÓ hiÖn mèi quan hÖ míi tiÕp xóc. Trong nhiÒu tr­êng

hîp, liªn kÕt m¹nh - yÕu cßn ®­îc chuyÓn ®æi thµnh liªn kÕt d­¬ng - ©m ®Ó chØ

mèi liªn kÕt ®ång thuËn hoÆc tr¸i ng­îc nhau. Ph©n bè luËt lòy thõa (power law

distribution): sè nót cã k liªn kÕt tíi b»ng kho¶ng 1/k2 víi sè k>2, cÊu tróc céng

®ång (community): tËp tÊt c¶ c¸c nót cã thÓ ®­îc ph©n chia thµnh mét sè nhãm

c¸c nót cã tÝnh chÊt chung.

Dù b¸o liªn kÕt lµ mét bµi to¸n quan träng trong khai ph¸ d÷ liÖu cÊu tróc

ph­¬ng tiÖn x· héi. L. Liu vµ T. Zhou [LZ10] cung cÊp mét tæng quan vÒ dù

b¸o liªn kÕt trong m¹ng x· héi. Cho ®å thÞ v« h­íng m¹ng x· héi G=(V,E) trong

®ã V lµ tËp n ®Ønh, E lµ tËp cung ®· cã trong tËp U gåm tÊt c¶ n*(n-1)/2 c¸c

cung cã thÓ cã. Bµi to¸n ®Æt ra lµ t×m ra c¸c cung cã thÓ cã trong t­¬ng lai tõ tËp

Page 153: KPDL_C1-6 & C10

375 376

U\E. C¸c t¸c gi¶ hÖ thèng hãa c¸c thuËt to¸n gi¶i quyÕt bµi to¸n dù b¸o liªn kÕt,

bao gåm c¸c thuËt to¸n dùa trªn ®é t­¬ng tù, c¸c thuËt to¸n dùa theo cùc ®¹i kh¶

n¨ng, c¸c thuËt to¸n dùa trªn m« h×nh x¸c suÊt. J. Leskovec vµ céng sù [LHK10]

®Ò xuÊt ph­¬ng ph¸p häc m¸y håi quy ®Ó dù b¸o liªn kÕt ©m – d­¬ng trong m¹ng

x· héi. Sè l­îng mÉu quan hÖ gi÷a c¸c liªn kÕt ®­îc thu gän dùa trªn lý thuyÕt c©n

b»ng (balance theory) vµ lý thuyÕt tr¹ng th¸i (status theory) [EK10], v× vËy, m« h×nh

häc m¸y dù b¸o håi quy thi hµnh hiÖu qu¶ h¬n.

10.4.2..2 Häc m¸y kh«ng dõng

Kú väng vÒ mét hÖ thèng häc m¸y lµm ®­îc nh­ con ng­êi "häc suèt ®êi,

trë nªn häc tèt h¬n quan thêi gian" xuÊt hiÖn tõ nh÷ng n¨m 1980, tuy nhiªn, c¸c

kÕt qu¶ nghiªn cøu vÒ häc m¸y kh«ng dõng (never-ending learning) ch­a ®­îc

nh­ kú väng. Thêi gian gÇn ®©y, mét vµi nhãm nghiªn cøu, trong ®ã cã nhãm

nghiªn cøu t¹i Canergie Mellon University (Tom M. Mitchell vµ céng sù) lµ mét

trong nh÷ng nhãm ®i tiªn phong vÒ chñ ®Ò vµ ®· c«ng bè mét sè kÕt qu¶ nghiªn

cøu ®¸ng chó ý.

Lý t­ëng hãa, häc m¸y kh«ng dõng lµ häc c¸ch häc ®Ó ®¸nh gi¸, chän

lùa... m« h×nh gi¶i quyÕt bµi to¸n, mµ kh«ng ph¶i vÒ häc trùc tiÕp m« h×nh gi¶i

quyÕt bµi to¸n. Vµ nh­ vËy cã sù kh¸c nhau vÒ b¶n chÊt gi÷a häc m¸y kh«ng

dõng víi häc m¸y c¶i tiÕn m« h×nh dùa trªn viÖc bæ sung d÷ liÖu hoÆc tri thøc

miÒn øng dông (häc t¨ng c­êng: reinforcement learning, häc tÝch cùc: active

learning). Tuy nhiªn, trªn thùc tÕ, tiÕp cËn häc kh«ng dõng ch­a ®¹t ®­îc møc lý

t­ëng mµ ë møc lµ b­íc tiÕn míi cña häc t¨ng c­êng, häc tÝch cùc [MCCC10].

H×nh 10.4. Kiªn tróc mét hÖ thèng häc kh«ng dõng [CBKSH10]

Andrew Carlson vµ céng sù [CBKSH10] cung cÊp luËn ®iÓm chung vÒ viÖc

x©y dùng c¸c hÖ thèng häc m¸y ng«n ng÷ kh«ng dõng (Never-Ending Language

Learner: NELL):

- ChØ sö dông c¸c thµnh phÇn con t¹o ra lçi kh«ng t­¬ng quan. HÖ thèng

bao gåm c¸c thµnh phÇn con nh­ vËy sÏ cho tû lÖ lçi thÊp.

- NhiÒu kiÓu häc c¸c tri thøc cã liªn quan nhau. Víi c¸c bé häc nh­ vËy

cho phÐp t¹o c¸c nguån phøc, ®éc lËp nhau ®Ó t¹o ra cïng mét kiÓu tri thøc ch©n

lý,

- Dïng c¸c ph­¬ng ph¸p häc m¸y b¸n gi¸m s¸t ghÐp cÆp ®Ó h¹n chÕ rµng

buéc gi÷a c¸c tõ vÞ ®­îc häc. T¹o th­ môc ph©n cÊp (taxonomy) c¸c líp vµ c¸c

quan hÖ ®Ó x¸c ®Þnh ®­îc quan hÖ cha-con, quan hÖ lo¹i trõ nhau gi÷a c¸c líp

(quan hÖ) ®Ó thuËn tiÖn trong viÖc lo¹i trõ rµng buéc gi÷a c¸c vÞ tõ häc ®­îc.

- Ph©n biÖt ®­îc ®èi t­îng ch©n lý (belief) tin cËy cao trong c¬ së tri thøc

víi c¸c øng viªn tin cËy thÊp. Gi÷ l¹i gi¶i thÝch nguån cho mçi ch©n lý.

- Sö dông mét tr×nh diÔn c¬ së tri thøc thèng nhÊt ®Ó n¾m b¾t ®­îc c¸c sù

kiÖn øng viªn vµ ch©n lý ®­îc n©ng cÊp cña mäi kiÓu; dïng c¬ chÕ chØ dÉn vµ

häc phï hîp mµ cã thÓ thao t¸c ®­îc trªn tr×nh diÔn dïng chung ®ã.

Page 154: KPDL_C1-6 & C10

377 378

Dùa trªn luËn ®iÕm chung ®ã, c¸c t¸c gi¶ ®Ò xuÊt mét m« h×nh thi hµnh

NELL víi 4 hÖ thèng thµnh phÇn (H×nh 10.4):

- Bé häc mÉu ghÐp cÆp (Coupled Pattern Learner: CPL): Mét bé trÝch xuÊt

v¨n b¶n tiÕn hµnh häc vµ sö dông mÉu ng÷ c¶nh kiÓu "mayor of X" vµ "X plays

for Y" ®Ó trÝch xuÊt c¸c thÓ hiÖn cña c¸c líp vµ c¸c quan hÖ. CPL sö dông thèng

kª ®ång -xuÊt hiÖn côm danh tõ vµ mÉu ng÷ c¶nh (c¶ hai ®­îc x¸c ®Þnh khi dïng

d·y thÎ POS) ®Ó häc trÝch xuÊt mÉu cho mçi vÞ tõ quan t©m vµ sau ®ã sö dông

c¸c mÉu nµy ®Ó t×m c¸c thÓ hiÖn bæ sung cña mçi vÞ tõ.

- Coupled SEAL (CSEAL: Coupled Set Expander for Any Language): Mét bé trÝch xuÊt b¸n cÊu tróc ®Æt truy vÊn Internet víi tËp ch©n lý cho mçi líp hoÆc quan hÖ, vµ sau ®ã khai ph¸ c¸c danh s¸ch vµ c¸c b¶ng ®Ó trÝch xuÊt ra c¸c thÓ hiÖn cho c¸c vÞ tõ t­¬ng øng. CSEAL sö dông c¸c quan hÖ lo¹i trõ lÉn nhau ®Ó cung cÊp c¸c ph¶n vÝ dô, ®­îc dïng ®Ó läc ra danh s¸ch vµ c¸c b¶ng qu¸ chung chung.

- C¸c bé ph©n líp h×nh th¸i ghÐp cÆp (Coupled Morphological Classifier: CMC): Mét tËp c¸c m« h×nh ph©n líp håi quy logistic nhÞ ph©n L2 (mét m« h×nh cho mét líp) tiÕn hµnh ph©n líp c¸c côm danh tõ dùa vµo c¸c ®Æc tr­ng h×nh th¸i kh¸c nhau (tõ, viÕt hoa, phô tè, c¸c POS.... Ch©n lý tõ c¬ së tri thøc ®­îc dïng lµm vÝ dô häc, nh­ng mçi CMC cÇn thùc hiÖn lÆp ®Ó cã Ýt nhÊt 100 thÓ hiÖn bæ sung.

- Bé häc luËt (Rule Learner: RL): Mét bé häc luËt theo thuËt to¸n häc quan hÖ cÊp 1 t­¬ng tù nh­ thuËt to¸n FOIL häc luËt Horn x¸c suÊt ®Ó nhËn ®­îc c¸c thÓ hiÖn míi cña c¸c quan hÖ tõ c¸c thÓ hiÖn quan hÖ cã trong c¬ së tri thøc.

C¸c t¸c gi¶ ®· tiÕn hµnh ch¹y thùc nghiÖm NELL vµ sau 67 ngµy thi hµnh ®­îc 66 vßng lÆp. KÕt qu¶ nhËn ®­îc 242,453 ch©n lý míi tÝnh theo mäi vÞ tõ, 95% trong dã lµ thÓ hiÖn cña líp vµ 5% lµ thÓ hiÖn cña quan hÖ. NELL cho thÊy sù tiÕn bé ®¸ng kÕ cña qu¸ tr×nh hiÖn thùc hãa c¸c hÖ thèng häc m¸y kh«ng dõng.

C©u hái vµ Bµi tËp

10.1. H·y nhËn diÖn tr­êng hîp cÇn thiÕt ph¶i triÓn khai dù ¸n khai ph¸ d÷ liÖu.

10.2. TÝnh chÊt cña d÷ liÖu cho bµi to¸n khai ph¸ d÷ liÖu.

10.3. TÝnh chÊt cña tri thøc kÕt qu¶ cña qu¸ tr×nh khai ph¸ d÷ liÖu.

10.4. §Æc tr­ng cña chuyªn viªn khai ph¸ d÷ liÖu.

10.5. Khai ph¸ ph­¬ng tiÖn x· héi.

10.6. Kh¸i niÖm häc kh«ng dõng vµ tiÕp cËn thi hµnh hÖ thèng häc kh«ng dõng.

Tµi liÖu tham kh¶o

[AGHHL07] Sarabjot Singh Anand, Marko Grobelnik, Frank Herrmann, Mark

Hornick and Christoph Lingenfelder, et al. (2007). Knowledge discovery standards, Artificial Intelligence Review (2007), 27 (1): 21-56.

[AGHLRW07] Sarabjot S. Anand, Marko Grobelnik, Frank Herrmann, Mark F. Hornick, Christoph Lingenfelder, Niall Rooney, Dietrich Wettschereck (2007). Knowledge discovery standards, Artif. Intell. Rev. 27(1): 21-56 (2007).

[ARA1] A.Rajaraman, J. D.Ullman, Mining of Massive Datasets, 2011, Cambridge University Press.

[AS00] Rakesh Agrawal, Ramakrishnan Srikant (2000). Privacy-Preserving Data Mining, SIGMOD Conference 2000: 439-450.

[BCGJ11] Francesco Bonchi, Carlos Castillo, Aristides Gionis, Alejandro Jaimes (2011). Social Network Analysis and Mining for Business Applications, ACM TIST 2(3): 22 (2011).

[BEF84] James C. Bezdek, Robert Ehrlich, William Full (1984). FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10 (2–3, 1984): 191–203.

[BLI1] B.Liu, Web data mining: exploring hyperlinks, contents, and usage data, 2nd Edition, Springer.

[Blum98] A. Blum vµ T. Mitchell. Combining labeled and unlabeled data with co-training. In COLT: Proceedings of the Workshop on Computational Learning Theory, pages 92-100, 1998.

[BNGC00] Jeff Bowes, Eric Neufeld, Jim E. Greer, John Cooke (2000). A Comparison of Association Rule Discovery and Bayesian Network Causal Inference Algorithms to Discover Relationships in Discrete Data, Canadian Conference on AI 2000: 326-336.

Page 155: KPDL_C1-6 & C10

379 380

[Branson02] S. Branson vµ A. Greenberg, Clustering Web Search Results Using Suffix Tree Methods, Final project report, 2002.

[Bryn93] Brynjolfsson, Erik (1993). "The productivity paradox of information technology". Communications of the ACM 36 (12): 66–77.

[BS02] Julian Birkinshaw and Tony Sheehan (2002). Managing the Knowledge Life Cycle, Sloan Management Review, Fall 2002, 44 (3): 75-83.

[Carr03] Nicholas G. Carr. IT does'n matter! HBR at Large, May 2003: 41-49. [Carr05]Nicholas G. Carr. The end of corporate computing, MIT Sloan Management

Review, Spring 2005: 67-73. [CBKSH10] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam

R. Hruschka Jr., and Tom M. Mitchell (2010). Toward an Architecture for Never-Ending Language Learning, AAAI 2010.

[CBKSH10] Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R. Hruschka Jr., Tom M. Mitchell (2010). Toward an Architecture for Never-Ending Language Learning, AAAI 2010: 1306-1313.

[CCG98] Kenneth Collier, Bernard Carey, Ellen Grusy, Curt Marjaniemi, Donald Sautter (1998). A Perspective on Data Mining, Technical Reporrt, Northern Arizona University

[CCGMS98]. Collier K., Carey B., Grusy E., Marjaniemi C., and Sautter D. (1998). A Perspective on Data Mining, Technical Report, Northern Arizona University.

[CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer and Rüdiger Wirth (2000). CRISP-DM 1.0: Step-by-step data mining guide, The CRISP-DM consortium, August 2000.

[CD05] Derek H. C. Chen and Carl J. Dahlman (2005). The Knowledge Economy, the KAM Methodology and World Bank Operations, The World Bank, October 19, 2005.

[CD10] Christophe Giraud Carrier, Margaret H. Dunham (2010). On the Importance of Sharing Negative Results, ACM SIGKDD Explorations newsletter, 12(2): 3-4.

[Chen07] Xiujuan Chen (2007). Computational Intelligence Based Classifier Fusion Models For Biomedical Classification Applications, PhD Thesis, Georgia Stage University, USA.

[Christopher08] C. D. Manning vµ P. Raghavan vµ H. Schutze, An Introduction to Information Retrieval, nhµ xuÊt b¶n Cambridge University Press, 2008.

[CKV04] Chris Clifton, Murat Kantarcioglu and Jaideep Vaidya (2004). Defining Privacy for Data Mining, Next Generation Data Mining (AAAI/MIT Press 2004).

[Cui] X. Cui, T. E. Potok vµ Paul Palathingal, Document Clustering using Particle Swarm Optimization, IEEE Swarm Intelligence Symposium, The Westin, 2005.

[Cutting93] Cutting, D. R., D. R. Karger, vµ J. O. Pedersen. Constant interaction-timescatter/gather browsing of very large document collections. In SIGIR '93: Proceedings of the 16th annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, 126-134. ACM Press, 1993.

[CYZZ10] Longbing Cao, Philip S. Yu, Chengqi Zhang, Yanchang Zhao (2010). Domain Driven Data Mining, Springer, 2010.

[Dempster77] A. Dempster, N. Laird, vµ D. Rubin, Likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1):1–38, 1977.

[Dempster77] A. P. Dempster, N. M. Laird, & D. B. Rubin, Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39 (1), 1-38, 1977.

[Deng10] Mina Deng (2010). Privacy Preserving Content Protection, PhD Thesis, Katholieke Universiteit Leuven.

[DHP06] D. Dubois, E. Hullermeier, H. Prade (2006). A systematic approach to the assessment of fuzzy association rules, Data Mining and Knowledge Discovery, 13(2): 1–26.

[DMSV03] Miguel Delgado, Nicolás Marín, Daniel Sánchez, and María-Amparo Vila (2003). Fuzzy Association Rules: General Model and Applications, IEEE Transactions On Fuzzy Systems, 11 (2): 214-225, April 2003.

[DP90] D. Dubois and H. Prade (1990). Rough fuzzy sets and fuzzy rough sets, International Journal of General Systems, 17:191-209.

[EK10] David Easley and Jon Kleinberg (2010). Networks, Crowds, and Markets: Reasoning about a Highly Connected World, Cambridge University Press, 2010.

[Elroy00] Mark W. McElroy (2000). The New Knowledge Management, Knowledge And Innovation, Journal of the KMCI, 1(1): 43-67, October 15, 2000.

[Elroy02] Mark W. McElroy (2002). Corporate Epistemology And The New Knowledge Management, Managing The Complex: IV Conference, 2002.

[EM03] L. Egghe, C. Michel (2003). Construction of weak and strong similarity measures for ordered sets of documents using fuzzy set techniques. Information Processing and Management 39 (2003), 771–807

[FPS96] Fayyad, Piatetsky-Shapiro, Smyth (1996). From Data Mining to Knowledge Discovery: An Overview. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy,

Page 156: KPDL_C1-6 & C10

381 382

Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, 1-34.

[FPS96] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From Data Mining to Knowledge Discovery: An Overview. In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, 1-34.

[Fried97] Jerome H. Friedman (1997). Data Mining and Statistics: What's the Connection? Technical report, Department of Statistics and Stanford Linear Accelerator Center, Stanford Linear Accelerator Center, Stanford University, 1997.

[Gar05] Ken McGarry (2005). A Survey of Interestingness Measures for Knowledge Discovery, The Knowledge Engineering Review, 20(1): 39–61, Cambridge University Press, 2005.

[Garry05] Ken McGarry (2005). A Survey of Interestingness Measures for Knowledge Discovery, The Knowledge Engineering Review, 20(1): 39-61, March 2005.

[GH06] Liqiang Geng and Howard J. Hamilton (2006). Interestingness Measures for Data Mining: A Survey, ACM Computing Surveys, 38 (3), Article 9.

[GH06] Liqiang Geng and Howard J. Hamilton (2006). Interestingness Measures for Data Mining: A Survey, ACM Computing Surveys, 38 (3), Article 9.

[Gold10] Andrew Brian Goldberg (2010). New directions in semi-supervised learning, PhD. Thesis, University of Wisconsin-Madison, 2010.

[Goldman00] S. Goldman vµ Y. Zhou, Enhancing Supuervised Learning with Unlabeled Data. Proceedings of ICML, pp. 327-334, 2000.

[GP10] Martin McGrane, Simon K. Poon (2010). Interaction as an Interestingness Measure, ICDM Workshops 2010: 726-731

[GR11] John Gantz and David Reinsel (2011). Extracting Value from Chaos, A Report Sponsored by EMC Corporation, June 2011.

[Grube09] C. Grube (2009). Measuring the Immeasurable (Part I: Knowledge as a valuable resource , Part III: Patent valuation), Springer, 2009.

[Guses10] Fahriye Seda Gurses (2010). Multilateral Privacy Requirements Analysis in Online Social Network Services, PhD Thesis, Katholieke Universiteit Leuven.

[Guses10] Fahriye Seda Gurses (2010). Multilateral Privacy Requirements Analysis in Online Social Network Services, PhD Thesis, Katholieke Universiteit Leuven.

[GZ11] Xinjing Ge and Jianming Zhu (2011). Privacy Preserving Data Mining (New Fundamental Technologies in Data Mining: Chapter 29), INTECH, 2011.

[Han06] J. Han and M. Kamber, Data Mining-Concepts and Techniques, Morgan Kaufmann, 2006 (t¸i b¶n n¨m 2006).

[Haw04] Brian L. Hawkins (2004). A Framework for the CIO Position, Educause Review, 39(6) : 94–103, November/December 2004.

[HF09] Yang Hang, Simon Fong (2009). A Framework of Business Intelligence-Driven Data Mining for E-business, NCM 2009: 1964-1970.

[HG09] Jiawei Han and Jing Gao (2009). Research Challenges for Data Mining in Science and Engineering (Chapter 1 in “Next Generation of Data Mining”, Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, Vipin Kumar, editors), Chapman & Hall, 2009.

[HGEK07] Xuan-Hiep Huynh, Fabrice Guillet, Julien Blanchard, Pascale Kuntz, Henri Briand, and Regis Gras (2007). A graph-based clustering approach to evaluate interestingness measures : a tool and a comparative study, in ("Quality Measures in Data Mining, Fabrice Guillet, Howard J. Hamilton (Ed.), 2007): 25-50.

[Hiro06] Takeuchi Hirotaka (2006). The New Dynamism of the Knowledge-Creating Company, In Japan Moving Toward a More Advanced Knowledge Economy: Advanced Knowledge: Creating Companies, by Takeuchi, Hirotaka and Tsutomu Shibata. Washington, D.C.: World Bank Institute (WBI), 2006.

[HK0106] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques, Morgan Kaufmann, 2006 (t¸i b¶n n¨m 2006)

[HKK97] Eui-Hong (Sam) Han, George Karypis, and Vipin Kumar. Scalable Parallel Data Mining for Association Rules. Department of Computer Science, University of Minnesota, 4-192 EECS Building, 200 Union St. SE, Minneapolis, MN 55455, USA.

[Hop10] John Hopcroft (2010). Computer Science Theory to support Research in the Information Age, Seminar Report, University of Southern California, April 6, 2010.

[Hop11] John Hopcroft (2011). Computing and the Future, Microsoft Latin American Faculty Summit, Catagena, May 18, 2011.

[HP03] Enrique Herrera-Viedma, Eduardo Peis (2003). Evaluating the informative quality of documents in SGML format from judgements by means of fuzzy linguistic techniques based on computing with words. Inf. Process. Manage, 39(2):233-249.

[Hsu02] C.W. Hsu and C.-J. Lin, A comparison of methods for multi-class support vector machines, IEEE transactions on Neural Networks, vol. 13, pp. 415-425, 2002.

[HSYY10] Jiawei Han, Yizhou Sun, Xifeng Yan, Philip S. Yu (2010). Mining Knowledge from Databases: An Information Network Analysis Approach, ACM SIGMOD Conference Tutorial, 2010.

Page 157: KPDL_C1-6 & C10

383 384

[HTF09] Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Second Edition), Springer, 2009.

[Hul11] Eyke Hullermeier (2011). Fuzzy sets in machine learning and data mining, Appl. Soft Comput. 11(2): 1493-1505 (2011).

[Hunter10] Gordon Hunter (2010). The Chief Information Officer: A Review of the Role, Journal of Information, Information Technology, and Organizations, 5: 125-143, 2010.

[Hyll08] Eyke Hüllermeier (2008). Fuzzy Methods for Data Mining and Machine Learning: State ofthe Art and Prospects, Fuzzy Sets and Their Extensions: Representation, Aggregation and Models 2008: 357-375.

[HZ10] Mojdeh Jalali Heravi, Osmar R. Zaïane (2010). A study on interestingness measures for associative classifiers, SAC 2010: 1039-1046.

[IDC10] IDC Digital Universe Study, sponsored by EMC, May 2010 [Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition), Wiley

Computer Publishing, 2002. [JC10] Richard Jensen, Chris Cornelis (2010). Fuzzy-rough instance selection,

FUZZ-IEEE 2010: 1-7. [JC11] Richard Jensen, Chris Cornelis (2011). Fuzzy-Rough Nearest Neighbour

Classification, Transactions on Rough Sets XIII (J.F. Peters et al., Eds.): 56-72.

[Jen05] Richard Jensen (2005). Combining rough and fuzzy sets for feature selection, PhD Thesis, University of Edinburgh.

[Jen11] Richard Jensen (2011). Fuzzy-rough data mining (A tutorial), Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia, June 25 - June 27, 2011.

[Jensen05] Richard Jensen (2005). Combining rough and fuzzy sets for feature selection, PhD Thesis, University of Edinburgh, 2005.

[Jensen11] Richard Jensen (2011). Fuzzy-rough data mining, A Tutorial in Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia.

[JIA1] H.Jiawei, P. Jian, Y.Yiwen, Mining frequent patterns without candidate generation.

[JIA2] H. Jiawei, M.Kamber, and P.Jian, Data Mining: Concepts and Techniques, 3 edition, Morgan Kaufmann, 2011.

[JS09] Richard Jensen, Qiang Shen (2009). New Approaches to Fuzzy-Rough Feature Selection. IEEE T. Fuzzy Systems 17(4): 824-838 (2009).

[KFW98] Chan Man Kuok, Ada Wai-Chee Fu, Man Hon Wong (1998). Mining Fuzzy Association Rules in Databases, SIGMOD Record 27(1): 41-46 (1998).

[KH10] Andreas M Kaplan, Michael Haenlein (2010). Users of the world, unite! The challenges and opportunities of Social Media, Business horizons (2010), 53:59-68.

[Kim03] Won Kim (2003). “Data Mining” Is NOT Against Civil Liberties, ACM Special Interest Group on Knowledge Discovery and Data Mining, www.acm.org/sigkdd/, June 30, 2003.

[KV01] Boris Kovalerchuk and Evgenii Vityaev (2001). Data Mining in Finance: Advances in Relational and Hybrid Methods. Kluwer Academic Publishers, Boston, Dordrecht - London, 2001

[Lang95] K. Lang, Newsweeder: Learning to filter netnews. Proceedings of the Twelfth International Conference (ICML '95), pp. 331-339, 1995.

[Leary95] Daniel O'Leary (1995). Some Privacy Issues in Knowledge Discovery: OECD Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52.

[Lesk08] Jure Leskovec (2008). Dynamics of large networks, PhD Thesis, Carnegie Mellon University.

[Lesk11] Jure Leskovec (2011). Social Media Analytics, Tutorial at the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (Part 1: Information flow, Part2: Rich Interactions), 2011.

[LH97] Lee J. H. and Hyung L. K. (1997). An Extension of Association Rules using Fuzzy Sets, Seventh IFSA World Congress: 399-402, Prague.

[LHK10] J. Leskovec, D. Huttenlocher, J. Kleinberg (2010). Predicting Positive and Negative Links in Online Social Networks, WWW, 2010, ACM Press, New York.

[Li07] Jiye Li (2007). Rough Set Based Rule Evaluations and Their Applications. PhD. Thesis, University of Waterloo, Ontario, Canada, 2007.

[Line07] Jeffrey P. Lineman (2007). The Corporate CIO Model and the Higher Education CIO, EQ, 30 (1): 4-5, 2007.

[LMFHL04] Nada Lavrac, Hiroshi Motoda, Tom Fawcett, Robert Holte, Pat Langley, Pieter W. Adriaans (2004). Introduction: Lessons Learned from Data Mining Applications and Collaborative Problem Solving, Machine Learning 57(1-2): 13-34 (2004).

[LZ10] L. Lu and T. Zhou (2010). Link prediction in complex networks: A survey, Physica A, 390:1150–1170, 2010.

[LZLCD12] Jiye Liang, Xingwang Zhao, Deyu Li, Fuyuan Cao, Chuangyin Dang (2012). Determining the number of clusters using information entropy for mixed data, Pattern Recognition 45(6): 2251-2265 (2012).

Page 158: KPDL_C1-6 & C10

385 386

[MBCCC10] Tom M. Mitchell, Justin Betteridge, Jamie Callan, Andy Carlson, William Cohen, Estevam, Hruschka, Bryan Kisiel, Mahaveer Jain, Jayant Krishnamurthy, Edith Law, Thahir Mohamed, Mehdi Samadi, Burr Settles, Richard Wang, Derry Wijaya (2010). Never Ending Learning, ICML 2010 (Invited Talk), Haifa, Israel, June 21-24, 2010.

[MCB11] Huina Mao, Scott Counts, Johan Bollen (2011). Predicting Financial Markets: Comparing Survey, News, Twitter and Search Engine Data, CoRR abs/1112.1051: (2011).

[Milgram06] J. Milgram, M. Cheriet, R. Sabourin, One Against One or One Against All: Which One is Better for Handwriting Recognition with SVMs?, Tenth International Workshop on Frontiers in Handwriting Recognition, 2006.

[Mitch06] Tom M. Mitchell (2006). The Discipline of Machine Learning, CMU-ML-06-108, July 2006.

[Mitchell97] T. M. Mitchell, Machine Learning. nhµ xuÊt b¶n Mcgraw-Hill

International Edit, 1997.

[MKG04] Nigel Melville, Kenneth L. Kraemer, Vijay Gurbaxani (2004). Review: Information Technology and Organizational Performance: An Integrative Model of IT Business Value, MIS Quarterly, 28 (2): 283-322.

[Moore65] Gordon E. Moore (1965). Cramming more components onto integrated circuits, Electronics, 38 (8), April 19, 1965.

[MR11] Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data Mining and Knowledge Discovery 1(5): 431-443 (2011).

[MSOS10] Craig Macdonald, Rodrygo L.T. Santos, Iadh Ounis, Ian Soboroff (2010). Blog Track Research at TREC, SIGIR Forum 44(1): 58-75.

[Nauck00] Detlef D.Nauck (2000). Data Analysis with Neuro-Fuzzy Methods, Dr. of Science Thesis, der Otto-von-Guericke-Universit at Magdeburg, 2000.

[NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 2009.

[NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 2009

[Nguyen08] N. T. Thanh, N. L. Minh vµ A. Shimazu, Using Semi-supervised Learning for Question Classification, Journal of Natural Language Processing, 3(1):112-130, 2008.

[Nigam00] K. Nigam vµ R. Ghani. Analyzing the effectiveness and applicability of co-training. In Proceedings of Ninth International Conference on Information and Knowledge Management, pages 86-93, 2000.

[NS08] Hung Son Nguyen, Andrzej Skowron (2008). Rough Set Approach to KDD, http://sist.swjtu.edu.cn/imc/itw06/rskt2008/Skowron.pdf.

[NSF05] National Science Foundation (2005) Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century, Reporting of National Science Foundation, National Science Board, http://www.nsf.gov/pubs/2005/nsb0540/

[OESD96] OECD (1996). The knowledge-based economic, organisation for economic co-operation and development.

[Ohrn99] Aleksander Ohrn (1999). Discernibility and Rough Sets in Medicine: Tools and Applications, PhD. Thesis, Norwegian University of Science and Technology, Trondheim, Norway, 1999

[Pan10] Ding Pan (2010). An Integrative Framework for Continuous Knowledge Discovery, Journal of Convergence Information Technology (JCIT), 5 (3): 46-53, May 2010.

[Pawlak82] Pawlak Z. (1982). Rough set, International Journal of Computer and Information Sciences, 11 ( 5): 341-356.

[Pawlak85] Pawlak Z. (1985). Rough set and Decision Tables, ICS PAS Report, 540, 3-1984, Warsawa, Poland.

[PCVM10] Luis Portela, Roberto Carvalho, João Varajão, and Luis Magalhães (2010). A Review of Chief Information Officer’ Main Skills, M.D. Lytras et al. (Eds.): WSKS 2010, Part II, CCIS 112: 387–392, © Springer-Verlag Berlin Heidelberg 2010.

[Pia06] Gregory Piatetsky-Shapiro (2006). Data Mining Course (Power Point Version). http://www.kdnuggets.com/index.html.

[QLPD10] Yuhua Qian, Jiye Liang, Witold Pedrycz, Chuangyin Dang (2010). Positive approximation: An accelerator for attribute reduction in rough set theory, Artificial Intelligence 174 (2010): 597–618.

[RB10] Pascal Ravesteyn and Ronald Batenburg (2010). Cultural Differences in Implementing Business Process Management Systems, AMCIS 2010 Proceedings Americas Conference on Information Systems: Paper 340.

[RK02] A.M. Radzikowska, E.E. Kerre (2002). A comparative study of fuzzy rough sets, Fuzzy Sets and Systems, 126 (2): 137-155.

[RU11] Anand Rajaraman, Jeffrey D.Ullman (2011). Mining of Massive Datasets, http://i.stanford.edu/~ullman/mmds/book.pdf.

[SB08]. Swan, A and Brown, S (2008) The skills, role and career structure of data scientists and curators: An assessment of current practice and future needs, A report to JISC, http://eprints.ecs.soton.ac.uk/16675/

[Schapire99] R. E. Schapire vµ Y. Singer, Improved Boosting Algorithms Using Confidence-rated Predictions, Machine Learning, 37(3):297-336, 1999

Page 159: KPDL_C1-6 & C10

387 388

[SG10] Sulabh Sharma, Jairo A. Gutiérrez: An evaluation framework for viable business models for m-commerce in the information technology sector. Electronic Markets 20(1): 33-52 (2010).

[Shap95] Gregory Piatetsky-Shapiro (1995). Guidelines for Eating of the Tree of Knowledge, or Knowledge Discovery in Databases vs. Personal Privacy, Experts Annual Index, 10(2): 46-47.

[Simon08] Mårten Simonsson (2008). Predicting It Governance Performance: A Method For Model-Based Decision Making, PhD Thesis, KTH-Royal Institute Of Technology, Stockholm, Sweden, April 2008

[Solow87] Robert M. Solow (1987). We'd Better Watch Out, The NewYork Time: Book Review, July 12, 1987, page 36.

[Spoh06] Jim Spohrer (2006). A Next Frontier in Education, Employment, Innovation, and Economic Growth, IBM Corporation, 2006 .

[STH06] Son Doan, Quang Thuy Ha, and Susumu Horiguchi (2006). A General Fuzzy-based Framework for Text Representation and its Application to Text Categorization, Lecture Notes on Artificial Intelligence (LNAI), 4423: 611-620, 2006.

[Strass07] Paul A. Strassmann (2007), Measuring and Communicating I.T. Value, http://www.strassmann.com/talks/one-talk.php?talk=123.

[SZ00] Andrzej Skowron, Ning Zhong (2000). Rough Sets in KDD, Tutorial Notes, PAKDD 2000.

[SZ00] Andrzey Skowron and Ning Zhong (2000). Rough Sets in KDD, Tutorrial Notes, PKDD 2000.

[SZ00] Skowron and Ning Zong (2000). [Szczu11] Marcin Szczuka (2011). The use of Rough Set methods in KDD, A

Tutorial in Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia.

[Szczu11] Marcin Szczuka (2011). The use of Rough Set methods in KDD (A tutorial), Thirteenth International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia, June 25 - June 27, 2011

[TSK05] Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2005). Introduction to Data Mining, Addison Wesley, 2005.

[Vaidya04] Jaideep Shrikant Vaidya (2004). Privacy Preserving Data Mining over Vertically Partitioned Data, PhD Thesis, Purdue University.

[VBFPS04] Verykios V. S., Bertino E., Fovino I. N., Provenza L. P., Saygin Y., Theodoridis Y. (2004). State-of-the-art in privacy preserving data mining, ACM SIGMOD Record, 33 (1):50-57, 2004.

[VCKP08] Vaidya, J., Clifton, C., Kantarcioglu, M., and Patterson, A. S. (2008). Privacy-preserving decision trees over vertically partitioned data. ACM Trans. Knowl. Discov. Data. 2, 3, Article 14 (October 2008), 27 pages.

[Vincent03] V. Ng vµ C. Cardie, Bootstrapping Coreference Classifiers with Multiple Machine Learning Algorithms. Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing (EMNLP), Sapporo, Japan. 2003.

[WB98] Christopher Westphal and Teresa Blaxton (1998). Data Mining Solutions Methods and Tools for Solving Real-World Problems, John Wiley & Sons, Inc., 1998.

[WFBHM10] Tim Weninger, Fabio Fumarola, Rick Barber, Jiawei Han, Donato Malerba (2010). Unexpected Results in Automatic List Extraction on the Web, ACM SIGKDD Explorations newsletter, 12(2): 26-30.

[WKQ08] Xindong Wu, Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu , Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg (2008). Top 10 algorithms in data mining, Knowl Inf Syst (2008) 14:1–37

[WW08] Wang, H. and S. Wang (2008). A knowledge management approach to data mining process for business intelligence, Industrial Management & Data Systems, 2008. 108(5): 622-634.

[Yao03] Yao Y.Y. (2003). Information-theoretic measures for knowledge discovery and data mining, in ("Entropy Measures, Maximum Entropy and Emerging Applications", Karmeshu (Ed.), Springer, Berlin,2003) : 115-136.

[Yarowsky95] D. Yarowsky. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods. In Proceedings of the 33rd Annual Meeting of the ACL, 1995.

[Yasien07] Ahmed HajYasien (2007). Preserving Privacy in Association Rule Mining, PhD Thesis, Griffith University (Australia), 2007.

[Your11]. E. Yourdon (2011), CIOs at Work, Springer, 2011. [YZ10] Yiyu Yao, Bing Zhou (2010). Naive Bayesian Rough Sets. RSKT 2010: 719-

726. [Zadeh65] Zadeh L.A. (1965). Fuzzy sets, Information and Control, 8: 338-353,

Academic Press, New York. [Zadeh75] Zadeh L.A. (1975). The concept of a linguistic variable and its

application to approximate reasoning (Parts I, II, and III), Information Sciences, 1975, 8:199-249; 8:301-357; 9: 43-80.

[Zadeh78] Zadeh L.A. (1978). Fuzzy sets as a basis for a theory of possibility, Fuzzy Sets and Systems, 1: 3-28.

Page 160: KPDL_C1-6 & C10

389 390

[Zdarkov07] Z. Markov vµ D. T. Larose, Data mining the web, uncovering patterns in Web content, structure and usage, nhµ xuÊt b¶n John Wiley & Sons, 2007.

[ZHL98] Osmar R. Zaiane, Mohammad El-Hajj, and Paul Lu. Fast Parallel Association Rule Mining Without Candidacy Generation. University of Alberta, Edmonton, Alberta, Canada

[Zhou03] Zhi-Hua Zhou (2003). Three perspectives of data mining, Artif. Intell. 143(1): 139-146 (2003).

[Zhou05] Z. H. Zhou vµ M. Li, Tri-Training: Exploiting Unlabeled Data Using Three Classifiers, IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 11, pp. 1529-1541, 2005.

[Zhu05] X. Zhu. Semi-supervised learning with graphs. PhD. Thesis,

Carnegie Mellon University, CMU-LTI-05-192, 2005.

[Zhu08] Xiaojin Zhu (2008). Semi-supervised learning literature survey, Technical Report 1530, University of Wisconsin at Madison, July 19, 2008.

[Zia94] Wojciech P. Ziarko (Ed., 1994). Rough Sets, Fuzzy Sets and Knowledge Discovery. Proceedings of the International Workshop on Rough Sets and Knowledge Discovery (RSKD'93), Banff, Alberta, Canada, 12-15 October 1993. Springer-Verlag.

[ZPO01] Mohammed J. Zaki, Srinivasan Parthasarathy, and Mitsunori Ogihara. Parallel Data Mining for Association Rules on Shared-Memory Systems. In Knowledge and Information Systems,Vol. 3, Number 1, pages 1-29 February 2001.

[ZYC09] Sheng Zhong, Zhiqiang Yang, Tingting Chen (2009). k-Anonymous data collection, Information Sciences (ISCI), 179(17):2948-2963.

[ZZNS09] Yuejin Zhang, Lingling Zhang, Guangli Nie, Yong Shi (2009). A Survey of Interestingness Measures for Association Rules, 2009 International Conference on Business Intelligence and Financial Engineering: 460-463.

Zhu[07] X. Zhu. Semi-Supervised Learning Literature Survey, Mellon University, 1-2007.