70
TRƯỜNG ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHAN MINH HẢI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG TÍNH TOÁN TIẾN HÓA Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60.48.10 LUẬN VĂN THẠC SĨ CÔNG NGHỆ PHẦN MỀM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. BÙI THU LÂM

Luan Van Hai

Embed Size (px)

DESCRIPTION

Luan van

Citation preview

TRNG I HC QUC GIA H NI

PAGE 10

TRNG I HC QUC GIA H NI

TRNG I HC CNG NGH

PHAN MINH HI

CC K THUT PHN CM TRONG KHAI PH D LIU S DNG TNH TON TIN HA

Ngnh: Cng ngh thng tin

Chuyn ngnh: Cng ngh phn mm

M s: 60.48.10

LUN VN THC S CNG NGH PHN MM

NGI HNG DN KHOA HC: TS. BI THU LM

H Ni, 2013LI CAM OAN

Ti xin cam oan y l cng trnh nghin cu ca bn thn, c xut pht t yu cu pht sinh trong cng vic hnh thnh hng nghin cu. Cc s liu c ngun gc r rng tun th ng nguyn tc v kt qu trnh by trong lun vn c thu thp c trong qu trnh nghin cu l trung thc cha tng c ai cng b trc y.

H Ni, thng 9 nm 2013

Tc gi lun vn

Phan Minh HiLI CM NLun vn c thc hin di s hng dn ca TS. Bi Thu Lm Hc vin K thut Qun s. Em xin by t lng bit n su sc ti Thy hng dn v c kin ch dn qu bu trong qu trnh em lm lun vn. Em xin chn thnh cm n cc Thy gio trong b mn Cng ngh phn mm. Em cng xin cm n cc thy c gio trong Khoa, cn b thuc phng Khoa hc v o to sau i hc, Trng i hc Cng ngh to iu kin trong qu trnh hc tp v nghin cu ti Trng.

Cui cng xin by t lng cm n ti nhng ngi thn trong gia nh, bn b ng vin v gip ti hon thnh bn lun vn ny.

H Ni, Thng 9 nm 2013

Hc vin thc hin

Phan Minh Hi2LI CAM OAN

6DANH MC CC K HIU V CH VIT TT

7DANH MC CC BNG

9M U

101.1. Tng quan v khm ph tri thc v khai ph d liu

101.1.1. Gii thiu chung v khm ph tri thc v khai ph d liu

111.1.2. Qu trnh khm ph tri thc

121.1.3. Qu trnh khai ph d liu

121.1.4. Cc phng php khai ph d liu

131.1.5. Cc lnh vc ng dng thc tin ca KPDL

131.1.6. Cc hng tip cn c bn v k thut p dng trong KPDL.

141.2. Tng quan v lp trnh tin ha v thut ton di truyn

141.2.1. Gii thiu chung v thut ton di truyn

141.2.2. Cc c tnh ca thut ton di truyn

151.2.2.1. Cc qu trnh c bn trong thut ton di truyn

171.2.2.2. Cc tham s ca thut ton di truyn

201.2.3. Thut tin ha vi phn

201.2.3.1. Nguyn l hot ng

201.2.3.2. Xy dng s thut ton

221.3. Kt lun

23CHNG 2 MT S GII THUT PHN CM

232.1. Khi nim v mc tiu ca phn cm d liu

242.2. Cc ng dng ca phn cm d liu

252.3. Cc yu cu ca phn cm

262.4. Nhng k thut tip cn trong phn cm d liu

262.4.1. Phng php phn cm phn hoch

272.4.2. Phng php phn cm phn cp

282.4.3. Phng php phn cm da trn mt

282.4.4. Phng php phn cm da trn li

292.4.5. Phng php phn cm da trn m hnh

292.4.6. Phng php phn cm c d liu rng buc

302.5. Mt s thut ton c bn trong phn cm d liu

302.5.1. Cc thut ton phn cm phn hoch

332.5.2. Cc thut ton phn cm phn cp

342.5.3. Cc thut ton phn cm da trn mt

372.5.4. Cc thut ton phn cm da trn li

392.5.5. Cc thut ton phn cm da trn m hnh

402.5.6. Gii thut phn cm da trn gii thut di truyn

41CHNG 3 GII THUT PHN CM DA TRN LAI GHP GII THUT DI TRUYN V KMEANS

413.1. Gii thut phn cm trong tnh ton tin ha

423.1.1.Gii thut tng qut cho phn cm s dng gii thut di truyn

423.1.2. Khi to i din c nhn v qun th

423.1.3. Tnh ton thch nghi

433.1.4. Php chn (Selection)

443.1.5. Crossover (lai ghp)

443.1.6. Mutation (t bin)

453.1.7. Kmeans da trn thut ton di truyn

463.1.8. Phn cm Kmeans s dng thut tin ha vi phn

483.2. So snh gia thut ton Kmens v Kmeans s dng gii thut di truyn

49CHNG 4 CI T V TH NGHIM

494.1. Chun b d liu

504.2. Kt qu v phn tch

504.2.1. Th nghim vi gii thut Kmeans

514.2.2. Th nghim vi gii thut Kmeans c s dng gii thut di truyn

53KT LUN

55TI LIU THAM KHO

DANH MC CC K HIU V CH VIT TT

CDLCm d liu

CNTTCng ngh thng tin

CSDLC s d liu

CXLai ghp chu trnhCycle Crossover

DEThut tin ha vi phnDierential Evolution

DLD liu

GAGii thut di truynGenetic Algorithm

KPDLKhai ph d liu

KPTTKhai ph thng tin

LOXLai ghp c th t tuyn tnhLiner Order Crossover

MXLai ghp a imMultipoint Crossover

OXLai ghp c trt tOrder Crossover

PBXLai ghp da trn v trPosition Based Crossover

PCDLPhn cm d liu

PMXLai ghp tng phnPartially-Matched Crossover

DANH MC CC BNGBng 4.1: B d liu t sinh c 3 trng d liu48

Bng 4.2: B d liu Order Details ca Northwind48

Bng 4.3: Thut ton Kmeans vi s cm bng 249

Bng 4.4: Thut ton Kmeans vi s cm bng 349

Bng 4.5: Thut ton Kmeans vi s cm bng 649

Bng 4.6: Thut ton Genetic Kmeans vi s cm bng 250

Bng 4.7: Chy li thut ton Genetic Kmeans vi s cm bng 250

Bng 4.8: Khi chy thut ton Genetic Kmeans vi s cm bng 350

Bng 4.9: Chy li thut ton Genetic Kmeans vi s cm bng 351DANH MC CC HNH V V THHnh 1.1: Qu trnh KPTT11Hnh 1.2: Qu trnh KPDL12Hnh 1.3: Lai ghp hai c th16Hnh 1.4: t bin mt nhim sc th17Hnh 1.5: S qu trnh tnh ton ca thut ton di truyn18Hnh 1.6: S thut ton tin ha vi phn20Hnh 2.1: M t tp d liu vay n c phn thnh 3 cm.23Hnh 2.2: Cc chin lc phn cm phn cp27Hnh 2.3: Cu trc phn cp28Hnh 2.4: Cc cch m cc cm c th a ra29Hnh 2.5: Cc thit lp xc nh ranh gii cc cm ban u31Hnh 2.6: Tnh ton trng tm ca cc cm mi31Hnh 2.7: Khi qut thut ton CURE33Hnh 2.8: Cc cm d liu c khm ph bi CURE33Hnh 2.9: Hnh dng cc cm c khm ph bi thut ton DBSCAN35M U

Phn cm d liu l qu trnh nhm mt tp cc i tng tng t nhau trong tp d liu vo cc cm sao cho cc i tng thuc cng mt cm l tng ng cn cc i tng thuc cc cm khc nhau s khng tng ng. Phn cm d liu khng i hi phi nh ngha trc cc mu d liu hun luyn. V th, c th coi phn cm d liu l mt cch hc khng gim st (unsupervised learning). Cc K thut phn cm c ng dng rt nhiu trong cc lnh vc ti chnh ngn hnh phn lai cc nhm khch hng khc nhau. Ngoi ra phn cm d liu cn c th c s dng nh mt bc tin x l cho cc thut ton khai ph d liu khc nh phn loi v m t c im, c tc dng pht hin ra cc cm.

Theo cc nghin cu cho thy th hin nay cha c mt phng php phn cm tng qut no c th gii quyt trn vn cho tt c cc dng cu trc ca cc CSDL. Hn na, cc phng php phn cm cn c cch thc biu din cu trc ca cc CSDL, vi mi cch thc biu din khc nhau s c mt thut ton phn cm ph hp. V vy phn cm d liu vn ang l mt vn kh v m, v phi gii quyt nhiu vn c bn mt cch trn vn v ph hp vi nhiu dng d liu khc nhau, c bit l i vi d liu hn hp ang ngy cng tng trong cc h qun tr d liu v y cng l mt trong nhng thch thc ln trong KPDL. Mt im khc na l cc hm mc tiu ca cc thut ton phn cm nh K-means thng tn ti nhiu im ti u cc b. Do m ti tp trung vo tm hiu Cc k thut phn cm trong khai ph d liu s dng tnh ton tin ha; mt k thut tin ha c thit k khc phc tnh cht cc b ca cc thut ton phn cm.Lun vn gm c 4 chng chnh:

Chng 1: Tng quan v khm ph tri thc, khai ph d liu v thut ton di truyn

Chng 2: Mt s gii thut phn cm

Chng 3: Gii thut phn cm da trn lai ghp gii thut di truyn v KmeansChng 4: Ci t v th nghim

Kt lun nh hng pht trin kt qu nghin cuCHNG 1 TNG QUAN V KHM PH TRI THC, KHAI PH D LIU V THUT TON DI TRUYN1.1. Tng quan v khm ph tri thc v khai ph d liu

1.1.1. Gii thiu chung v khm ph tri thc v khai ph d liu

Nu cho rng, in t v truyn thng chnh l bn cht ca khoa hc in t, th d liu, thng tin, v tri thc hin ang l tiu im ca mt lnh vc mi nghin cu v ng dng, l khm ph tri thc v khai ph d liu.

Thng thng, chng ta coi d liu nh l mt chui cc bits, hoc cc s v cc k hiu hay l cc i tng vi mt ngha no khi c gi cho mt chng trnh di mt dng nht nh. Cc bits thng c s dng o thng tin, v xem n nh l d liu c loi b phn t tha, lp li, v rt gn ti mc ti thiu c trng mt cch c bn cho d liu. Tri thc c xem nh l cc thng tin tch hp, bao gm cc s kin v mi quan h gia chng, c nhn thc, khm ph, hoc nghin cu. Ni cch khc, tri thc c th c coi l d liu mc cao ca s tru tng v tng qut.

Khm ph tri thc hay pht hin tri thc trong CSDL l mt quy trnh nhn bit cc mu hoc cc m hnh trong d liu vi cc tnh nng: Phn tch, tng hp, hp thc, kh ch v c th hiu c. Khai ph d liu l mt bc trong qu trnh khm ph tri thc, gm cc thut ton khai thc d liu chuyn dng di mt s qui nh v hiu qu tnh ton chp nhn c tm ra cc mu hoc cc m hnh trong d liu.

Ni cch khc, mc tiu ca Khai ph d liu l tm kim cc mu hoc m hnh tn ti trong CSDL nhng n trong khi lng ln d liu.

1.1.2. Qu trnh khm ph tri thc

Hnh 1.1: Qu trnh KPTT

Bao gm cc bc sau:

Lm sch d liu (Data Cleaning): Loi b d liu nhiu v d liu khng nht qun.

Tch hp d liu (Data Intergation): D liu ca nhiu ngun c th c t hp li.La chn d liu (Data Selection): La chn nhng d liu ph hp vi nhim v phn tch trch rt t c s d liu.

Chuyn i d liu (Data Transformation): D liu c chuyn i hay c hp nht v dng thch hp cho vic khai ph.

Khai ph d liu (Data Mining): y l mt tin trnh ct yu trong cc phng php thng minh c p dng nhm trch rt ra mu d liu.

nh gi mu (Pattern Evaluation): Da trn mt o no xc nh li ch thc s, quan trng ca cc mu biu din tri thc.

Biu din tri thc (Knowledge Presentation): giai on ny cc k thut biu din v hin th c s dng a tri thc ly ra cho ngi dng.

1.1.3. Qu trnh khai ph d liu

KPDL l mt giai on quan trng trong qu trnh KPTT. V bn cht, n l giai on duy nht tm ra c thng tin mi, thng tin tim n c trong CSDL ch yu phc v cho m t v d on.

M t d liu l tng kt hoc din t nhng c im chung ca nhng thuc tnh d liu trong kho d liu m con ngi c th hiu c. D on l da trn nhng d liu hin thi d on nhng quy lut c pht hin t cc mi lin h gia cc thuc tnh ca d liu trn c s chit xut ra cc mu, d on c nhng gi tr cha bit hoc nhng gi tr tng lai ca cc bin quan tm.

Qu trnh KPDL bao gm cc bc chnh c th hin nh Hnh 1.2 sau:

Hnh 1.2: Qu trnh KPDL

Xc nh nhim v: Xc nh chnh xc cc vn cn gii quyt.

Xc nh cc d liu lin quan: Dng xy dng gii php.

Thu thp v tin x l d liu: Thu thp cc d liu lin quan v tin x l chng sao cho thut ton KPDL c th hiu c. y l mt qu trnh rt kh khn, c th gp phi rt nhiu cc vng mc nh: d liu phi c sao ra nhiu bn (nu c chit xut vo cc tp), qun l tp cc d liu, phi lp i lp li nhiu ln ton b qu trnh (nu m hnh d liu thay i), v.v..

Thut ton khai ph d liu: La chn thut ton KPDL v thc hin vic PKDL tm c cc mu c ngha, cc mu ny c biu din di dng lut kt hp, cy quyt nh... tng ng vi ngha ca n.

1.1.4. Cc phng php khai ph d liu

Vi hai mc ch khai ph d liu l M t v D on, ngi ta thng s dng cc phng php sau cho khai ph d liu:

Lut kt hp (association rules)

Phn lp (Classfication)

Hi qui (Regression)

Trc quan ha (Visualiztion) Phn cm (Clustering)

Tng hp (Summarization)

M hnh rng buc (Dependency modeling)

Biu din m hnh (Model Evaluation)

Phn tch s pht trin v lch (Evolution and deviation analyst)

Phng php tm kim (Search Method)

C nhiu phng php khai ph d liu c nghin cu trn, trong c ba phng php c cc nh nghin cu s dng nhiu nht l: Lut kt hp, Phn lp d liu v Phn cm d liu.

1.1.5. Cc lnh vc ng dng thc tin ca KPDL

KPDL l mt lnh vc mi pht trin nhng thu ht c kh nhiu nh nghin cu nh vo nhng ng dng thc tin ca n. Sau y l mt s lnh vc ng dng thc t in hnh ca KPDL:

Phn tch d liu v h tr ra quyt nh

Phn lp vn bn, tm tt vn bn, phn lp cc trang Web v phn cm nh mu

Chun on triu chng, phng php trong iu tr y hc

Tm kim, i snh cc h Gene v thng tin di truyn trong sinh hc

Phn tch tnh hnh ti chnh, th trng, d bo ga c phiu trong ti chnh, th trng v chng khon

Phn tch d liu marketing, khch hng.

iu khin v lp lch trnh

Bo him

Gio dc.....

1.1.6. Cc hng tip cn c bn v k thut p dng trong KPDL.

Vn khai ph d liu c th c phn chia theo lp cc hng tip cn chnh sau:

- Phn lp v d on (classification &prediction): L qu trnh xp mt i tng vo mt trong nhng lp bit trc (v d: phn lp cc bnh nhn theo d liu h s bnh n, phn lp vng a l theo d liu thi tit...). i vi hng tip cn ny thng s dng mt s k thut ca hc my nh cy quyt nh (decision tree), mng nron nhn to (neural network),... Hay lp bi ton ny cn c gi l hc c gim st - Hc c thy (supervised

learning).

- Phn cm (clustering/segmentation): Sp xp cc i tng theo tng cm d liu t nhin, tc l s lng v tn cm cha c bit trc. Cc i tng c gom cm sao cho mc tng t gia cc i tng trong cng mt cm l ln nht v mc tng t gia cc i tng nm trong cc cm khc nhau l nh nht. Lp bi ton ny cn c gi l hc khng gim st - Hc khng thy (unsupervised learning).

- Lut kt hp (association rules): L dng lut biu din tri thc dng kh n gin (V d: 80% sinh vin ng k hc CSDL th c ti 60% trong s h ng k hc Phn tch thit k h thng thng tin). Hng tip cn ny c ng dng nhiu trong lnh vc kinh doanh, y hc, tin sinh hc, gio dc, vin thng, ti chnh v th trng chng khon,...

- Phn tch chui theo thi gian (sequential/temporal patterns): Cng tng t nh khai ph d liu bng lut kt hp nhng c thm tnh th t v tnh thi gian. Mt lut m t mu tun t c dng tiu biu X -> Y, phn nh s xut hin ca bin c X s dn n vic xut hin bin c Y. Hng tip cn ny c ng dng nhiu trong lnh vc ti chnh v th trng chng khon bi chng c tnh d bo cao.

- M t khi nim (concept desccription & summarization): Lp bi ton ny thin v m t, tng hp v tm tt khi nim (V d: tm tt vn bn).

1.2. Tng quan v gii thut tin ha

Tnh ton tin ha(Evolutionary computation): ng dng cc khi nim sinh hc nh qun th, bin d v u tranh sinh tn sinh cc li gii ngy cng tt hn cho bi ton. C mt s phng php tip cn c tun th theo tnh ton tin ha v thut ng chung cho cch tip cn ny l gii thut tin ha. Hnh thc s dng rng ri nht ca gii thut tin ha l gii thut di truyn (Genetic Algorithms). V trong phn trnh by di y s m t gii thut di truyn v thut tin ha vi phn (Differential Evolution).1.2.1. Gii thut di truyn

Ging nh thut ton tin ha ni chung, thut ton di truyn hnh thnh da trn quan nim cho rng qu trnh tin ha t nhin l qu trnh hon ho v hp l nht v t n mang tnh ti u. y l mt tin ng, khng th chng minh c nhng ph hp vi thc t khch quan. Trong tnh ti u trong t nhin th hin ch th h sau bao gi cng tt hn th h trc nh hai qu trnh c bn l sinh sn v chn lc t nhin. Nhng c th no pht trin thch nghi vi mi trng s tn ti v ngc li, nhng c th no khng thch nghi vi mi trng s b o thi. S thay i ca mi trng s tc ng n qu trnh tin ha v bn thn qu trnh tin ha cng c tc ng v lm thay i mi trng. C th mi sinh ra trong qu trnh tin ha nh vo s lai ghp th h cha-m. Mt c th mi c th mang nhng c tnh ca cha-m th h trc (di truyn) hoc mang nhng c tnh mi hon ton (t bin). Di truyn v t bin l hai c ch quan trng nh nhau trong qu trnh tin ha mc d xc sut xy ra hin tng t bin nh nhiu (hng chc n hng trm ln ty tng qu trnh) so vi hin tng di truyn. Mc d c ch l ngu nhin nhng thut ton di truyn khng phi l mt thut ton ngu nhin. Thut ton khai thc v tn dng c mt cch hiu qu thng tin qu kh c c nhng kt qu mi t kt qu nh mong mun. Cc ci tin trong vic s dng thut ton di truyn lm tng thm hiu qu ca vic s dng thut ton trong cc bi ton phc tp. iu ny th hin vic gim thi gian tnh ton ngy cng hiu qu m ta s tm hiu c th hn di y.1.2.1.1. Cc qu trnh c bn trong thut ton di truyn

a, M ha d liu: hay cn gi l biu din di truyn cho li gii ca bi ton: y l bc u tin v rt quan trng i vi vic tm ra li gii ca bi ton. Mi li gii ca bi ton c biu din di dng mt chui k t hu hn hay cn c gi l mt nhim sc th. Cc k t c th l s nh phn, s thp phn, ty vo tng bi ton c th. Trong qu trnh ny, vic m ha ci g, m ha nh th no, trt t cc thnh phn trong nhim sc th ra sao, lun l nhng thch thc cho nhng ngi gii bi ton.b, Khi to qun th (xy dng tp hp nghim ban u) c th ngu nhin hoc khng ngu nhin: C nhiu cch khi to gi tr qun th nghim ban u, ty tng bi ton m ta la chn phng php ph hp. Thng thng, h nghim ban u c chn ngu nhin trong khng gian tm kim. Tuy vy, vic chn ny cng cn phi xem xt v tng quan gia thch nghi ca cc nhim sc th trnh tnh trng nghim tm ra l nghim ti u cc b hay cn gi l cc tr a phng. Cn vn s lng nghim ca tp nghim hay qui m ca qun th cng cn c xem xt k da vo phc tp ca bi ton, chnh xc yu cu (cao hay thp) v thi gian tnh ton yu cu (nhanh hay chm)

c, Xc nh hm thch nghi hay hm lng gi cho mi nhim sc th hay chnh l cho cc phng n nghim trong tp nghim. Hm ny dng nh gi thch nghi ca cc nhim sc th. Hm thch nghi cn phai nh gi c mc thch nghi cho tt c cc nghim kh thi v lun c gi nh l khng m hin thch nghi ca cc c th. Cng thc biu din hm cn phi th hin c tt c cc c tnh mong mun ca nhim sc th, thng qua c th chn lc c cc qun th nghim tt nht cho bi ton.d, Qu trnh lai ghp: y l qu trnh nhim sc th mi c hnh thnh da trn nhim sc th cha-m bng cch lai ghp mt hay nhiu on nhim sc th cha m vi nhau. Php lai ghp xay ra vi xc sut l p1 c th c m phng nh sau:

Chn hai (hay nhiu) c th bt k trong qun th. Qun th y bao gm cc nhim sc th (cha-m) c di bng nhau. Chn im lai l mt im c v tr bt k (nh nhau) trn nhim sc th cha-m v thc hin hon i cc on gen ca nhim sc th cha-m ti im lai ny.

a hai c th ny vo qun th thc hin vo cc qu trnh tin ha tip theo

Hnh 1.3: Lai ghp hai c th

Tuy nhin trong qu trnh tn ti v pht trin, thut ton di truyn c b sung rt nhiu cc phng php lai ghp nhm thch ng vi nhiu kiu bi ton v cng l tng hiu qu ca thut ton. C th k mt s php lai ci tin nh sau:Lai ghp c xt ti cc c tnh tri v ln trong t nhin. Cc c tnh ny c quy nh trc trong khi biu din cu trc nhim sc th. Bng vic xem xt ti cc c tnh tri-ln, qu trnh sn sinh ra cc "qun th cht lng tt" s nhanh hn v do thi gian tnh ton cng c rt ngn. Lai ghp tng phn: Vic gi li nhng on m "ti u" trong nhim sc th cng l mt cch qu trnh lai ghp tr nn hiu qu hn

Lai ghp c trt t Lai ghp da trn v tr Lai ghp chu trnh Lai ghp th t tuyn tnh Lai ghp a im: Vi phng php ny, chng ta c th cho 2 c th lai ghp 2 hay nhiu im lai ghp. Phng thc ny lm cho thut ton tr nn linh hot hn, nh cc th h c th con cng s c cht lng tt hn.e, Qu trnh t bin l qu trnh c th con mang mt bay mt s tnh trng khng c trong m di truyn ca cha-m. Qu trnh ny xy ra vi xc sut p2 (nh hn nhiu so vi p1) c th c m t nh sau:

Chn ngu nhin mt c th bt k trong qun th

Chn mt gen bt k ca c th va chn

Thay i gi tr gen (i vi cch m ha gen theo s nh phn th qu trnh thay i gi tr l i gi tr t 0 thnh 1 hoc t 1 thnh 0) ri tr v qun th thc hin cc qu trnh tip theo

Hnh 1.4: t bin mt nhim sc th

Tng t nh qu trnh lai ghp, trong qu trnh pht trin ca thut ton di truyn cng c b sung rt nhiu cch thc thc hin qu trnh gy t bin ngy cng hiu qu hn: t bin o ngc (Inversion Mutation)

t bin chn (Insertion Mutation)

t bin thay th (Raplacement Mutation)

t bin tng h (Reciprocal Exchange Mutation)

t bin dch chuyn (Shift Mutation)

f, Qu trnh chn lc: Qu trnh m cc c th mi sinh ra c gi li hay b loi b khi qun th da vo thch nghi ca chng. thch nghi y thng l mt hm gn mt gi tr thc cho cc c th trong qun th. i vi qu trnh ny c rt nhiu cch xc nh trnh t tnh ton v thc hin ty vo cch la chn thch nghi ca c th ni ring v ca c qun th ni chung. 1.2.1.2. Cc tham s ca thut ton di truyn

Kch c h nghim (pop-size): s lng c th ph hp trong mi th h

Xc sut lai to (pc): xc sut mi c th trong qun th c tham gia qu trnh lai ghp.

Xc sut t bin (pm): xc sut mi bit trong nhim sc th b t binThng thng, kch c ca qun th ph thuc vo phc tp ca bi ton. Bi ton cng phc tp, nhiu rng buc-n hoc a mc tiu- th s lng c th trong mi th h cng phi ln. Hai thng s xc sut trong qu trnh di truyn c khong gi tr rt khc nhau. i vi xc sut lai to, gi tr thng ri trong khong 0,5-0,95 nhng gi tr thng thng ca xc sut t bin thp hn nhiu, ch khong 0,001-0,05. iu ny cng phn nh ng xc sut xy ra hai qu trnh trong thc t.T mt v d trn y c th tnh c mt s u im ca thut ton di truyn nh phng php ny tm t mt qun th cc im ch khng phi mt im. iu ny lm cho vic gii cc bi ton a mc tiu hay vic tm mt tp hp cc phng n ln cn nghim tr nn d dng. Thm vo , vic nh gi thng tin bng hm mc tiu ch khng dng o hm hay cc tri thc b sung cng l mt u im ca thut ton.

Hnh 1.5: S qu trnh tnh ton ca thut ton di truyn

Nhn xt c th cc bc trong lu trn:Bc 1: Khi to/la chn cc thng s cho qu trnh tnh ton: Bc ny ngi lp trnh tnh ton phi la chn cc thng s nh: S lng c th trong qun th, cch thc ha bi ton cn tnh ton di dng cc nhim sc th ( di ca nhim sc th, kiu s biu din d liu,), s th h tnh ton, xc sut lai ghp, xc sut t bin, hm thch nghi,

Bc 2: Khi to qun th ban u: xc nh bng phng php to s ngu nhin to gi tr cho cc nhim sc th cho qun th ban u. Ty vo cch biu din ca cc nhim sc th m ta chn phng php to s ngu nhin ph hp

Bc 3: nh gi cc nhim sc th bng hm thch nghi xc nh bc 1. Trong bc ny, ngoi vic nh gi cc nhim sc th ring r, chng ta cn c th nh gi thch nghi ca mt nhim sc th hay c qun th. Nu mt nhm hay c qun th c thch nghi "trung bnh" (theo tiu ch ca tng trng hp ca ngi lp trnh) thp th c th loi nhm nhim sc th hay qun th ra khi qu trnh di truyn.

Bc 4: Thc hin qu trnh di truyn thng qua cc c ch lai ghp v t bin. C th thc hin ln lt hai qu trnh ny hoc thc hin ng thi theo cc phng php cp bn trn. Trong qu trnh thc hin thut ton di truyn, giai on ny l giai on m mi ngi c th thc hin theo nhng phng php rt khc nhau. Giai on ny cng l giai on quyt nh ti s thnh cng ca thut ton. Ngi thc hin cng c th a ra nhng phng thc tin hnh lai ghp hay t bin mi trong giai on ny. Trong qu trnh thc hin, c c mt b cc thng s lai ghp hay t bin hiu qu, ngi lp trnh thng phi tri qua nhiu bc tnh ton th. Khu ny ph thuc nhiu vo kinh nghim v k nng tnh ton ca ngi lp trnh.Bc 5: To qun th mi bng qu trnh chn lc. Qu trnh ny cng da vo nh gi cc nhim sc th thng qua hm thch nghi. C th no c thch nghi cao s c g li cho th h k tip. Cng ging nh bc 3, chng ta c th s dng nhng hm thch nghi ph hp nh gi tng c th dn l hoc c mt nhm cc c th. Sau qu trnh ny, nhm c th no tha m tiu chun nh gi vi mc t cao xung thp s c da vo qun th mi.

Bc 6: nh gi qun th va c c trong bc 5. Thng thng c hai tiu ch dng qu trnh di truyn ti bc ny. Th nht, thch nghi ca tng c th v c qun th tha mn mt iu kin hi t c t ra ban u. Cc iu kin hi t th hin mc chp nhn c ca kt qu tm c. Th hai, qun th mi to thnh l qun th th h th (N+1) vi N l s th h d nh tnh ton gi thit ban u. Trong khi thc hin cc qu trnh di truyn, nhng ngi tnh ton c th a ra nhng tiu ch ring dng qu trnh di truyn. Cc tiu ch a ra gp phn quyt nh ti thnh cng ca thut ton. 1.2.2. Thut tin ha vi phn1.2.2.1. Nguyn l hot ng

Trn c s tng ca thut ton GA, vo nm 1995, Rainer Storn v Kenneth Price hon thin c ch t bin v lai ghp to ra mt thut ton mi tin cy, hiu qu hn. im khc bit ln nht ca DE so vi GA l lun duy tr v b sung mt cp 2 vct bao gm (n_popsize) qun th vi (m) chiu cc tham s thc v ng dng thnh cng cho nhiu bi ton ti u cc lnh vc khc nhau.

1.2.2.2. Xy dng s thut ton

S thut ton c trnh by trn hnh 1.6

Hnh 1.6: S thut ton tin ha vi phnCng nh thut ton GA trnh by trn, thut ton tin ho vi phn cng khi to qun th cc im ban u P(t) theo quy lut ngu nhin phn b u trong min xc nh bi ton sau khi cho cc thng s ban u (khi 1, 2). Mi phn t trong qun th ban u ny cng c DE thc hin trn min tham s thc vi cng thc sau [5]: (1)

Trong : xij - gi tr ca phn t ij vi: i - s c th xem xt ca bi ton; j - s bin ca bi ton ti u; BUij, BLij - gii hn trn v gii hn di ca bin xij; rand (0,1) - s ngu nhin phn b u trong khong [0, 1].

Ngay sau qu trnh to qun th ban u, khc vi GA, thut ton DE thc hin lun tin trnh t bin (khi 3). Trong tin trnh ny, DE tip tc to ra mt qun th c t bin [V] da trn qun th ban u. K thut t bin trong thut ton DE l s kt hp gia h s t l cho trc v cc qu trnh ngu nhin. Phng trnh (2) biu din gi tr phn t t bin vij t vic t hp ba phn t khc nhau c chn ngu nhin trong qun th ban u [X].

(2)

Trong : r0, r1, r2 - cc gi tr ngu nhin khc nhau c chn theo lut phn b u trong khong [0, n_popsize]; F - hng s t l. F ( (0,1) l mt s thc dng iu khin mc tin ha ca qun th.

Trong qu trnh lai ghp (khi 4), DE cng tin hnh lai ghp theo kiu cp i (dual crossover) to ra mt qun th lai ghp [U] c gi tr cc tham s c la chn ngu nhin t cc qun th [X] v [V] ban u. K thut lai ghp s dng trong lp trnh ca DE c th biu din nh sau:

(3)

Trong : Cr - xc sut lai ghp. Cr ( (0,1) c ngi s dng nh ngha nhm iu khin mt phn cc tham s c sao chp t qun th t bin. Thm vo gi tr ca phn t lai ghp uij vi ch s chn ngu nhin j = rand(j) c ly t qun th t bin [V] s m bo chc chn phn t lai ghp khng trng vi phn t ban u xij.

Trong qu trnh chn lc v ti sinh (khi 5, 6), cc c th trong qun th lai ghp [U] c so snh vi cc c th trong qun th ban u [X] theo hng c th no c gi tr hm mc tiu thp hn s c la chn vo qun th mi [Y]. K thut la chn ca DE c th biu din nh sau:

(4) Qu trnh ti sinh s c thc hin bng php gn [X] = [Y].

iu kin dng ca thut ton DE cng rt d dng v thun tin. Cc khi 7, 8, 9 biu din iu kin kim tra dng v xut kt qu ca thut ton. Cc gi tr v s th h tin ho (Sth) hoc mt gi tr v cng b (EPS) c a ra so snh vi cc sai lch ca qu trnh tnh. Biu thc iu kin dng ca thut ton DE c th vit nh sau:

(5)

Trong : F(x)min - gi tr nh nht ca hm mc tiu ti th h xt; F(x)i - gi tr hm mc tiu ca c th th i; Np(= n_popsize) - tng s c th trong qun th ang xt; ( - gi tr v cng b cho trc (thng chn = 10-4 ( 10-6 ty theo loi bi ton).1.3. Kt lunKPDL l lnh vc v ang tr thnh mt trong nhng hng nghin cu thu ht c s quan tm ca nhiu chuyn gia v CNTT trn th gii. Trong nhng nm gn y, rt nhiu cc phng php v thut ton mi lin tc c cng b. iu ny chng t nhng u th, li ch v kh nng ng dng thc t to ln ca KPDL. Chng ny trnh by mt s kin thc tng quan v KPTT, nhng khi nim v kin thc c bn nht v KPDL, thut gii di truyn v thut tin ha vi phn.CHNG 2 MT S GII THUT PHN CM2.1. Khi nim v mc tiu ca phn cm d liu

Phn cm d liu l qu trnh nhm mt tp cc i tng tng t nhau trong tp d liu vo cc cm sao cho cc i tng thuc cng mt cm l tng ng cn cc i tng thuc cc cm khc nhau s khng tng ng. Phn cm d liu l mt v d ca phng php hc khng c thy. Khng ging nh phn lp d liu, phn cm d liu khng i hi phi nh ngha trc cc mu d liu hun luyn. V th, c th coi phn cm d liu l mt cch hc bng quan st, trong khi phn lp d liu l hc bng v d, Ngoi ra phn cm d liu cn c th c s dng nh mt bc tin x l cho cc thut ton khai ph d liu khc nh l phn loi v m t c im, c tc dng trong vic pht hin ra cc cm.

Hnh 2.1: M t tp d liu vay n c phn thnh 3 cm.

Phn cm c ngha rt quan trng trong hot ng ca con ngi. Ngay t lc b, con ngi hc cch lm th no phn bit gia mo v ch, gia ng vt v thc vt v lin tc a vo s phn loi trong tim thc ca mnh. Phn cm c s dng rng ri trong nhiu ng dng, bao gm nhn dng mu, phn tch d liu, x l nh, nghin cu th trng,... Vi t cch l mt chc nng khai ph d liu, phn tch phn cm c th c s dng nh mt cng c c lp chun quan st c trng ca mi cm thu c bn trong s phn b ca d liu v tp trung vo mt tp ring bit ca cc cm gip cho vic phn tch t kt qu.

Mt vn thng gp trong phn cm l hu ht cc d liu cn cho phn cm u c cha d liu nhiu do qu trnh thu thp thiu chnh xc hoc thiu y , v vy cn phi xy dng chin lc cho bc tin x l d liu nhm khc phc hoc loi b nhiu trc khi chuyn sang giai on phn tch cm d liu. Nhiu y c hiu l cc i tng d liu khng chnh xc, khng tng minh hoc l cc i tng d liu khuyt thiu thng tin v mt s thuc tnh,... Mt trong cc k thut x l nhiu ph bin l vic thay th gi tr cc thuc tnh ca i tng nhiu bng gi tr thuc tnh tng ng. Ngoi ra, d tm phn t ngoi lai cng l mt trong nhng hng nghin cu quan trng trong phn cm, chc nng ca n l xc nh mt nhm nh cc i tng d liu khc thng so vi cc d liu trong CSDL, tc l cc i tng d liu khng tun theo cc hnh vi hoc m hnh d liu nhm trnh s nh hng ca chng ti qu trnh v kt qu ca phn cm.

Mc tiu ca phn cm l xc nh c bn cht nhm trong tp DL cha c nhn. N c th c ch ra rng khng c tiu chun tuyt i tt m c th khng ph thuc vo kt qu phn cm. V vy, n i hi ngi s dng phi cung cp tiu chun ny, theo cch m kt qu phn cm s p ng yu cu.

Theo cc nghin cu cho thy th hin nay cha c mt phng php phn cm tng qut no c th gii quyt trn vn cho tt c cc dng cu trc CDL. Hn na, cc phng php phn cm cn c cch thc biu din cu trc ca cc CDL, vi mi cch thc biu din khc nhau s c tng ng mt thut ton phn cm ph hp. V vy phn cm d liu vn ang l mt vn kh v m, v phi gii quyt nhiu vn c bn mt cch trn vn v ph hp vi nhiu dng d liu khc nhau, c bit l i vi d liu hn hp ang ngy cng tng trong cc h qun tr d liu v y cng l mt trong nhng thch thc ln trong lnh vc KPDL.

2.2. Cc ng dng ca phn cm d liu

Phn cm d liu c th c ng dng trong nhiu lnh vc nh:

Thng mi: Tm kim nhm cc khch hng quan trng c c trng tng ng v nhng c t h t cc bn ghi mua bn trong CSDL

Sinh hc: Phn loi cc gen vi cc chc nng tng ng v thu c cc cu trc trong mu

Th vin: Phn loi cc cm sch c ni dung v ngha tng ng nhau cung cp cho c gi

Bo him: Nhn dng nhm tham gia bo him c chi ph bi thng cao, nhn dng gian ln thng mi

Quy hoch th: Nhn dng cc nhm nh theo kiu v v tr a l,... nhm cung cp thng tin cho quy hoch th

Nghin cu tri t: Phn cm theo di cc tm ng t nhm cung cp thng tin cho nhn dng cc vng nguy him

WWW: C th khm ph cc nhm ti liu quan trng, c nhiu ngha trong mi trng Web. Cc lp ti liu ny tr gip cho vic KPTT t d liu.

2.3. Cc yu cu ca phn cm

Phn cm l mt thch thc trong lnh vc nghin cu ch nhng ng dng tim nng ca chng c a ra ngay chnh trong nhng yu cu c bit ca chng. Sau y l nhng yu cu c bn ca phn cm trong KPDL:

C kh nng m rng: Nhiu thut ton phn cm lm vic tt vi nhng tp d liu nh cha t hn 200 i tng, tuy nhin, mt CSDL ln c th cha ti hng triu i tng. Vic phn cm vi mt tp d liu ln c th lm nh hng ti kt qu. Vy lm cch no chng ta c th pht trin cc thut ton phn cm c kh nng m rng cao i vi cc CSDL ln?

Kh nng thch nghi vi cc kiu thuc tnh khc nhau: Nhiu thut ton c thit k cho vic phn cm d liu c kiu khong (kiu s). Tuy nhin, nhiu ng dng c th i hi vic phn cm vi nhiu kiu d liu khc nhau, nh kiu nh phn, kiu tng minh (nh danh - khng th t), v d liu c th t hay dng hn hp ca nhng kiu d liu ny.

Khm ph cc cm vi hnh dng bt k: Nhiu thut ton phn cm xc nh cc cm da trn cc php o khong cch Euclidean v khong cch Manhattan. Cc thut ton da trn cc php o nh vy hng ti vic tm kim cc cm hnh cu vi mt v kch c tng t nhau. Tuy nhin, mt cm c th c bt c mt hnh dng no. Do , vic pht trin cc thut ton c th khm ph ra cc cm c hnh dng bt k l mt vic lm quan trng.

Ti thiu lng tri thc cn cho xc nh cc tham s u vo: Nhiu thut ton phn cm yu cu ngi dng a vo nhng tham s nht nh trong phn tch phn cm (nh s lng cc cm mong mun). Kt qu ca phn cm thng kh nhy cm vi cc tham s u vo. Nhiu tham s rt kh xc nh, nht l vi cc tp d liu c lng cc i tng ln. iu ny khng nhng gy tr ngi cho ngi dng m cn lm cho kh c th iu chnh c cht lng ca phn cm.

Kh nng thch nghi vi d liu nhiu: Hu ht nhng CSDL thc u cha ng d liu ngoi lai, d liu li, d liu cha bit hoc d liu sai. Mt s thut ton phn cm nhy cm vi d liu nh vy v c th dn n cht lng phn cm thp. t nhy cm vi th t ca cc d liu vo: Mt s thut ton phn cm nhy cm vi th t ca d liu vo, v d nh vi cng mt tp d liu, khi c a ra vi cc th t khc nhau th vi cng mt thut ton c th sinh ra cc cm rt khc nhau. Do , vic quan trng l pht trin cc thut ton m t nhy cm vi th t vo ca d liu.

S chiu ln: Mt CSDL hoc mt kho d liu c th cha mt s chiu hoc mt s cc thuc tnh. Nhiu thut ton phn cm p dng tt cho d liu vi s chiu thp, bao gm ch t hai n 3 chiu. Ngi ta nh gi vic phn cm l c cht lng tt nu n p dng c cho d liu c t 3 chiu tr ln. N l s thch thc vi cc i tng d liu cm trong khng gian vi s chiu ln, c bit v khi xt nhng khng gian vi s chiu ln c th rt tha v c nghing ln.

Phn cm rng buc: Nhiu ng dng thc t c th cn thc hin phn cm di cc loi rng buc khc nhau. Mt nhim v t ra l i tm nhng nhm d liu c trng thi phn cm tt v tha mn cc rng buc.

D hiu v d s dng: Ngi s dng c th ch i nhng kt qu phn cm d hiu, d l gii v d s dng. Ngha l, s phn cm c th cn c gii thch ngha v ng dng r rng.

Vi nhng yu cu ng lu ny, nghin cu ca ta v phn tch phn cm din ra nh sau: u tin, ta nghin cu cc kiu d liu khc v cch chng c th gy nh hng ti cc phng php phn cm. Th hai, ta a ra mt cch phn loi chung trong cc phng php phn cm. Sau , ta nghin cu chi tit mi phng php phn cm, bao gm cc phng php phn hoch, phn cp, da trn mt ,... Ta cng kho st s phn cm trong khng gian a chiu v cc bin th ca cc phng php khc.

2.4. Nhng k thut tip cn trong phn cm d liu

Cc k thut phn cm c rt nhiu cch tip cn v cc ng dng trong thc t, n u hng ti hai mc tiu chung l cht lng ca cc cm khm ph c v tc thc hin ca thut ton. Hin nay, cc k thut phn cm c th phn loi theo cc cch tip cn chnh sau :

2.4.1. Phng php phn cm phn hoch

K thut ny phn hoch mt tp hp d liu c n phn t thnh k nhm cho n khi xc nh s cc cm c thit lp. S cc cm c thit lp l cc c trng c la chn trc. Phng php ny tt cho vic tm cc cm hnh cu trong khng gian Euclidean. Ngoi ra, phng php ny cng ph thuc vo khong cch c bn gia cc im la chn cc im d liu no c quan h l gn nhau vi mi im khc v cc im d liu no khng c quan h hoc c quan h l xa nhau so vi mi im khc. Tuy nhin, phng php ny khng th x l cc cm c hnh dng k quc hoc cc cm c mt cc im dy c. Cc thut ton phn hoch d liu c phc tp rt ln khi xc nh nghim ti u ton cc cho vn PCDL, do n phi tm kim tt c cc cch phn hoch c th c. Chnh v vy, trn thc t thng i tm gii php ti u cc b cho vn ny bng cch s dng mt hm tiu chun nh gi cht lng ca cm cng nh hng dn cho qu trnh tm kim phn hoch d liu. Nh vy, tng chnh ca thut ton phn cm phn hoch ti u cc b l s dng chin lc n tham (Greedy) tm kim nghim.

2.4.2. Phng php phn cm phn cp

Phng php ny xy dng mt phn cp trn c s cc i tng d liu ang xem xt. Ngha l sp xp mt tp d liu cho thnh mt cu trc c dng hnh cy, cy phn cp ny c xy dng theo k thut quy. C hai cch tip cn ph bin ca k thut ny l:

Ha nhp nhm, thng c gi l tip cn Bottom-Up

Phn chia nhm, thng c gi l tip cn Top-Down

Hnh 2.2: Cc chin lc phn cm phn cp

Thc t p dng, c nhiu trng hp kt hp c hai phng php phn cm phn hoch v phn cm phn cp, ngha l kt qu thu c ca phng php phn cp c th ci tin thng qua bc phn cm phn hoch. Phn cm phn hoch v phn cm phn cp l hai phng php PCDL c in, hin c rt nhiu thut ton ci tin da trn hai phng php ny c p dng ph bin trong KPDL.

2.4.3. Phng php phn cm da trn mt

K thut ny nhm cc i tng d liu da trn hm mt xc nh, mt l s cc i tng ln cn ca mt i tng d liu theo mt ngha no . Trong cch tip cn ny, khi mt d liu xc nh th n tip tc c pht trin thm cc i tng d liu mi min l s cc i tng ln cn ny phi ln hn mt ngng c xc nh trc. Phng php phn cm da trn mt ca cc i tng xc nh cc cm d liu c th pht hin ra cc cm d liu vi hnh th bt k. K thut ny c th khc phc c cc phn t ngoi lai hoc gi tr nhiu rt tt, tuy nhin vic xc nh cc tham s mt ca thut ton l rt kh khn, trong khi cc tham s ny li c tc ng rt ln n kt qu phn cm.

2.4.4. Phng php phn cm da trn li

K thut phn cm da trn li thch hp vi d liu nhiu chiu, da trn cu trc d liu li phn cm, phng php ny ch yu tp trung p dng cho lp d liu khng gian. Mc tiu ca phng php ny l lng ha d liu thnh cc to thnh cu trc d liu li. Sau , cc thao tc phn cm ch cn lm vic vi cc i tng trong tng trn li ch khng phi cc i tng d liu. Cch tip cn da trn li ny khng di chuyn cc i tng trong cc m xy dng nhiu mc phn cp ca nhm cc i tng trong mt . Phng php ny gn ging vi phng php phn cm phn cp nhng chng khng trn cc , ng thi gii quyt khc phc yu cu i vi d liu nhiu chiu m phng php phn phn cm da trn mt khng gii quyt c. u im ca phng php phn cm da trn li l thi gian x l nhanh v c lp vi s i tng d liu trong tp d liu ban u, thay vo l chng ph thuc vo s trong mi chiu ca khng gian li.

Hnh 2.3: Cu trc phn cp

2.4.5. Phng php phn cm da trn m hnh

Phng ny c gng khm ph cc php xp x tt ca cc tham s m hnh sao cho khp vi d liu mt cch tt nht. Chng c th s dng chin lc phn cm phn hoch hoc phn cm phn cp, da trn cu trc hoc m hnh m chng gi nh v tp d liu v cch chng hiu chnh cc m hnh ny nhn dng ra cc phn hoch. Phng php phn cm da trn m hnh c gng khp gia cc d liu vi m hnh ton hc, n da trn gi nh rng d liu c to ra bng hn hp phn phi xc sut c bn. Cc thut ton phn cm da trn m hnh c hai cch tip cn chnh: m hnh thng k v mng nron. Phng php ny gn ging vi phng php phn cm da trn mt , v chng pht trin cc cm ring bit nhm ci tin cc m hnh c xc nh trc , nhng i khi n khng bt u vi mt s cm c nh v khng s dng cng mt khi nim mt cho cc cm.

2.4.6. Phng php phn cm c d liu rng buc

S pht trin ca PCDL khng gian trn CSDL ln cung cp nhiu cng c tin li cho vic phn tch thng tin a l, tuy nhin hu ht cc thut ton ny cung cp rt t cch thc cho ngi dng xc nh cc rng buc trong th gii thc cn phi c tha mn trong qu trnh phn cm. PCDL khng gian hiu qu hn, cc nghin cu b sung cn c thc hin cung cp cho ngi dng kh nng kt hp cc rng buc trong thut ton phn cm.Hnh 2.4: Cc cch m cc cm c th a ra

Hin nay, cc phng php phn cm trn v ang c pht trin v p dng nhiu trong cc lnh vc khc nhau v c mt s nhnh nghin cu c pht trin trn c s ca cc phng php nh:

Phn cm thng k: Da trn cc khi nim phn tch h thng, nhnh nghin cu ny s dng cc o tng t phn hoch cc i tng, nhng chng ch p dng cho cc d liu c thuc tnh s.

Phn cm khi nim: K thut ny c pht trin p dng cho d liu hng mc, chng phn cm cc i tng theo cc khi nim m chng x l.

Phn cm m: S ng k thut m PCDL. Cc thut ton thuc loi ny ch ra lc phn cm thch hp vi tt c cc hot ng i sng hng ngy, chng ch x l cc d liu thc khng chc chn.

Phn cm mng Kohonen: Loi phn cm ny da trn khi nim ca cc mng nron. Mng Kohonen c tng nron vo v cc tng nron ra. Mi nron ca tng vo tng ng vi mi thuc tnh ca bn ghi, mi mt nron vo kt ni vi tt c cc nron ca tng ra. Mi lin kt c gn lin vi mt trng s nhm xc nh v tr ca nron ra tng ng.

2.5. Mt s thut ton c bn trong phn cm d liu

2.5.1. Cc thut ton phn cm phn hoch

Thut ton k-means

Thut ton ny da trn o khong cch ca cc i tng d liu trong cm. Trong thc t, n o khong cch ti gi tr trung bnh ca cc i tng d liu trong cm. N c xem nh l trung tm ca cm. Nh vy, n cn khi to mt tp trung tm cc trung tm cm ban u, v thng qua n lp li cc bc gm gn mi i tng ti cm m trung tm gn, v tnh ton ti tung tm ca mi cm trn c s gn mi cho cc i tng. Qu trnh lp ny dng khi cc trung tm hi t.

Hnh 2.5: Cc thit lp xc nh ranh gii cc cm ban u

Mc ch ca thut ton k-means l sinh k cm d liu {C1, C2,..., Ck} t mt tp d liu cha n i tng trong khng gian d chiu Xi = {xi1, xi2,..., xid}, i = 1 ( n, sao cho hm tiu chun: t gi tr ti thiu,

trong : mi l trng tm ca cm Ci, D l khong cch gia hai i tng.

Khong cch gia hai i tng c xc nh theo khong cch Euclidean.

Hnh 2.6: Tnh ton trng tm ca cc cm mi

Thut ton k-means bao gm cc bc c bn sau :

Input: S cm k v cc trng tm cm Output: Cc cm C[i] (1 (i ( k) v hm tiu chun E t gi tr ti thiu.

Begin

Bc 1 : Khi to

Chn k trng tm ban u trong khng gian Rd (d l s chiu ca d liu). Vic la chn ny c th l ngu nhin hoc theo kinh nghim.

Bc 2: Tnh ton khong cch

i vi mi im Xi (1 ( i ( n), tnh ton khong cch ca n ti mi trng tm mj (1 ( j ( k). Sau tm trng tm gn nht i vi mi im.

Bc 3: Cp nht li trng tm

i vi mi 1 ( j ( k, cp nht trng tm cm mj bng cch xc nh trung bnh cng cc vect i tng d liu.

iu kin dng:

Lp li cc bc 2 v 3 cho n khi cc trng tm ca cm khng thay i.

End.

Thut ton k-means trn c chng minh l hi t v c phc tp tnh ton l . Trong , n l s i tng d liu, k l s cm d liu, d l s chiu, ( l s vng lp, T flop l thi gian thc hin mt php tnh c s nh php tnh nhn, chia,... Nh vy, do k-means phn tch phn cm n gin nn c th p dng i vi tp d liu ln. Tuy nhin, nhc im ca k-means l ch p dng vi d liu c thuc tnh s v khm hnh cu, k-means cn rt nhy cm vi nhiu v cc phn t ngoi lai trong d liu. Hn na, cht lng PCDL ca thut ton k-means ph thuc nhiu vo cc tham s u vo nh: s cm k v k trng tm khi to ban u. Trong trng hp cc trng tm khi to ban u m qu lch so vi cc trng tm cm t nhin th kt qu phn cm ca k-means l rt thp, ngha l cc cm d liu c khm ph rt lch so vi cc cm trong thc t. Trn thc t cha c mt gii php ti u no chn cc tham s u vo, gii php thng c s dng nht l th nghim vi cc gi tr u vo k khc nhau ri sau chn gii php tt nht. Ngoi ra thut ton K-means ra, phn cm phn hoch cn bao gm mt s cc thut ton khac nh: Thut ton PAM; Thut ton CLARA; Thut ton CLARANS.

2.5.2. Cc thut ton phn cm phn cp

Thut ton CURE

Trong khi hu ht cc thut ton thc hin phn cm vi cc cm hnh cu v kch thc tng t, nh vy l khng hiu qu khi xut hin cc phn t ngoi lai. Thut ton CURE khc phc c vn ny v tt hn vi cc phn t ngoi lai. Thut ton ny nh ngha mt s c nh cc im i din nm ri rc trong ton b khng gian d liu v c chn m t cc cm c hnh thnh. Cc im ny c to ra nh la chn cc i tng nm ri rc cho cm v sau co li hoc di chuyn chng v trung tm cm bng nhn t co cm. Qu trnh ny c lp li v nh vy trong qu trnh ny, c th o t l gia tng ca cm. Ti mi bc ca thut ton, hai cm c cp cc im i din gn nhau (mi im trong cp thuc v mi cm khc nhau) c ha nhp.

Hnh 2.7: Khi qut thut ton CURE

Nh vy, c nhiu hn mt im i din mi cm cho php CURE khm ph c cc cm c hnh dng khng phi l hnh cu. Vic co li cc cm c tc dng lm gim tc ng ca cc phn t ngoi lai. Nh vy, thut ton ny c kh nng x l tt trong trng hp c cc phn t ngoi lai v lm cho n hiu qu vi nhng hnh dng khng phi l hnh cu v kch thc rng bin i. Hn na, n t l tt vi CSDL ln m khng lm gim cht lng phn cm.

Hnh 2.8: Cc cm d liu c khm ph bi CURE x l c cc CSDL 1n, CURE s dng mu ngu nhin v phn hoch, mt mu l c xc nh ngu nhin trc khi c phn hoch, v sau tin hnh phn cm trn mi phn hoch, nh vy mi phn hoch l tng phn c phn cm, cc cm thu c li c phn cm ln th hai thu c cc cm con mong mun, nhng mu ngu nhin khng nht thit a ra mt m t tt cho ton b tp d liu. Thut ton CURE c thc hin qua cc bc c bn sau: Chn mt mu ngu nhin t tp d liu ban u.

Phn hoch mu ny thnh nhiu nhm d liu c kch thc bng nhau: tng chnh y l phn hoch mu thnh p nhm d liu bng nhau, kch thc ca mi phn hoch l n/p (n l kch thc ca mu).

Phn cm cc im ca mi nhm: Thc hin PCDL cho cc nhm cho n khi mi nhm c phn thnh n/pq cm (vi q > 1).

Loi b cc phn t ngoi lai: Trc ht, khi cc cm c hnh thnh cho n khi s cc cm gim xung mt phn so vi s cc cm ban u. Sau , trong trng hp cc phn t ngoi lai c ly mu cng vi qu trnh pha khi to mu d liu, thut ton s t ng loi b cc nhm nh.

Phn cm cc cm khng gian: cc i tng i din cho cc cm di chuyn v hng trung tm cm, ngha l chng c thay th bi cc i tng gn trung tm hn.

nh du d liu vi cc nhn tng ng.

phc tp tnh ton ca thut ton CURE l O(n21og(n)). CURE l thut ton tin cy trong vic khm ph ra cc cm vi hnh th bt k v c th p dng tt i vi d liu c phn t ngoi lai v trn cc tp d liu hai chiu. Tuy nhin, n li rt nhy cm vi cc tham s nh s cc i tng i din, t l co ca cc phn t i in.

Ngoi thut ton CURE ra, phn cm phn cp cn bao gm mt s thut ton khac nh: Thut ton BIRCH; Thut ton AGNES; Thut ton DIANA; Thut ton ROCK; Thut ton CHANMELEON.

2.5.3. Cc thut ton phn cm da trn mt

Thut ton DBSCAN

Thut ton DBSCAN thch nghi vi mt dy phn cm v khm ph ra cc cm c hnh dng bt k trong khng gian CSDL c nhiu. Trn thc t DBSCAN tm kim cho cc cm bng cch kim tra cc i tng m c s i tng lng ging nh hn mt ngng ti thiu, tc l c ti thiu MinPts i tng v mi i tng trong cm tn ti mt i tng khc trong cm ging nhau vi khong cch nh mt ngng Eps. Tm tt c cc i tng m cc lng ging ca n thuc v lp cc i tng xc nh trn, mt cm c xc nh bng mt tp tt c cc i tng lin thng mt cc lng ging ca n. DBSCAN lp li tm kim ngay khi cc i tng lin lc mt t cc i tng trung tm, n c th bao gm vic kt hp mt s cm c mt lin lc. Qu trnh kt thc khi khng tm c im mi no c th thm vo bt c cm no.

DBSCAN c th tm ra cc cm vi hnh th bt k, trong khi ti cng mt thi im t b nh hng bi th t ca cc i tng d liu nhp vo. Khi c mt i tng c chn vo ch tc ng n mt lng ging xc nh. Mt khc, DBSCAN s dng tham s Eps v MinPts trong thut ton kim sot mt ca cc cm. DBSCAN bt u vi mt im tu v xy dng mt lng ging c th c i vi Eps v MinPts. V vy, DBSCAN yu cu ngi dng xc nh bn knh Eps ca cc lng ging v s cc lng ging ti thiu MinPts, cc tham s ny kh m xc nh c ti u, thng thng n c xc nh bng php chn ngu nhin hoc theo kinh nghim. phc tp ca DBSCAN l O(n2), nhng nu p dng ch s khng gian gip xc nh cc lng ging ca mt i tng d liu th phc ca DBSCAN c ci tin l O(nlogn). Thut ton DBSCAN c th p dng cho cc tp d liu khng gian ln a chiu, khong cch Euclide c s dng o s tng t gia cc i tng nhng khng hiu qu i vi d liu a chiu.

Hnh 2.9: Hnh dng cc cm c khm ph bi thut ton DBSCAN

Thut ton: DBSCAN khi to im p ty v ly tt c cc im lin lc mt t p ti Eps v MinPts. Nu p l im nhn th th tc trn to ra mt cm theo Eps v MinPts, nu p l mt im bin, khng c im no lin lc mt t p v DBSCAN s i thm im tip theo ca tp d liu. Nu s dng gi tr ton cc Eps v Minpts, DBSCAN c th ho nhp hai cm thnh mt cm nu mt ca hai cm gn bng nhau. Gi s khong cch gia hai tp d liu S1 v S2 c nh ngha l:

dist(S1, S2) = min{dist(p, q) {p ( S1 v q ( S2}.

Thut ton DBSCAN c m t chi tit nh sau:......... Modul chng trnh chnh ..........

DBSCAN(SetOfPoints, Eps, MinOts)

//SetOfPoints is UNCLASSIFIED

Clusterid:= NextId(NOISE);

FOR i FROM 1 TO SetOfPoints.size DO

Point := SetOfPoints.get(i);

IF PointClId = UNCLASSIFIED THEN

IF ExpandCluster(SetOfPoints, Point, ClusterId, Eps, MinPts)

THEN

ClusterId.= nextId(ClusterId)

END IF

END IF

END FOR

END; //DBSCAN

--------Th tc ExpandCluster--------

ExpandClusster(SetOfPoints, Points, C1Id, Eps, MinPts): Boolean;

seeds:= SetOfPoints.regionQuery(Point, Eps)

IF seeds.size < MinPts THEN //no core point

SetOfPoints.changeclId(Point, NOISE),

RETURN False;

ELSE //all points in seeds are density-reachable from Point

SetOfPoints.changeClId(seeds, C1Id);

seeds.delete(Point);

WHILE seeds Empty DO

currentP:= seeds.first();

result:= SetOfPoints.regionQuery(CurrentP, Eps);

IF result.size >= MinPts THEN

FOR i FROM 1 to result.size DO

resultpP:= result.get(i);

IF resultp.C1Id IN {UNCLASSIFIED, NOISE} THEN

IF resultp.ClId = UNCLASSIFIED THEN

seeds.append(resultP);

END IF;

SetOfPoints.changeC1Id(resultP, C1Id),

END IF; //UNCLASSIFIED or NOISE

END FOR;

END IF; //result.size >= Minpts

seeds.delete(currentP);

END WHILE; //seeds Empty

RETURN True;

END IF;

END; //ExpandCluster

Trong SetOfPoints hoc l tp d liu ban u hoc l cm c khm ph t bc trc, C1Id (ClusterId) l nhn nh du phn t d liu nhiu c th thay i nu chng c th lin lc mt t mt im khc trong CSDL, iu ny ch xy ra i vi cc im bin ca d liu. Hm SetOfPoints.get(i) tr v phn t th i ca SetOfPoints. Th tc SetOfPoints.regionQuery(Point, Eps) tr v mt danh sch cc im d liu ln cn vi im Point trong ngng Eps t tp d liu SetOfPoints. Tr mt s trng hp ngoi l, kt qu ca DBSCAN l c lp vi th t duyt cc i tng d liu. Eps v MinPts l hai tham s ton cc c xc nh bng th cng hoc theo kinh nghim. Tham s Eps c a vo l nh so vi kch thc ca khng gian d liu, th phc tp tnh ton trung bnh ca mi truy vn l O(logn).

Ngoi thut ton DBSCAN ra, phn cm da trn mt cn bao

gm 2 thut ton khc nh: Thut ton OPTICS; Thut ton DENCLUE.

2.5.4. Cc thut ton phn cm da trn li

Thut ton STING

STING l k thut phn cm a phn gii da trn li, trong vng khng gian d liu c phn r thnh s hu hn cc ch nht, iu ny c ngha l cc li c hnh thnh t cc li con thc hin phn cm. C nhiu mc ca cc ch nht tng ng vi cc mc khc nhau ca phn gii trong cu trc li, v cc ny hnh thnh cu trc phn cp: mi mc cao c phn hoch thnh s cc nh mc thp hn tip theo trong cu trc phn cp. Cc im d liu c np t CSDL, gi tr ca cc tham s thng k cho cc thuc tnh ca i tng d liu trong mi li c tnh ton t d liu v lu tr thng qua cc tham s thng k cc mc thp hn. Cc gi tr ca cc tham s thng k gm: s trung bnh - mean, s ti a - max, s ti thiu - min, s m - count, lch chun - s, ...

Cc i tng d liu ln lt c chn vo li v cc tham s thng k trn c tnh trc tip thng qua cc i tng d liu ny. Cc truy vn khng gian c thc hin bng cch xt cc thch hp ti mi mc ca phn cp. Mt truy vn khng gian c xc nh nh l mt thng tin khi phc li ca d liu khng gian v cc quan h ca chng.

STING c kh nng m rng cao, nhng do s dng phng php a phn gii nn n ph thuc cht ch vo trng tm ca mc thp nht. a phn gii l kh nng phn r tp d liu thnh cc mc chi tit khc nhau. Khi ho nhp cc ca cu trc li hnh thnh cc cm, n khng xem xt quan h khng gian gia cc nt ca mc con khng c ho nhp ph hp (do chng ch tng ng vi cc cha ca n) v hnh dng ca cc cm d liu khm ph c, tt c ranh gii ca cc cm c cc bin ngang v dc, theo bin ca cc v khng c ng bin cho c pht hin ra.

Mt trong nhng hn ch trong khi s dng cch tip cn a phn gii thc hin phn tch cm cht lng ca phn cm STING hon ton ph thuc vo tnh cht hp mc thp ca cu trc li. Nu tnh cht hp l mn, dn n chi ph thi gian x l tng, tnh ton tr nn phc tp v nu mc di cng l qu th th n c th lm gim bt cht lng v chnh xc ca phn tch cm.

Cu trc d liu li thun tin cho qu trnh x l song song v cp nht lin tc, khi duyt ton b CSDL mt ln tnh ton cc i lng thng k cho mi , nn n rt hiu qu v do phc tp thi gian to cc cm xp x O(n), trong n l tng s cc i tng. Sau khi xy dng cu trc phn cp, thi gian x l cho cc truy vn l O(g), trong g l tng s li mc thp (g [Sth]

Eps < [Eps]

Kt thc

In kt qu

ng

ng

Sai

Sai

3

2

1

5

4

6

7

8

9

_1330949647.unknown

_1330949835.unknown

_1330949921.unknown

_1330949731.unknown

_1330945878.unknown