47
Phân lớp bằng cây quyết định và cài đặt thuật toán ID3 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ******************* BÁO CÁO BÀI TẬP LỚN MÔN: LÝ THUYẾT NHẬN DẠNG ĐỀ TÀI : PHÂN LỚP BẰNG CÂY QUYẾT ĐỊNH VÀ CÀI ĐẶT THUẬT TOÁN ID3 Giảng viên hướng dẫn: Trần Hùng Cường Nhóm 20- Lớp: KHMT2-K3 Thành viên trong nhóm: Bài tập lớn lý thuyết nhận dạng_nhóm 20 Page 1

Phan Lop Bang Cay Quyet Dinh Va Cai Dat Thuat Toan ID3

Embed Size (px)

DESCRIPTION

Phan Lop Bang Cay Quyet Dinh Va Cai Dat Thuat Toan ID3

Citation preview

Phn lp bng cy quyt nh v ci t thut ton ID3

TRNG I HC CNG NGHIP H NIKHOA CNG NGH THNG TIN*******************

BO CO BI TP LNMN: L THUYT NHN DNG TI: PHN LP BNG CY QUYT NH V CI T THUT TON ID3Ging vin hng dn: Trn Hng Cng Nhm 20- Lp: KHMT2-K3 Thnh vin trong nhm:1. Trn Danh Thng2. Trn c Thng3. ng Quang Hi4. Trn Thi H H Ni, ngy 18 thng 6 nm 2011LI M UTrong qu trnh hot ng, con ngi to ra nhiu d liu nghip v. Cc tp d liu c tch ly c kch thc ngy cng ln, v c th cha nhiu thng tin n dng nhng quy lut cha c khm ph. Chnh v vy, mt nhu cu t ra l cn tm cch trch rt t tp d liu cc lut v phn lp d liu hay d on nhng xu hng d liu tng lai. Nhng quy tc nghip v thng minh c to ra s phc v c lc cho cc hot ng thc tin, cng nh phc v c lc cho qu trnh nghin Ncu khoa hc. Cng ngh phn lp v d on d liu ra i p ng mong mun .Cng ngh phn lp d liu , ang v s pht trin mnh m trc nhng khao kht tri thc ca con ngi. Trong nhng nm qua, phn lp d liu thu ht s quan tm cc nh nghin cu trong nhiu lnh vc khc nhau nh hc my (machine learning), h chuyn gia (expert system), thng k (statistics)... Cng ngh ny cng ng dng trong nhiu lnh vc thc t nh: thng mi, nh bng, maketing, nghin cu th trng, bo him, y t, gio dc...Nhiu k thut phn lp c xut nh: Phn lp cy quyt nh (Decision tree classification), phn lp Bayesian (Bayesian classifier), phn lp Khng xm gn nht (K-nearest neighbor classifier), mng nron, phn tch thng k, Trong cc k thut , cy quyt nh c coi l cng c mnh, ph bin v c bit thch hp cho data mining. Bi tm hiu ca chng ti s lm r thm v phn lp d liu bng cy quyt nh

MC LC

ContentsChng I. TNG QUAN V PHN LP D LIU DA TRN CY QUYT NH3I.Tng quan v phn lp d liu trong data mining31. Phn lp d liu32. Cc vn lin quan n phn lp d liu7II. Cy quyt nh ng dng trong phn lp d liu91.nh ngha92.Cc vn trong khai ph d liu s dng cy quyt nh103. nh gi cy quyt nh trong khai ph d liu12Chng II. GII THUT QUY NP CY QUYT NH ID315I.Gii thiu15II. Gii thut ID3 xy dng cy quyt nh t trn xung19III. Thuc tnh no l thuc tnh dng phn loi tt nht?231.Entropy o tnh thun nht ca tp v d242.Lng thng tin thu c o mc gim entropy mong i25IV.Tm kim khng gian gi thuyt trong ID328V.nh gi hiu sut ca cy quyt nh:30VI. Chuyn cy v cc lut30VII. Khi no nn s dng ID331

Chng I. TNG QUAN V PHN LP D LIU DA TRN CY QUYT NH

I.Tng quan v phn lp d liu trong data mining1. Phn lp d liuNgy nay phn lp d liu (classification) l mt trong nhng hng nghin cu chnh ca khai ph d liu. Thc t t ra nhu cu l t mt c s d liu vi nhiu thng tin n con ngi c th trch rt ra cc quyt nh nghip v thng minh. Phn lp v d on l hai dng ca phn tch d liu nhm trch rt ra mt m hnh m t cc lp d liu quan trng hay d on xu hng d liu tng lai. Phn lp d on gi tr ca nhng nhn xc nh (categorical label) hay nhng gi tr ri rc (discrete value), c ngha l phn lp thao tc vi nhng i tng d liu m c b gi tr l bit trc. Trong khi , d on li xy dng m hnh vi cc hm nhn gi tr lin tc. V d m hnh phn lp d bo thi tit c th cho bit thi tit ngy mai l ma, hay nng da vo nhng thng s v m, sc gi, nhit , ca ngy hm nay v cc ngy trc . Hay nh cc lut v xu hng mua hng ca khch hng trong siu th, cc nhn vin kinh doanh c th ra nhng quyt sch ng n v lng mt hng cng nh chng loi by bn Mt m hnh d on c th d on c lng tin tiu dng ca cc khch hng tim nng da trn nhng thng tin v thu nhp v ngh nghip ca khch hng. Trong nhng nm qua, phn lp d liu thu ht s quan tm cc nh nghin cu trong nhiu lnh vc khc nhau nh hc my (machine learning), h chuyn gia (expert system), thng k (statistics)... Cng ngh ny cng ng dng trong nhiu lnh vc khc nhau nh: thng mi, nh bng, maketing, nghin cu th trng, bo him, y t, gio dc... Phn ln cc thut ton ra i trc u s dng c ch d liu c tr trong b nh (memory resident), thng thao tc vi lng d liu nh. Mt s thut ton ra i sau ny s dng k thut c tr trn a ci thin ng k kh nng m rng ca thut ton vi nhng tp d liu ln ln ti hng t bn ghi.Qu trnh phn lp d liu gm hai bc: Bc th nht (learning)Qu trnh hc nhm xy dng mt m hnh m t mt tp cc lp d liu hay cc khi nim nh trc. u vo ca qu trnh ny l mt tp d liu c cu trc c m t bng cc thuc tnh v c to ra t tp cc b gi tr ca cc thuc tnh . Mi b gi tr c gi chung l mt phn t d liu (data tuple), c th l cc mu (sample), v d (example), i tng (object), bn ghi (record) hay trng hp (case). Trong tp d liu ny, mi phn t d liu c gi s thuc v mt lp nh trc, lp y l gi tr ca mt thuc tnh c chn lm thuc tnh gn nhn lp hay thuc tnh phn lp (class label attribute). u ra ca bc ny thng l cc quy tc phn lp di dng lut dng if-then, cy quyt nh, cng thc logic, hay mng nron. Qu trnh ny c m t nh trong hnh 1

Bc th hai (classification)Bc th hai dng m hnh xy dng bc trc phn lp d liu mi. Trc tin chnh xc mang tnh cht d on ca m hnh phn lp va to ra c c lng. Holdout l mt k thut n gin c lng chnh xc . K thut ny s dng mt tp d liu kim tra vi cc mu c gn nhn lp. Cc mu ny c chn ngu nhin v c lp vi cc mu trong tp d liu o to. chnh xc ca m hnh trn tp d liu kim tra a l t l phn trm cc cc mu trong tp d liu kim tra c m hnh phn lp ng (so vi thc t). Nu chnh xc ca m hnh c c lng da trn tp d liu o to th kt qu thu c l rt kh quan v m hnh lun c xu hng qu va d liu. Qu va d liu l hin tng kt qu phn lp trng kht vi d liu thc t v qu trnh xy dng m hnh phn lp t tp d liu o to c th kt hp nhng c im ring bit ca tp d liu . Do vy cn s dng mt tp d liu kim tra c lp vi tp d liu o to. Nu chnh xc ca m hnh l chp nhn c, th m hnh c s dng phn lp nhng d liu tng lai, hoc nhng d liu m gi tr ca thuc tnh phn lp l cha bit.

Trong m hnh phn lp, thut ton phn lp gi vai tr trung tm, quyt nh ti s thnh cng ca m hnh phn lp. Do vy cha kha ca vn phn lp d liu l tm ra c mt thut ton phn lp nhanh, hiu qu, c chnh xc cao v c kh nng m rng c. Trong kh nng m rng c ca thut ton c c bit tr trng v pht trin.2. Cc vn lin quan n phn lp d liu Chun b d liu cho vic phn lp : Vic tin x l d liu cho qu trnh phn lp l mt vic lm khng th thiu v c vai tr quan trng quyt nh ti s p dng c hay khng ca m hnh phn lp. Qu trnh tin x l d liu s gip ci thin chnh xc, tnh hiu qu v kh nng m rng c ca m hnh phn lp. Qu trnh tin x l d liu gm c cc cng vic sau: Lm sch d liuLm sch d liu lin quan n vic x l vi li (noise) v gi tr thiu (missing value) trong tp d liu ban u. Noise l cc li ngu nhin hay cc gi tr khng hp l ca cc bin trong tp d liu. x l vi loi li ny c th dng k thut lm trn. Missing value l nhng khng c gi tr ca cc thuc tnh. Gi tr thiu c th do li ch quan trong qu trnh nhp liu, hoc trong trng hp c th gi tr ca thuc tnh khng c, hay khng quan trng. K thut x l y c th bng cch thay gi tr thiu bng gi tr ph bin nht ca thuc tnh hoc bng gi tr c th xy ra nht da trn thng k. Mc d phn ln thut ton phn lp u c c ch x l vi nhng gi tr thiu v li trong tp d liu, nhng bc tin x l ny c th lm gim s hn n trong qu trnh hc (xy dng m hnh phn lp).

Phn tch s cn thit ca d liuC rt nhiu thuc tnh trong tp d liu c th hon ton khng cn thit haylin quan n mt bi ton phn lp c th. V d d liu v ngy trong tun hon ton khng cn thit i vi ng dng phn tch ri ro ca cc khon tin cho vay ca ngn hng, nn thuc tnh ny l d tha. Phn tch s cn thit ca d liu nhm mc ch loi b nhng thuc tnh khng cn thit, d tha khi qu trnh hc v nhng thuc tnh s lm chm, phc tp v gy ra s hiu sai trong qu trnh hc dn ti mt m hnh phn lp khng dng c. Chuyn i d liu Vic khi qut ha d liu ln mc khi nim cao hn i khi l cn thit trong qu trnh tin x l. Vic ny c bit hu ch vi nhng thuc tnh lin tc (continuous attribute hay numeric attribute). V d cc gi tr s ca thuc tnh thu nhp ca khch hng c th c khi qut ha thnh cc dy gi tr ri rc: thp, trung bnh, cao. Tng t vi nhng thuc tnh ri rc (categorical attribute) nh a ch ph c th c khi qut ha ln thnh thnh ph. Vic khi qut ha lm c ng d liu hc nguyn thy, v vy cc thao tc vo/ ra lin quan n qu trnh hc s gim.

II. Cy quyt nh ng dng trong phn lp d liu1. nh nghaTrong nhng nm qua, nhiu m hnh phn lp d liu c cc nh khoa hc trong nhiu lnh vc khc nhau xut nh mng notron, m hnh thng k tuyn tnh /bc 2, cy quyt nh, m hnh di truyn. Trong s nhng m hnh , cy quyt nh vi nhng u im ca mnh c nh gi l mt cng c mnh, ph bin v c bit thch hp cho data mining ni chung v phn lp d liu ni ring. C th k ra nhng u im ca cy quyt nh nh: xy dng tng i nhanh; n gin, d hiu. Hn na cc cy c th d dng c chuyn i sang cc cu lnh SQL c th c s dng truy nhp c s d liu mt cch hiu qu. Cui cng, vic phn lp da trn cy quyt nh t c s tng t v i khi l chnh xc hn so vi cc phng php phn lp khc.Cy quyt nh l biu pht trin c cu trc dng cy, nh m t trong hnh v sau:

Trong cy quyt nh: Gc: l node trn cng ca cy Node trong: biu din mt kim tra trn mt thuc tnh n (hnh ch nht) Nhnh: biu din cc kt qu ca kim tra trn node trong (mi tn) Node l: biu din lp hay s phn phi lp (hnh trn) phn lp mu d liu cha bit, gi tr cc thuc tnh ca mu c a vo kim tra trn cy quyt nh. Mi mu tng ng c mt ng i t gc n l v l biu din d on gi tr phn lp mu .2. Cc vn trong khai ph d liu s dng cy quyt nhCc vn c th trong khi hc hay phn lp d liu bng cy quyt nh gm: xc nh su pht trin cy quyt nh, x l vi nhng thuc tnh lin tc, chn php o la chn thuc tnh thch hp, s dng tp d liu o to vi nhng gi tr thuc tnh b thiu, s dng cc thuc tnh vi nhng chi ph khc nhau, v ci thin hiu nng tnh ton. Sau y chng ti s cp n nhng vn chnh c gii quyt trong cc thut ton phn lp da trn cy quyt nh.a. Trnh qu va d liuTh no l qu va d liu? C th hiu y l hin tng cy quyt nh cha mt s c trng ring ca tp d liu o to, nu ly chnh tp traning data test li m hnh phn lp th chnh xc s rt cao, trong khi i vi nhng d liu tng lai khc nu s dng cy li khng t c chnh xc nh vy. Qu va d liu l mt kh khn ng k i vi hc bng cy quyt nh v nhng phng php hc khc. c bit khi s lng v d trong tp d liu o to qu t, hay c noise trong d liu.C hai phng php trnh qu va d liu trong cy quyt nh: Dng pht trin cy sm hn bnh thng, trc khi t ti im phn lp hon ho tp d liu o to. Vi phng php ny, mt thch thc t ra l phi c lng chnh xc thi im dng pht trin cy. Cho php cy c th qu va d liu, sau s ct, ta cy.Mc d phng php th nht c v trc tip hn, nhng vi phng php th hai th cy quyt nh c sinh ra c thc nghim chng minh l thnh cng hn trong thc t. Hn na vic ct ta cy quyt nh cn gip tng qut ha, v ci thin chnh xc ca m hnh phn lp. D thc hin phng php no th vn mu cht y l tiu chun no c s dng xc nh kch thc hp l ca cy cui cng.b. Thao tc vi thuc tnh lin tcVic thao tc vi thuc tnh lin tc trn cy quyt nh hon ton khng n gin nh vi thuc tnh ri rc.Thuc tnh ri rc c tp gi tr (domain) xc nh t trc v l tp hp cc gi tr ri rc. V d loi t l mt thuc tnh ri rc vi tp gi tr l: {xe ti, xe khch, xe con,taxi}.Vic phn chia d liu da vo php kim tra gi tr ca thuc tnh ri rc c chn ti mt v d c th c thuc tp gi tr ca thuc tnh hay khng: value(A) X vi X domain (A). y l php kim tra logic n gin, khng tn nhiu ti nguyn tnh ton. Trong khi , vi thuc tnh lin tc (thuc tnh dng s) th tp gi tr l khng xc nh trc. Chnh v vy, trong qu trnh pht trin cy, cn s dng kim tra dng nh phn: value(A) . Vi l hng s ngng (threshold) c ln lt xc nh da trn tng gi tr ring bit hay tng cp gi tr lin nhau (theo th t sp xp) ca thuc tnh lin tc ang xem xt trong tp d liu o to. iu c ngha l nu thuc tnh lin tc A trong tp d liu o to c d gi tr phn bit th cn thc hin d-1 ln kim tra value(A) i vi i = 1..d-1 tm ra ngng best tt nht tng ng vi thuc tnh . Vic xc nh gi tr ca v tiu chun tm tt nht ty vo chin lc ca tng thut ton.3. nh gi cy quyt nh trong khai ph d liu3.1 im mnh ca vic s dng cy quyt nh Kh nng sinh ra cc quy tc hiu cCy quyt nh c kh nng sinh ra cc quy tc c th chuyn i c sang dng ting Anh, hoc cc cu lnh SQL. y l u im ni bt ca k thut ny. Thm ch vi nhng tp d liu ln khin cho hnh dng cy quyt nh ln v phc tp, vic i theo bt c ng no trn cy l d dng theo ngha ph bin v r rng. Do vy s gii thch cho bt c mt s phn lp hay d on no u tng i minh bch. Kh nng thc thi trong nhng lnh vc hng quy tciu ny c nghe c v hin nhin, nhng quy tc quy np ni chung v cy quyt nh ni ring l la chn hon ho cho nhng lnh vc thc s l cc quy tc. Rt nhiu lnh vc t di truyn ti cc qu trnh cng nghip thc s cha cc quy tc n, khng r rng (underlying rules) do kh phc tp v ti ngha bi nhng d liu li (noisy). Cy quyt nh l mt s la chn t nhin khi chng ta nghi ng s tn ti ca cc quy tc n, khng r rng. D dng tnh ton trong khi phn lpMc d nh chng ta bit, cy quyt nh c th cha nhiu nh dng, nhng trong thc t, cc thut ton s dng to ra cy quyt nh thng to ra nhng cy vi s phn nhnh thp v cc test n gin ti tng node. Nhng test in hnh l: so snh s, xem xt phn t ca mt tp hp, v cc php ni n gin. Khi thc thi trn my tnh, nhng test ny chuyn thnh cc ton hm logic v s nguyn l nhng ton hng thc thi nhanh v khng t. y l mt u im quan trng bi trong mi trng thng mi, cc m hnh d on thng c s dng phn lp hng triu thm tr hng t bn ghi. Kh nng x l vi c thuc tnh lin tc v thuc tnh ri rcCy quyt nh x l tt nh nhau vi thuc tnh lin tc v thuc tnh ri rc. Tuy rng vi thuc tnh lin tc cn nhiu ti nguyn tnh ton hn. Nhng thuc tnh ri rc tng gy ra nhng vn vi mng neural v cc k thut thng k li thc s d dng thao tc vi cc tiu chun phn chia (splitting criteria) trn cy quyt nh: mi nhnh tng ng vi tng phn tch tp d liu theo gi tr ca thuc tnh c chn pht trin ti node . Cc thuc tnh lin tc cng d dng phn chia bng vic chn ra mt s gi l ngng trong tp cc gi tr sp xp ca thuc tnh . Sau khi chn c ngng tt nht, tp d liu phn chia theo test nh phn ca ngng . Th hin r rng nhng thuc tnh tt nhtCc thut ton xy dng cy quyt nh a ra thuc tnh m phn chia tt nht tp d liu o to bt u t node gc ca cy. T c th thy nhng thuc tnh no l quan trng nht cho vic d on hay phn lp.3.2 im yu ca cy quyt nhD c nhng sc mnh ni bt trn, cy quyt nh vn khng trnh khi c nhng im yu. l cy quyt nh khng thch hp lm vi nhng bi ton vi mc tiu l d on gi tr ca thuc tnh lin tc nh thu nhp, huyt p hay li xut ngn hng, Cy quyt nh cng kh gii quyt vi nhng d liu thi gian lin tc nu khng b ra nhiu cng sc cho vic t ra s biu din d liu theo cc mu lin tc. D xy ra li khi c qu nhiu lpMt s cy quyt nh ch thao tc vi nhng lp gi tr nh phn dng yes/no hay accept/reject. S khc li c th ch nh cc bn ghi vo mt s lp bt k, nhng d xy ra li khi s v d o to ng vi mt lp l nh. iu ny xy ra cng nhanh hn vi cy m c nhiu tng hay c nhiu nhnh trn mt node. Chi ph tnh ton t o toiu ny nghe c v mu thun vi khng nh u im ca cy quyt nh trn. Nhng qu trnh pht trin cy quyt nh t v mt tnh ton. V cy quyt nh c rt nhiu node trong trc khi i n l cui cng. Ti tng node, cn tnh mt o (hay tiu chun phn chia) trn tng thuc tnh, vi thuc tnh lin tc phi thm thao tc xp xp li tp d liu theo th t gi tr ca thuc tnh . Sau mi c th chn c mt thuc tnh pht trin v tng ng l mt phn chia tt nht. Mt vi thut ton s dng t hp cc thuc tnh kt hp vi nhau c trng s pht trin cy quyt nh. Qu trnh ct ct cy cng t v nhiu cy con ng c phi c to ra v so snh.

Chng II. GII THUT QUY NP CY QUYT NH ID3

I.Gii thiu Gii thut quy np cy quyt nh ID3 (gi tt l ID3) l mt gii thut hc n gin nhng t ra thnh cng trong nhiu lnh vc. ID3 l mt gii thut hay v cch biu din tri thc hc c ca n, tip cn ca n trong vic qun l tnh phc tp, heuristic ca n dng cho vic chn la cc khi nim ng vin, v tim nng ca n i vi vic x l d liu nhiu. ID3 biu din cc khi nim (concept) dng cc cy quyt nh (decision tree). Biu din ny cho php chng ta xc nh phn loi ca mt i tng bng cch kim tra cc gi tr ca n trn mt s thuc tnh no . Nh vy, nhim v ca gii thut ID3 l hc cy quyt nh t mt tp cc v d rn luyn (training example) hay cn gi l d liu rn luyn (training data). Hay ni khc hn, gii thut c: u vo: Mt tp hp cc v d. Mi v d bao gm cc thuc tnh m t mt tnh hung, hay mt i tng no , v mt gi tr phn loi ca n. u ra: Cy quyt nh c kh nng phn loi ng n cc v d trong tp d liu rn luyn, v hy vng l phn loi ng cho c cc v d cha gp trong tng lai. V d, chng ta hy xt bi ton phn loi xem ta c i chi tennis ng vi thi tit no khng. Gii thut ID3 s hc cy quyt nh t tp hp cc v d sau:

Tp d liu ny bao gm 14 v d. Mi v d biu din cho tnh trng thi tit gm cc thuc tnh quang cnh, nhit , m v gi; v u c mt thuc tnh phn loi chi Tennis (c, khng). Khng ngha l khng i chi tennis ng vi thi tit , C ngha l ngc li. Gi tr phn loi y ch c hai loi (c, khng), hay cn ta ni phn loi ca tp v d ca khi nim ny thnh hai lp (classes). Thuc tnh Chi tennis cn c gi l thuc tnh ch (target attribute). Mi thuc tnh u c mt tp cc gi tr hu hn. Thuc tnh quang cnh c ba gi tr (m u, ma, nng), nhit c ba gi tr (nng, mt, m p), m c hai gi tr (cao, TB) v gi c hai gi tr (mnh, nh). Cc gi tr ny chnh l k hiu (symbol) dng biu din bi ton. T tp d liu rn luyn ny, gii thut ID3 s hc mt cy quyt nh c kh nng phn loi ng n cc v d trong tp ny, ng thi hy vng trong tng lai, n cng s phn loi ng cc v d khng nm trong tp ny. Mt cy quyt nh v d m gii thut ID3 c th quy np c l:

Cc nt trong cy quyt nh biu din cho mt s kim tra trn mt thuc tnh no , mi gi tr c th c ca thuc tnh tng ng vi mt nhnh ca cy. Cc nt l th hin s phn loi ca cc v d thuc nhnh , hay chnh l gi tr ca thuc tnh phn loi. Sau khi gii thut quy np c cy quyt nh, th cy ny s c s dng phn loi tt c cc v d hay th hin (instance) trong tng lai. V cy quyt nh s khng thay i cho n khi ta cho thc hin li gii thut ID3 trn mt tp d liu rn luyn khc. ng vi mt tp d liu rn luyn s c nhiu cy quyt nh c th phn loi ng tt c cc v d trong tp d liu rn luyn. Kch c ca cc cy quyt nh khc nhau ty thuc vo th t ca cc kim tra trn thuc tnh. Vy lm sao hc c cy quyt nh c th phn loi ng tt c cc v d trong tp rn luyn? Mt cch tip cn n gin l hc thuc lng tt c cc v d bng cch xy dng mt cy m c mt l cho mi v d. Vi cch tip cn ny th c th cy quyt nh s khng phn loi ng cho cc v d cha gp trong tng lai. V phng php ny cng ging nh hnh thc hc vt, m cy khng h hc c mt khi qut no ca khi nim cn hc. Vy, ta nn hc mt cy quyt nh nh th no l tt? Occams razor v mt s lp lun khc u cho rng gi thuyt c kh nng nht l gi thuyt n gin nht thng nht vi tt c cc quan st, ta nn lun lun chp nhn nhng cu tr li n gin nht p ng mt cch ng n d liu ca chng ta. Trong trng hp ny l cc gii thut hc c gng to ra cy quyt nh nh nht phn loi mt cch ng n tt c cc v d cho. Trong phn k tip, chng ta s i vo gii thut ID3, l mt gii thut quy np cy quyt nh n gin tha mn cc vn va nu. II. Gii thut ID3 xy dng cy quyt nh t trn xung ID3 xy dng cy quyt nh (cy Q) theo cch t trn xung. Lu rng i vi bt k thuc tnh no, chng ta cng c th phn vng tp hp cc v d rn luyn thnh nhng tp con tch ri, m mi v d trong mt phn vng (partition) c mt gi tr chung cho thuc tnh . ID3 chn mt thuc tnh kim tra ti nt hin ti ca cy v dng trc nghim ny phn vng tp hp cc v d; thut ton khi xy dng theo cch quy mt cy con cho tng phn vng. Vic ny tip tc cho n khi mi thnh vin ca phn vng u nm trong cng mt lp; lp tr thnh nt l ca cy. V th t ca cc trc nghim l rt quan trng i vi vic xy dng mt cy Q n gin, ID3 ph thuc rt nhiu vo tiu chun chn la trc nghim lm gc ca cy. n gin, phn ny ch m t gii thut dng xy dng cy Q, vi vic gi nh mt hm chn trc nghim thch hp. Phn k tip s trnh by heuristic chn la ca ID3. V d, hy xem xt cch xy dng cy Q ca ID3 t v d trc

Bt u vi bng y gm 14 v d rn luyn, ID3 chn thuc tnh quang cnh lm thuc tnh gc s dng hm chn la thuc tnh m t trong phn k tip. Trc nghim ny phn chia tp v d nh cho thy trong hnh 9.2 vi phn t ca mi phn vng c lit k bi s th t ca chng trong bng.

ID3 p dng hm induce_tree mt cch quy cho tng phn vng. V d, phn vng ca nhnh m u c cc v d ton dng, hay thuc lp C, nn ID3 to mt nt l vi nhn l lp C. Cn phn vng ca hai nhnh cn li va c v d m, va c v d dng. Nn tip tc chn thuc tnh m lm trc nghim cho nhnh Nng, v thuc tnh Gi cho nhnh Ma, v cc v d trong cc phn vng con ca cc nhnh cy ny u thuc cng mt lp, nn gii thut ID3 kt thc v ta c c cy Q nh sau Lu , phn loi mt v d, c khi cy Q khng cn s dng tt c cc thuc tnh cho, mc d n vn phn loi ng tt c cc v d. * Cc kh nng c th c ca cc phn vng (partition): Trong qu trnh xy dng cy Q, phn vng ca mt nhnh mi c th c cc dng sau: C cc v d thuc cc lp khc nhau, chng hn nh c c v d m v dng nh phn vng Quang cnh = Nng ca v d trn => gii thut phi tip tc tch mt ln na. Tt c cc v d u thuc cng mt lp, chng hn nh ton m hoc ton dng nh phn vng Quang cnh = m u ca v d trn => gii thut tr v nt l vi nhn l lp . Khng cn v d no => gii thut tr v mc nhin Khng cn thuc tnh no => ngha l d liu b nhiu, khi gii thut phi s dng mt lut no x l, chng hn nh lut a s (lp no c nhiu v d hn s c dng gn nhn cho nt l tr v). T cc nhn xt ny, ta thy rng c mt cy Q n gin, hay mt cy c chiu cao l thp, ta nn chn mt thuc tnh sao cho to ra cng nhiu cc phn vng ch cha cc v d thuc cng mt lp cng tt. Mt phn vng ch c v d thuc cng mt lp, ta ni phn vng c tnh thun nht. Vy, chn thuc tnh kim tra c th gim thiu chiu su ca cy Q, ta cn mt php o o tnh thun nht ca cc phn vng, v chn thuc tnh kim tra to ra cng nhiu phn vng thun nht cng tt. ID3 s dng l thuyt thng tin thc hin iu ny. III. Thuc tnh no l thuc tnh dng phn loi tt nht? Quinlan (1983) l ngi u tin xut vic s dng l thuyt thng tin to ra cc cy quyt nh v cng trnh ca ng l c s cho phn trnh by y. L thuyt thng tin ca Shannon (1948) cung cp khi nim entropy o tnh thun nht (hay ngc li l pha trn) ca mt tp hp. Mt tp hp l thun nht nu nh tt c cc phn t ca tp hp u thuc cng mt loi, v khi ta ni tp hp ny c pha trn l thp nht. Trong trng hp ca tp v d, th tp v d l thun nht nu nh tt c cc v d u c cng gi tr phn loi. Khi tp v d l thun nht th c th ni: ta bit chc chn v gi tr phn loi ca mt v d thuc tp ny, hay ta c lng thng tin v tp l cao nht. Khi tp v d c pha trn cao nht, ngha l s lng cc v d c cng gi tr phn loi cho mi loi l tng ng nhau, th khi ta khng th on chnh xc c mt v d c th c gi tr phn loi g, hay ni khc hn, lng thng tin ta c c v tp ny l t nht. Vy, iu ta mong mun y l lm sao chn thuc tnh hi sao cho c th chia tp v d ban u thnh cc tp v d thun nht cng nhanh cng tt. Vy trc ht, ta cn c mt php o o thun nht ca mt tp hp, t mi c th so snh tp v d no th tt hn. Phn k tip s trnh by cng thc tnh entropy ca mt tp hp. 1. Entropy o tnh thun nht ca tp v dKhi nim entropy ca mt tp S c nh ngha trong L thuyt thng tin l s lng mong i cc bt cn thit m ha thng tin v lp ca mt thnh vin rt ra mt cch ngu nhin t tp S. Trong trng hp ti u, m c di ngn nht. Theo l thuyt thng tin, m c di ti u l m gn log2p bits cho thng ip c xc sut l p. Trong trng hp S l tp v d, th thnh vin ca S l mt v d, mi v d thuc mt lp hay c mt gi tr phn loi. Entropy c gi tr nm trong khong [0..1], Entropy(S) = 0 tp v d S ch ton v d thuc cng mt loi, hay S l thun nht. Entropy(S) = 1 tp v d S c cc v d thuc cc loi khc nhau vi pha trn l cao nht. 0 < Entropy(S) < 1 tp v d S c s lng v d thuc cc loi khc nhau l khng bng nhau. n gin ta xt trng hp cc v d ca S ch thuc loi m (-) hoc dng (+).

Cho trc: Tp S l tp d liu rn luyn, trong thuc tnh phn loi c hai gi tr, gi s l m (-) v dng (+) p+ l phn cc v d dng trong tp S. p- l phn cc v d m trong tp S. Khi , entropy o pha trn ca tp S theo cng thc sau: Entropy(S) = -p+log2p+ - p-log2p-Mt cch tng qut hn, nu cc v d ca tp S thuc nhiu hn hai loi, gi s l c c gi tr phn loi th cng thc entropy tng qut l:

Entropy(S) = 2. Lng thng tin thu c o mc gim entropy mong i Entropy l mt s o o pha trn ca mt tp v d, by gi chng ta s nh ngha mt php o hiu sut phn loi cc v d ca mt thuc tnh. Php o ny gi l lng thng tin thu c, n n gin l lng gim entropy mong i gy ra bi vic phn chia cc v d theo thuc tnh ny. Mt cch chnh xc hn, Gain(S,A) ca thuc tnh A, trn tp S, c nh ngha nh sau:

Trong Values(A) l tp hp c th c cc gi tr ca thuc tnh A, v Sv l tp con ca S cha cc v d c thuc tnh A mang gi tr v. Tr li v d ban u, nu khng s dng Entropy xc nh thun nht ca v d th c th xy ra trng hp cy quyt nh c chiu cao ln. Ta p dng phng thc tnh Entropy xc nh chc chn thuc tnh no c chn trong qu trnh to cy quyt nhu tin ta tnh thun nht ca tp d liu:Entropy(S) = - (9/14) Log2 (9/14) - (5/14) Log2 (5/14) = 0.940T ta tnh tip Gain cho tng thuc tnh suy ra thuc tnh no c chn lm nt gcGain(S, Quang cnh) = Entropy(S) (5/14)Entropy(SNng) (4/14)Entropy(Sm u) (5/14) Entropy(SMa) = 0.246Tng t cho cc Gain khc:Gain(S, Nhit ) = 0.029Gain(S, m) = 0.151Gain(S, Gi) = 0.048Ta thy Gain(S, Quang cnh) l ln nht ly thuc tnh quang cnh lm nt gc

Sau khi lp c cp u tin ca cy quyt nh ta li xt nhnh NngTip tc ly Entropy v Gain cho nhnh Nng ta c hiu sut nh sau:Gain(SNng, m) = 0.970Gain(SNng, Nhit ) = 0.570Gain(SNng, Gi) = 0.019Nh vy thuc tnh m c hiu sut phn loi cao nht trong nhnh Nng ta chn thuc tnh m lm nt k tip .Tng t nh vy i vi nhnh cn li ca cy quyt nh ta c cy quyt nh hon chnh nh sau

IV.Tm kim khng gian gi thuyt trong ID3 Cng nh cc phng php hc quy np khc, ID3 cng tm kim trong mt khng gian cc gi thuyt mt gi thuyt ph hp vi tp d liu rn luyn. Khng gian gi thuyt m ID3 tm kim l mt tp hp cc cy quyt nh c th c. ID3 thc hin mt php tm kim t n gin n phc tp, theo gii thut leo-ni (hill climbing), bt u t cy rng, sau dn dn xem xt cc gi thuyt phc tp hn m c th phn loi ng cc v d rn luyn. Hm nh gi c dng hng dn tm kim leo ni y l php o lng thng tin thu c. T cch nhn ID3 nh l mt gii thut tm kim trong khng gian cc gi thuyt, ta c mt s nhn xt nh sau: Khng gian gi thuyt cc cy quyt nh ca ID3 l mt khng gian y cc cy quyt nh trn cc thuc tnh cho trong tp rn luyn. iu ny c ngha l khng gian m ID3 tm kim chc chn c cha cy quyt nh cn tm. Trong khi tm kim, ID3 ch duy tr mt gi thuyt hin ti. V vy, gii thut ny khng c kh nng biu din c tt c cc cy quyt nh khc nhau c kh nng phn loi ng d liu hin c.

Gii thut thun ID3 khng c kh nng quay lui trong khi tm kim. V vy, n c th gp phi nhng hn ch ging nh gii thut leo ni, l hi t v cc tiu a phng. V ID3 s dng tt c cc v d mi bc a ra cc quyt nh da trn thng k, nn kt qu tm kim ca ID3 rt t b nh hng bi mt vi d liu sai (hay d liu nhiu). Trong qu trnh tm kim, gii thut ID3 c xu hng chn cy quyt nh ngn hn l nhng cy quyt nh di. y l tnh cht thin lch quy np ca ID3. V.nh gi hiu sut ca cy quyt nh: Mt cy quyt nh sinh ra bi ID3 c nh gi l tt nu nh cy ny c kh nng phn loi ng c cc trng hp hay v d s gp trong tng lai, hay c th hn l c kh nng phn loi ng cc v d khng nm trong tp d liu rn luyn. nh gi hiu sut ca mt cy quyt nh ngi ta thng s dng mt tp v d tch ri, tp ny khc vi tp d liu rn luyn, nh gi kh nng phn loi ca cy trn cc v d ca tp ny. Tp d liu ny gi l tp kim tra (validation set). Thng thng, tp d liu sn c s c chia thnh hai tp: tp rn luyn thng chim 2/3 s v d v tp kim tra chim 1/3. VI. Chuyn cy v cc lut Thng thng, cy quyt nh s c chuyn v dng cc lut thun tin cho vic ci t v s dng. V d cy quyt nh cho tp d liu rn luyn c th c chuyn thnh mt s lut nh sau :

If (Quang-cnh =nng) ^ ( m = Cao) Then Chi-Tennis = No If (Quang-cnh =nng) ^ ( m = TB) Then Chi-Tennis = Yes If (Quang-cnh =m u) Then Chi-Tennis = Yes

VII. Khi no nn s dng ID3 Gii thut ID3 l mt gii thut hc n gin nhng n ch ph hp vi mt lp cc bi ton hay vn c th biu din bng k hiu. Chnh v vy, gii thut ny thuc tip cn gii quyt vn da trn k hiu (symbol based approach). Tp d liu rn luyn y bao gm cc v d c m t bng cc cp Thuc tnh gi tr, nh trong v d Chi tennis trnh by trong sut chng ny, l Gi mnh, hay Gi nh, v mi v d u c mt thuc tnh phn loi, v d nh chi_tennis, thuc tnh ny phi c gi tr ri rc, nh c, khng. Tuy nhin, khc vi mt s gii thut khc cng thuc tip cn ny, ID3 s dng cc v d rn luyn dng xc sut nn n c u im l t b nh hng bi mt vi d liu nhiu. V vy, tp d liu rn luyn y c th cha li hoc c th thiu mt vi gi tr mt s thuc tnh no . Mt gii php thng c p dng i vi cc d liu b thiu l s dng lut a s, chng trnh tin x l d liu s in vo cc v tr cn trng gi tr c tn s xut hin cao nht ca thuc tnh . Bn cnh cc vn c bn c trnh by trong phn ny, ID3 cn c tho lun nhiu vn lin quan nh lm sao trnh cho cy quyt nh khng b nh hng qu nhiu (overfitting) vo d liu rn luyn, n c th tng qut hn, phn loi ng c cho cc trng hp cha gp. C nhiu gii php c a ra nh ct ta li cy quyt nh sau khi hc, hoc ct ta cc lut sau khi chuyn cy v dng lut. Mt vn khc na l nu nh mt vi thuc tnh no c gi tr lin tc th sao. Gii quyt cc vn ny dn n vic sinh ra nhiu th h sau ca ID3, mt gii thut ni bt trong s l C4.5 (Quinlan 1996). Ngoi ra, mt s k thut c to ra thao tc trn d liu nhm to ra cc cy quyt nh khc nhau trn cng tp d liu rn luyn cho nh k thut bagging and boosting.

Bi tp ln l thuyt nhn dng_nhm 20Page 5