Phân loại văn bản

Embed Size (px)

Citation preview

  • 8/7/2019 Phn loi vn bn

    1/17

    Phn loi vn bn

    Chng ny s gii thiu v mt vn quan trng ca X l ngn ng t nhin, l phn loivn bn, v cung cp mt quan im chung nht v phn loi, bao gm tng th cc k thutphn loi quan trng m cha c ni n bt k ch no trong cun sch ny. Phn loi hay

    phn lp l mt nhim v gn cc i tng t mt tp hp rt ln vo hai hay nhiu lp.Cc vd c th hin trong bng 16.1.

    Nhiu k thut m chng ta nghin cu chi tit nh gn nh t loi, word sensedisambiguation v prepositional phrase attachment l nhng nhim v phn loi. Trong gn nhnv disambiguation, chng ta xem t l ni dung v phn lp chng vo mt th hin ca mttrong nhng nhn t loi (POS) c th ca chng hoc mt th hin ca mt trong nhng nghaca chng. Trong PP attachment, hai lp l hai attachment khc nhau. Hai nhim v phn lptrong x l ngn ng khc l xc nh tc gi v ngn ng. Xc nh xem mt bi th mi ctm thy c phi c vit bi Shakkespeare hay khng hay bi mt tc gi no khc l mt vd v xc nh tc gi. Mt b xc nh ngn ng c gng t ngn ng ca mt vn bn khng

    bit ngun gc c vit trong phn bi tp 16.6

    Trong chng ny, chng ta s tp trung vo mt vn phn loi khc, phn loi vn bn. Mcch ca phn loi vn bn l xc nh ch ca mt vn bn. Mt tp hp cc loi ch ltp cc ch c s dng bi Reuters m chng ta s gii thiu ngn gn y. Mt vi ch l sp nhp v mua li, la m, du th, v bo bo ti chnh . Mt ng dng ca vic phnloi vn bn l lc mt lung tin tc cho mt nhm mong mun c th. V d, mt nh bo tichnh ch mun xem nhng vn bn m c gn vo ch sp nhp v mua li.

    Ni chung, vn ca vic phn lp theo phn php thng k c c t nh sau. Chng ta cmt tp hun luyn, mi phn t trong tp hun luyn c gn vo mt hoc nhiu lp, mchng ta s th hin chng bng mt m hnh m ho. Thng thng mi phn t trong tp hunluyn c th hin theo dng (,c) trong , l mt vector n chiu o lng gi trca phn t v c l nhn lp m phn t thuc v. i vi phn loi vn bn, m hnh khnggian vector truy hi thng tin c s dng thng xuyn nh l s biu din d liu. V d, mivn bn c biu din nh mt vector ca vic m s t (cn gi l vector trng s) trong vd15.2. Cui cng, chng ta nh ngha nh ngha mt lp m hnh v mt th tc hun luyn.

  • 8/7/2019 Phn loi vn bn

    2/17

    Lp m hnh l mt nhm cc b phn loi c tham s ho v th tc hun luyn chn ra mtb phn loi t nhm . Mt v d ca mt nhm cho vic s phn loi nh phn l b phn loituyn tnh m c dng nh sau :

    Trong , chng ta chn lp c1 i vi v lp c2 i vi , nhm cc b phnlp ny c tham s ho bi vector v ngng w0.

    15.2 M hnh khng gian vector

    M hnh khng gian vector l mt trong nhng m hnh c s dng rng ri nht cho vic tmkim (truy hi) c bit, ch yu bi v s n gin v khi nim ca n v s ku gi (appeal)ca nhng n c bn ca vic s dng s gn gi v khng gian cho s gn gi v ng ngha.Cc vn bn v nhng truy vn c th hin trong mt khng gian c s chiu ln, trong mi chiu ca khng gian tng ng vi mt t trong tp hp vn bn. Nhng vn bn lin quannht cho mt truy vn l chng c th hin bi nhng vector gn nht i vi truy vn, l, nhng vn bn m s dng nhng t tng t i vi truy vn. Thay v xem xt ln cavector, s gn (ca t) thng c tnh ton ch bng cch xem xt cc gc v chn ranhng vn bn m c gc nh nht vi vector truy vn.

    Trong v d sau, chng ta th hin mt khng gian truy vn vi 2 chiu lin quan n car (xe hi)

    v ensurance (bo hnh). Nhng thc th ny v truy vn vn q c biu din trong khng gianbi vector (0.71,0.71) v 3 vector vn bn d1,d2,d3 vi cc to (0.13,0.99), (0.8,0.6) v(0.99,0.13). Nhng trng s ca cc thut ng v cc to c tnh ton t s xut hin cachng. Vi d, t ensurance c th ch c 1 tham chiu trong d1, nhng li c n vi ln xuthin trong t car, do , trong s thp cho insurance v trng s cao cho t car. (trong vic truyhi thng tin tin t term ch nh ca t v ng. Chng ta ni l trong s ca term thay v trngs ca word bi vi cc chiu trong m hnh khng gian vector c th tng ng vi cc ng)

  • 8/7/2019 Phn loi vn bn

    3/17

    Trong v d trn, vn bn d2 c gc thp nht vi q v n s l vn bn c xp hng cao nhptrong qun trnh p tr cu truy vn q cho car v insurance. iu ny l bi v ca hai khi ni(car v insurance) u c cha nhiu trong d2 v do chng c trng s cao nht. Hai vnbn khc u c cha ng hai thut ng , nhng mi ci trong chng u khng phi l thutng quan trng trung tm trong vn bn.

    15.2.1 Vector tng ng

    truy hi thng tin trong m hinh khng gian vector,cc vn bn phi c xp hng theo stng ng vi truy vn c o lng bi hm cos hoc h s tng quan c chun ho.Chng ta gii thiu nh l mt php o cho tng ng vector trong phn 8.5.1 v nhngha c lp li nh sau :

    Trong v cc vector n chiu trong khng gian gi tr thc, khng gian ca tt c cc thutng trong trng hp ca m hnh khong gian vector. Chng ta tnh ton s xut hin ca thutng i (c o lng bi qi v di) tng ng trong truy vn v trong vn bn, sau chiatheochiu di Euclid ca hai vector co dn ln ca tng vector qi v di ring bit.

    o hiu xut (recall) (8.5.1) m hm cosine v khong cch Euclid s lm tng th hng chocc vector chun ho.

    Khi cho mt vector truy vn c th v vn bn d1 va d2, chng ta s c :

    Cng thc trn ni rng xp hng l ging nhau ( y chng ta li gi nh rng vector cchun ho)

  • 8/7/2019 Phn loi vn bn

    4/17

    Nu vector c chun ho chng ta c th tnh cosin nh mt gi tr thc n gin. S chunho c xem chung nh l mt cch tt tri ngc vi nhng vector di hn (ph thuc vochiu di vn bn) th s ko thun li bng v s c c xp hng cao hn nhng vector ngn

    hn (mt bi tp th hin nhng vector trong figure 15.3 c chun ho, l,

    15.2.2 Khi nim trng s

    By gi chng ta chuyn qua cu hi l nh th no tnh trng s cho nhng t trong m hnhkhng gian vector. Mt cch n gin l n s lng t trong vn vn, nhng vn c nhiucch hu hiu hn tnh trng lng cho cc thut ng.

    Thng tin c bn c s dng tnh trng lng cho thut ng l tn sut thut ng (s lnxut hin ca thut ng trong mt vn bn), tn sut vn bn (s vn bn c cha thut ng) v

    i khi l tn sut tp hp (s ln xut hin ca thut ng trong tp hp). Ch rng, v

    . Mt iu quan trng cn ch na l df v cf ch c th c s dng nu c mttp hp. Gi nh ny khng phi lun ng, v d nu cc tp hp c to mt cch t ngbng cch chn cc CSDL t mt tp rt ln (nh l trng hp mt trong cc dch v thng tintrc tuyn), v ghp chng li thnh mt tp tm.

    Thng tin c nm bt bi tn sut thut ng (tf) th l cch ni bt ca mt thut ng trongmt vn bn.Tn sut thut ng cng cao (thng l s ln xut hin cng nhiu), th l nhng

    t miu t cng tt cho ni dung ca vn bn. Tn sut thut ng thng c tnh bi cng thc

    ging nh , bi v s ln xut hin nhiu ca mt tch nh s quan trng nhiu hn, nhng khng phi l s quan lin quan nh php m

    undampened s xut. V d, phn nh tt hn s quan trng ca mt t vi 3ln xut hin hn l gi tr 3 ca chnh n. Ti liu th phn no quan trng hn mt ti liu vi mt sxut hin nhng khng phi 3 ln quan trng.

    Gi t th hai, tn s vn bn (document frequency), c th gii thch nh l mt b ch nh ni dungthng tin. Mt t c tp trung ng ngha thng xy ra nhiu ln trong mt vn bn nu n cng xut

    hin trong tt c cc vn bn khc. Nhng t khoogn c tp trung ng ngha tri ra ng nht trong ttc cc vn bn. Mt v d trong mt kho ng liu ca bo New York Times th t try v insurance xuthin nh sau

  • 8/7/2019 Phn loi vn bn

    5/17

    Hai t c cng tn sut tp hp (cf), s ln xut hin trong tp hp vn bn. Nhng t Insurancexut hin ch trong mt na so vi hu ht vn bn nh t try. iu ny l bi v t try c thc s dng trong hu ht cc ch , tri ngc vi t try, t insurance m ch n mt khinim c nh ngha hp m ch lin quan n mt tp nh cc ch . Mt thuc tnh khc canhng t c tp trung ng ngha l, nu chng xut hin trong mt vn bn, th chng sxut hin vi ln. T Insurance xut hin khong 3 ln trong mt vn bn, trung bnh trn tt ccc vn bn n xut hin t nht mt ln. iu n gin l v s tht l hu ht cc bi vit v bo

    him (insurance) y t, bo him xe hay cc ch tng t s m ch nhiu ln n khi nimbo him.

    Mt cch kt ni tn xut thut ng tfi,j v tn xut vn bn dfi vo trong mt trng s duynht l theo cng thc sau :

    Trong , N l tng s vn bn. Mnh th nht p dng cho cc t c xut hin trong vn bn,

    cn biu thc th hai cho cc t khng xut hin trong vn bn.Tn sut vn bn (document frequency) cng c co gin theo php logarit. Hm

    a ra trng s y cho nhng t xut hin trong mt vn bn. Mt t m xut hin trong tt c cc vn bn s nhn c

    trng s 0 .

    Dng thc ny ca vic tnh trng s tn sut vn bn (document frequency) thng c gi ltn sut vn bn ngc (inverse document) hay trng s idf. Ni chung, m hnh tnh trng strong cng thc trn l mt vi d ca mt h ln cc cng thc c gi l gin trng stf.idf. Mi gin c th c c trng ho bi vic tnh trng s s xut hin ca thut ng,tnh trng s tn sut vn bn v s chun ho ca n.

    Trong mt s miu t gin , chng ta gn mt m k t cho mi thnh phn ca gin tf.idf.Gin trong hnh trn c th c miu t nh l ltn, trong l l trong s m s xut hin theologarit, t l trong s tn sut vn bn v n l khng c sa chun ho. Cng c nhiu kh nngkh nng tnh trng s khc c lit k trong bng sau :

  • 8/7/2019 Phn loi vn bn

    6/17

    V d, ann l trng s xut hin tng cng, khng c trng s tn sut vn bn v khng c schun ho. CHng ta m ch n s chun ho chiu di vector nh l s chun ho cosin, bi vkt qu bn trong gia hai vector c chun ho chiu di (n v o lng s tng ng truyvn vn bn c s dng trong m hnh khng gian vector) l gi tr cosine. Nhiu gin khcnhau c th c p dng cho nhng truy vn v cc vn bn. Trong tn ltc.lnn, mt na mch cho trng s vn bn,mt m ch cho trng s truy vn, mt cach tng ng.

    H cc gin trng s trong bng trn thi thnh thong c xem nh l mt cch c bit biv n khng trc tip c dn xut t mt m hnh ton hc ca s phn phi thut hoc s lin

    quan thut ng. Tuy nhin, nhng gin ny th hu hiu trong thc t v trong cng vic mtcch mnh m trong m loi cc ng dng. V l do ny, chng thng c s dng trong cctnh hung m mt n v o tng t th s gia cc vector ca php m l cn thit.

    Chng ta c th xem th tc hun luyn nh l nhng gii thut cho hm thch nghi, m dng tm kim mt b cc gi tr tham s tt, trong , tt ca b tham s c xc nh bi iukin ti u ho nh t l phn lp sai hay mt thng tin. Cc th tc hun luyn m bo tmra c b tham s ti u. Tuy nhin, nhiu th tc hun luyn lp nhiu ln cng ch m botm ra c mt b tham s tt hn trong mi ln lp. Nu chng bt u ti im sai ca khnggian tm kim, chng s mc kt trong nhng phn ti u cc b v khng th tm c im ti

    u ton cc. Mt v d ca th tc hun luyn cho cc b phn loi tuyn tnh l gii thutgradient descent v hill climbing m s c gii thiu bn di trong perceptrons.

    Mt khi chng ta chn c cc tham s cho b phn loi (hoc c th ni rng b phn loi c hun luyn), mt tng hay l xem n s lm vic trn b d liu test nh th no. Bd liu test ny khng nn cha d liu c s dng trong b hun luyn. Tht tm thng phn loi tt d liu c hun luyn. Vic kim tra thc s l mt s nh gi trn mttp d liu cha c bit v th l s o lng duy nht cho bit kh nng thc s ca mtng dng.

    i vi vic phn lp nh phn (tuyn tnh), nhng b phn lp thng c nh gi bng schs dng bng m nh sau :

  • 8/7/2019 Phn loi vn bn

    7/17

    Mt s o lng quan trng l ng n ca vic phn loi (accuracy) c o bng cng

    thc

    (t l cc i tng c phn lp ng). Cc o khc, t l cc i tng c

    n l ng chnh xc (precious)

    , nhy hiu xut(recall)

    , t l gn sai fallout

    .

    8.1 Cc o nh gi

    Mt s pht trin quan trng gn y trong x l ngn ng l vic s dng nhiu tiu chunnghim ngt cho vic nh gi cc h thng x l ngn ng. Nthngng rngcccuc biutnhcui cngcathnh cnglci thin hiu suthintil mt nhim vng dng, cmsalichnh t, tm ttcc qung covic lm,hocbt c iu g. Tuy nhin, trong khi pht trin hthng, thng thng thun tin cho vic nh gi cc thnh phn ca h thng da trn imkh nng nhn to (nh l s hn lon), s ci tin, trong ngi ta c thmong icphn nhtronghiu suttt hnchoton b h thngtrnmtnhim vng dng.

    S nh gi trong vic truy hi thng tin to nn vic s dng thng xuyn cc khi nim v chnh xc v nhy, v vic s dng chng cho cc nhim v trong vic nh gi nhng mhnh x l ngn ng theo phng php thng k. i vi nhiu vn , chng ta c mt tp ccmc tiu (v d, nhng vn bn lin quan n mc tiu, hoc nhng cu m trong mt t c ngha c th) cha bn trong mt tp ln hn. Sau , h thng quyt nh mt tp c chn(nhng vn bn m n ngh l lin quan, hoc nhng cu m n ngh chc chn rng ngha camt t l ng.). Tnh hnh ny c th hin trong hnh 8.1. S phn nhm mc tiu v cla chn c th la s suy ngh ca nhng bin ngu nhin c ch nh, v s phn b chungca hai bin c th c th hin nh l mt ma trn 2x2.

  • 8/7/2019 Phn loi vn bn

    8/17

    Nhng con s trong mi th hin mt tn s hoc s lng ca nhng phn t trong mi vngca khng gian ang xt. Cc trng hp cho kt qu l tp (true positives nhng khng nhng, c chn v ng) v tn (true negatives nhng ph nh ng, ko c chn v ng) lnhng trng hp m h thng nhn din ng. Nhng trng hp c chn l sai trong fpc gi l khng nh sai (false positives), nhng chp nhn sai hay nhng li loi II (cchn nhng sai). Nhng trng hp trong fn m sai do chn c gi l ph nh sai, loi bsai hay li loi I (loi b ko chn nhng sai)

    chnh xc c nh ngha l mt s o lng ca t l ca nhng phn t c chn v

    nhng phn t c chn ng

    Hiu xut c nh ngha l t l gia nhng phn t c chn ng vi cc phn t mc tiu

    Trong nhng ng dung truy hi thng tin, ngi ta thng cn bng gia chnh xc v hiuxut(ngi ta c th chn mi vn bn trong mt tp v t c 100% hiu xut nhng chnh xc rt thp). S cn bng ny c phc ho bng mt ng cong th hin chnh xcv hiu xut, v d nh sau :

  • 8/7/2019 Phn loi vn bn

    9/17

    i khi s cn bng ny khng lm nn nhiu ngha trong nhng ng dng x l ngn ng tnhin, nhng trong nhiu tnh hung c nhiu phn t m mt phn t chc chn hn nhngphn t khc (nh l trong vic hc b khung phn loi nhm con trong phn 8.2), nhng c hitng t cho s tn ti kh nng s cn bng gia quyt nh v hiu xut.

    V l do ny m thun tin ngi ta kt hp hai o ny li vo mt n v o lng duynht ca kh nng tng qut. Cch lm iu ny l n v o lng F, mt bin n v olng E c gii thiu bi van Rijsbergen trong : F = 1 E. n v o lng F c nhngha nh sau :

    Trong , P l chnh xc (precious), R l hiu xut (recall) v E l mt h s xc nh s cn

    bng ca quyt nh v xc xut. Gi tr E=5 thng c chn cho s cn bng gia P v R.Vi gi tr ny, o F c tnh n gin l .

    Vic s dng chnh xc v hiu xut, ngi ta c th a ra mt chi ph khc mt nhngphn t mc tiu v chn nhng phn t rc.

    Mt o t c s dng nht l sai (fallout), t l gia s lng phn t c chn l saiso vi nhng phn t chn sai v nhng phn t sai thc.

    Fallout thnh thong c s dng o kh khi xy dng mt h thng

    Trong nhng nhim v phn lp vi nhiu hn 2 lp, ngi ta bt u bng cch to mt bng2x2 cho mi lp ci ring bit (nh gi ci so vi not ci). Sau c 2 cch tin hnh. Mt ltnh ton gi tr o lng nh gi nh chnh xc cho mi bng mt cch ring bit, sau tnh trung gi tr o lng cho tt c cc lp c c mt gi tr o lng tng qut ca hiunng. Tin trnh ny c gi l trung bnh cc i (macro-average). Mt cch khc c th lml trung bnh cc tiu (micro_average), trong , u tin ngi ta to mt bng n cho tt c

    d liu bng cch tnh tng im ca mi trong tt c cc lp. Sau gi tr o lng c chomt bng ln. Gi tr trung bnh cc i (macro average) s a ra trng s cho mi lp, trongkhi gi tr trung bnh cc tiu a ra trng s cho mi i tng. Hai loi gi t trung bnh nyc th a ra hai kt qu tri ngc nhau khi chnh xc c tnh trung bnh trn tt c cclp vi nhiu kch thc khc nhau. chnh xc trung bnh cc tiu c quyt nh (thng tr)bi cc phn lp ln (kch thc ln) trong khi chnh xc trung bnh cc i s cho ra mt ngha tt hn v cht lng ca phn lp thng qua tt c cc phn lp.

  • 8/7/2019 Phn loi vn bn

    10/17

    Trong chng ny, chng ta miu t v bn k thut phn lp : k thut phn lp cy quyt nh,m hnh entropy cc i, perceptrons, v knn. Chng u l nhng k thut phn lp quan trng,nh perceptron l nhng v d n gin nht ca cc b phn lp mng neron.

    16.1 Cy quyt nh

    y l k thut u tin trong cc b phn lp. M v d v cy quyt nh c th hin hnhdi.

    Cy quyt nh trn c dng phn loi cc vn bn c thuc v lp earning hay khng.Chng ta phn loi mt vn bn bng cch bt u t node nh, kim tra cu hi ca n, rnhnh ti node thch hp, v lp li tin trnh ny cho n khi tin n node l. V d, mt vnbn c trng s 1 cho t cts v trng s 3 cho net,thi ti node nh s r tri v r phi nodetip theo. Xc xut P(c|n4) l xc xut mt vn bn thuc v lp earnings m n li thuc v

    node 4 c c lng l 0.649. Ti mi node, chng ta th hin s lng bi vit trong tp hunluyn thuc v node , xc xut ca mt thnh vin ca node trong phn lp earning, t(chiu kch) m c s dng phn chia trn node , v trng s c dng phn chia.

    Mt cch khc trc quan cy quyt nh c th hin nh sau :

  • 8/7/2019 Phn loi vn bn

    11/17

    Trc ngang tng ng vi trng s ca cts, trc ng tng ng trng s vi net. Cu hi chi l gi tr ca tnh nng t hn gi tr ca iu kin hay khng. Node trn nh c nh nghanh l bin quyt nh tng ng vi dng cts=2 trong hnh 16.2. Node tri chia vng tri thnh2 vng trn v di net=1. Vng bn trn (c nh du P=0.649) tng ng vi node 4, vngbn di tng ng vi node 3. Ch rng vng phi ca bin quyt nh cts=2 th khng cphn chia hn na bi v node 5 c phn chia bi t vs, khng phi net,chng ta cn mt biu 3 chiu th hin cho node 5.

    Nhim v phn loi vn bn m chng ta s dng nh l mt vi d trong chng ny l xydng cc b phn loi vn bn phn loi lp earning trong b su tp ca Reuters. Tp hpca Reuter hin ti l CSDL ph bin nht nh gi cc nghin cu v phn loi vn bn.Phin bn m chng ta s dng bao gm 9603 bi vit hun luyn v 3299 vi vit kim tra,tp hp ny c gi thng qua Reuter newswire vo nm 1987. Cc bi vit c phn loi vihn 100 ch nh mergers and acquisition v internet rates. Mt v d ca mt bi vit trongphn lp ny nh sau :

  • 8/7/2019 Phn loi vn bn

    12/17

    Nhim v u tin trong phn loi vn bn l tm ra mt m hnh biu din d liu thch hp.iu ny l mt ngh thut v thng ph thuc vo phng php phn loi c th c sdng, nhng n gin ho iu ny, chng ta s s dng mt m hnh biu din d liu ngim trong chng ny. N da trn 20 t m im X2 ca chng vi phn lp earning trong tphun luyn l cao nht. Cc t nh loss, profit, cts (cents) - c 3 t ny ng nh l mt b xcnh tt cho mt bo co v ch earnings - l nhng t trong 20 t c chn. Sau mi

    vn bn c biu din nh l mt vector vi 20 s nguyn, , trong sij ctnh ton nh sau :

    5.3.3Pearson's chi-square test

    Vic s dng bi test t b ch trch bi v n gi nh rng cc xc xut c phn b mt cch

    bnh thng xp x, m iu ny ni chung l khng ng.

  • 8/7/2019 Phn loi vn bn

    13/17

    Mt bi test thay th cho s ph thuc m khng gi nh cc xc xut c phn b mt cchbnh thng l bi test X2 (chi-square test). Trong trng hp n gin, bi test X2 c pdng bi bng 2x2, ging nh bng sau :

    Bn cht ca bi test l so snh cc tn sut c quan st trong bng vi cc tn sut cmong ch so snh s c lp. Nu skhc bit gia tn sut quan st c v tn sut mongch l rt ln, th chng c th t chi cc gi thuyt c lp trng.

    Bng trn th hin s phn b ca t news v companies in tp ng liu. bao ph(recall) lC(new)=15828, C(companies)=4675, C(new companies)=8, v c 14,307,668 tokens trong khong liu. iu c ngha l s bigrams wiwi+1 vi token u tin khng l t new v token thhai l t companies l 4667 = 4675 8. Hai pha di ca bng cng c tnh ton theo cchtng t.

    Thng k X2 tnh tng nhng khc bit gia nhng gi tr quan st c v gi t mong i trongcc gi tr bnh phng ca bng, c thu li bi ln ca nhng gi tr mong i, nh sau

    trong , I s chy qua cc dng ca bng, j chy qua cc ct, Oij l gi tr c quan st cho (i,j) v Eij l gi tr mong i.

    Ngi ta c th thy rng gi tr X2 l c phn b tim cn vi gi tr . Ni cch khc, nu

    s lng ln, th X2 c s phn phi . Chng ta s tr li vn ca s xp s ny th tt nhth no sau .

    Nhng tn sut mong ch Eij th c tnh ton t cc xc sut bin, l, t tng ca ca ccdng v ct c chuyn thnh t l. V d, tun sut mong ch ca (1,1) (new companies) sl xc sut bin ca s xut hin t new nh l phn th nht ca bigram (chui) times (nhn

    vi) xc sut bin ca s xut hin t companies nh l phn th hai ca bigram (c nhn bis lng bigram trong ng liu).

  • 8/7/2019 Phn loi vn bn

    14/17

    l, nu t new v companies xut hin c lp mt cch hon ton vi nhau, th chng ta smong i trung bnh 5.2 s xut hin ca chui new companies i vi mt vn bn c kchthc nh trong kho ng liu.

    Gi tr test c th p dng cho cc bng c bt k kch thc no, nhng n c mt dng n

    gin hn cho bng 2x2 :

    Cng thc ny a ra kt qu cho bng

    Nh sau

    Nhn vo s phn phi trong ph lc(?), chng ta nhn ra rng ti mc xc sut ca

    E=0.05 th gi tr quan trng =3.841 (thng k c mt mc t do cho bng 2x2). V vy,

    chng ta khng th loi b gi thuyt trng m t new v companies xut hin mt cch c lpvi nhau. Do , chui new companies khng phi l mt ng vin tt cho mt ng kt hp(collocation).

    Kt qu ny th ging nh chng ta c vi thng k t. Ni chung, i vi vic tm kim cc

    ng kt hp, s khc bit gia thng k t v thng k th khng qu ln.V d, 20 chui

    bigram vi im t cao nht trong kho ng liu th cng l 20 chui bigram vi im caonht.

    Tuy nhin, kim tra cng thch hp cho cc xc xut ln, m i vi nhng xc sut ny th

    gi nh thng thng ca php o t b li. C l y l l do m php o c p dng rngri cho nhng vn trong tm kim ng k hp.

    Mt trong nhng ng dng u tin ca php o trong x l ngn ng t nhin bng phngphp thng k l vic xc nh cp chuyn dch trong kho ng liu c dng hng.

  • 8/7/2019 Phn loi vn bn

    15/17

    D liu trong bng 5.9 (t mt kho ng liu c dng hng theo mt gi thit) ngh mt cchmnh m rng vache l chuyn dch ting php ca t cow trong ting Anh. y 59 l s cpcu c dng hng m c t cow trong cu ting Anh v t vache trong cu ting Php. Gi tr

    y rt cao =456400. V vy chng ta c th loi b gi thuyt trng rng cow vvache xut hin mt cch c lp vi mt tin cy cao. Cp ny l mt ng vin tt cho mtcp chuyn dch.

    Mt ng dng th v ca l mt thc o cho s tng ng ca kho ng liu. ychng ta gom nht mt bng nx2 cho mt gi tr n ln, v d n=500. Hai ct tng ng hai kho

    ng liu. Mi dng tng ng vi mt t c th. Bng ny c th hin nh trong bng 5.10.Nu t l m ging nh trong bng 5.10 (tc l s ln xut hin ca t 1 trong kho ng liu 1gp 6 ln trong kho ng liu 2), thi chng ta khng th loi b gi thuyt trng m c hai khong liu c a ra trong ngun c bn tng t. Chng ta c th gii thch iu ny nh lmt mc cao ca s tng ng. Mt khc, nu nhng t l ny bin i ln xn, th im

    s l cao v chng ta c bng chng cho mt mc cao ca s khng tng ng.

    Ch khi ng dng ca o t kh gii thch (kh gii quyt vn ) bi v gii nh thng thng

    c bn, th ng dng ca im trong tt c cc trng hp trong s lng bng 2x2 l nh

    nht.Snedecor and Cochrankhuyn i vi vic s dng nu tng kch thc mu th nhhn 20 hoc nu n gia 20 v 40 v gi tr c mong ch trong cc l 5 hoc t hn.

    y, tfij l s ln xut hin ca thut ng i trong vn bn j v lj l chiu di ca vn bn j.

    im sj c gn bng 0 nu khng xut hin thut ng. V d, nu t profit xut hin 6 ln

  • 8/7/2019 Phn loi vn bn

    16/17

    trong mt vn bn c chiu di 89 t, th im cho t profit s lv s c lm trn thnh 5. S tnh trng s ny lm vic tnh ton trng s tng t nh mhnh trong chng 15 c tho lun. Chng ta lm trn cc gi tr lm cho n d dnghn th hin v xem xt cc nguyn nhn hun luyn (s phm).

    Mt kiu biu din ca vn bn :

    Mt khuynh hng xy ra l khi s dng mt phng php rut trch c trng t ng,th mt s

    t c chn khng ha hn cho mt b xc nh tt cho ch earning, v d nh t that v ts. Ba k t &,lt, ; c chn bi v mt trng thi nh dng ring trong b tp hp caReuters c gi tr cng cng : mt t l ln ca cc bi vit trong lp earning c mt tag cha tncng ty ging nh trong dng tiu m ngoc nhn gc tri ca n c chuynthnh mt thc th k t SGML. Chng ta c th ngh rng ngoc ngn tri ny ch nh : Vnbn ny l v mt cng ty ch nh. Chng ta s xem rng ci meta-tag ny th rt hu ch cho sphn lp. Dng tiu ny ca vn bn trong hnh 16.3 c mt v d v meta-tag.

    By gi chng ta c mt lp m hnh (cy quyt nh) v mt s biu din cho d liu (ccvector c 20 thnh phn), chng ta cn nh ngha mt th tc hun luyn. Cy quyt nh

    thng c xy dng bng cch u tin pht trin mt cy ln v sau rut ta n n mtkch thc hp l. Bc rt ta th cn thit bi v nhng cy qu ln s l qu khp (overfit) vitp hun luyn. Vic qu khp xy ra khi cc b phn lp to quyt nh da trn nhng thuctnh ph thuc ca b hun luyn m s dn n nhng li trn b test (hoc bt k d liu mino). V d, nu ch c mt vn bn trong b hun luyn m cha ng c hai t dlrs v pct (chodollars v percent) v s xy ra ca vn bn ny l trong lp earnings, sau th tc hun luync th pht trin m cy ln m phn loi tt c cc vn bn vi thuc tnh ny nh l trong

  • 8/7/2019 Phn loi vn bn

    17/17

    phn lp earning ny. Nhng nu ch c duy nht mt vn bn, th c l y ch l mt s trngkhp. Khi cy c ct ta, th ci phn to s suy ra tng ng (gn vo lp earning nu tmthy c hai t dlrs v pct) s c ct b, nh th dn n nng sut tt hn trn b test.

    pht trin pht trin cy, chng ta cn mt iu kin r nhnh tm kim tnh nng v gi tr

    ca n phn chia v mt iu kin dng xc nh khi no dng phn chia.iu kin dngc th l tm thng m tt c cc thnh phn ti mt node c mt s biu din xc nh hoccng mt phn lp m vic phn tch s khng i xa hn.

    iu kin phn tch m chng ta s dng y l phn chia cc i tng ti mt node vo 2trc bng cch l tnh li thng tin ti a. li thng tin (Information Gain) l mt thc ov l thuyt thng tin c nh ngha nh s khc bit v entropy ca node m vi tng trngs cc entropy ca cc node con.

    Trong , a l thuc tnh chng ta dng phn tch, y l gi tr ca t m chng ta phn tch, t

    l s phn chia ca node chng ta tch, PLvaf PR l t l ca nhng thnh phn m c truynqua (pass) n nhng node bn tri v bn phi, v tL v tR l nhng s phn b ca node tri vnode phi.