Download pdf - 42-45

Transcript
  • THC TH CO TN

    Thc th c tn (Named Entity NE) l cc i tng c tham kho thng qua tn nh t chc, ni chn, con ngi. Thc th c tn c cp ln u ti Message Understanding Conference 6, nm 1995 (MUC-6, 1995), v c dng rng ri trong cc ng dng rt trch thng tin (Information Extraction IE), tr li cu hi (Question Answering QA) hay x l ngn ng t nhin (Natural Language Processing NLP).

    Mt thc th c tn c biu din bi b ba . Trong , danh hiu xc nh duy nht mt thc th c tn. Cc thc th c tn khc nhau c th c cng tn hoc cng lp. V d hai thc th ng Trn Hng o v ng Trn Hng o c cng tn, hay thc th ng Trn Hng o TP. HCM v ng Trn Hng o Nng l hai thc th khc nhau c cng tn v cng lp.

    Cc thc th c tn khc v bn cht v ng ngha vi cc t (word) ch chng ni v cc c th, trong khi cc t ni v nhng ci chung nh khi nim, phn loi, quan h, thuc tnh. Do , vic x l cc thc th c tn xut hin trong vn bn cn n tri thc c th v th gii ang xt cn vic x l cc t ch i hi ng ngha t vng v ng ngha thng thng. Nh vy, vic nhn din cc thc th

    c tn xut hin trong vn bn l mt trong nhng vn kh quan trng. iu ny thu ht rt nhiu n lc nghin cu v cng t c mt s thnh tu. Thnh tu trong vic nhn din NE to iu kin v l c s cho cc nghin cu khai thc ng ngha ca thc th c tn.

    BI TON GOM CM TI LIU

    1.Tng quan v bi ton gom cm

    Bi ton gom cm l bi ton phn loi tp mu d liu ra thnh nhiu nhm da vo tng t gia cc mu. Cc mu trong cng cm ging nhau hn so vi cc mu thuc cm khc. Hin nay, c rt nhiu k thut gom cm d liu. S khc nhau gia nhng k thut l phng php biu din d liu, phng php o tng t gia cc mu d liu, v phng php gom cc mu d liu thnh cc cm. Nh vy, bi ton gom cm bao gm ba giai on chnh nh hnh 1.

    Feature Selection hay Feature Extraction l cc qu trnh chn la, rt trch nhng c im ni bt nht ca mu d liu. V d, d liu l hnh nh th mu sc v hnh dng c th c xem l nhng c im ni bt ca chng. Interpattern Similarity l qu trnh o tng t gia cc mu d liu, thng c o bng mt hm xc nh khong cch gia tng cp mu. C nhiu phng php o khong cch khc nhau, trong , khong cch

    GOM CM TI LIU DA TRN

    THC TH CO TNThS. Dng Th Thy Vn (*)

    Cc h thng gom cm ti liu c in thng da trn t kha. Qu trnh x l ch da vo s xut hin ca t trong vn bn bng cch so trng chui. S nhp nhng v ngha trong cc ng cnh khc nhau v s a ngha ca ngn ng t nhin l hn ch ca cc h thng gom cm c in. gii quyt hn ch trn, chng ti xut khai thc ng ngha vn bn thng qua thc th c tn v cc mi quan h gia chng. Kt qu thc nghim cho thy cc m hnh ng dng thc th c tn vo bi ton gom cm ti liu u tt hn m hnh gom cm ti liu theo t kha thun ty. Kt qu ny m ra trin vng mi cho vic nng cao cht lng gom cm ti liu.

    Clusters Feature

    Selection/ Extraction

    Patterns Interpattern Similarity Grouping

    Pattern

    Representations

    feedback loop Hnh 1: Cc giai on trong bi ton gom cm[4]

    Khoa hc & ng dng42 S 11 - 2010

  • Euclidean l phng php n gin v thng c s dng o khc nhau gia hai mu ([4]). Trong m hnh khng gian vect, khong cch cosine c s dng ph bin o tng t gia hai vect. Grouping l bc gom cc mu thnh nhiu cm khc nhau da vo mt gii thut gom cm no . Trong nhiu loi gii thut gom cm, K-Means l gii thut phn hoch ph bin ([8]). u im ca K-Means l c th c p dng cho tp d liu ln m vn c hiu qu v thi gian chy. phc tp tnh ton ca K-Means l O(kn) vi k l s cm v n l s mu d liu.

    2.Cc phng php nh gi cht lng ca h thng gom cm

    Xa nay, cht lng gom cm thng c nh gi da vo hai o: (1) o Entropy theo cm (cluster entropy) c s dng o hn n bn trong mi cm, gi tr o cng nh th hn n trong cm cng nh, ngha l thun nht trong cm cng ln; v (2) o Entropy theo lp (class entropy) c s dng xc nh cc mu d liu cng lp c phn b nh th no vo cc cm. Tuy nhin, khi s cm trong phn hoch kt qu tng th o entropy theo cm gim nhng o entropy theo lp tng. Do , cn kt hp hai o ny c o entropy tng th (overall entropy) dng nh gi cht lng ca h thng gom cm. o entropy tng th l s kt hp tuyn tnh ca hai o Entropy trn.

    Gi s C = C1C2 Ck l mt phn hoch trn tp N ti liu c nhn trong tp {l1, l2, , lk*}. L tng, mi cm Ci ch cha mt nhn lj. Gi s gi nj l s ti liu c nh nhn lj, v nij l s ti liu c nh nhn lj trong cm Ci. Th, o entropy theo cm Ec, o entropy theo lp El v o entropy tng th c nh ngha nh sau:

    E(C) = .Ec(C) + (1 ).El(C)vi b [0, 1] l trng s cn bng hai o Entropy.

    Phng php nh gi Entropy cng c th gip chng ta nhn ra phn hoch c phi l li gii tt, ng vi mong mun ca ngi s dng hay khng. Tuy nhin, mt hn ch ca phng php ny l phc tp tnh ton ca qu trnh nh nhn tng ti liu trong tp ti liu a vo. ng vi mi tp ti liu a vo, ngi s dng phi nh nhn tng ti liu ri sau mi dng cc phng php Entropy nh gi. C th ni vic nh nhn cho mi tp ti liu a vo l khng kh thi trong ng dng thc t.

    khc phc mt hn ch ca phng php Entropy, chng ta dng phng php nh gi da vo s so snh cc phn hoch. Phng php ny o mc ging nhau gia phn hoch c to ra vi phn hoch chun (phn hoch ng). Phn hoch c to ra cng ging phn hoch chun cng tt. Vi phng php nh gi ny, chng ta cn chn tp d liu kim th chun (data sets) c phn hoch ng C*, thch hp vi phng php gom cm

    xut. Phn hoch C* do chuyn gia ngi xy dng sn. Trong cc phng php nh gi da vo s so snh cc phn hoch th phng php o thng tin khc nhau gia hai phn hoch VI (variation of information) trong [11] c xem l mi v tt nht. o VI o lng thng tin mt i hay thu c trong vic bin i phn hoch C thnh phn hoch C*. o VI c nh ngha nh sau:

    VI(C, C*) = H(C | C*) + H(C* | C) = H(C) + H(C*) 2I(C,C*)

    NG DNG THC TH CO TN VO BI TON GOM CM TI LIU

    Cc m hnh kt hp thc th c tn v t kha

    Theo m hnh khng gian vect ([2]), mi ti liu c biu din bi mt vect trn mt khng gian no . V ti liu vn bn cha t kha (Key Word - KW) v thc th c tn (NE) nn chng ta c th xem KW v NE l hai c im

    ni bt ca ti liu. K hiu iKd l vect trn khng gian t kha ca ti liu di, v k hiu Nd

    r, Td

    r, , v Id

    r

    ln lt l vect trn khng gian tn, lp, tn-lp hoc danh hiu ca thc th c tn ca ti liu di. tng t gia hai ti liu di v dj c nh ngha nh (Eq. 1), trong wN + wT + wNT + wl = 1 v a c gi l trng s kt hp ([1]).

    sim( dr

    , qr ) = .[wN.cosine( Ndr

    , Nqr ) + wT.cosine( Td

    r, Tqr

    ) +

    wNC.cosine( , ) + wI.cosine( Idr

    , Iqr

    )]

    + (1 a).cosine( , )

    Tuy nhin, hai c im t kha v thc th c tn ca ti liu l khng c lp nhau. Ngha l mt t hay cm t xut hin trong vn bn c th c xem l mt t kha cng c th c xem l mt thc th c tn. Do pht sinh vn l chng lp hay khng chng lp trong

    qu trnh xc nh hai vect iKd v vect iNEd cho mi ti liu di. Ngha l khi m mt thut ng no l mt trong cc c trng ca thc th c tn th sau c m n nh mt t kha hay khng. Vi l do trn, chng ti xut hai m hnh khng gian vect tng ng vi quan im c chng lp v khng chng lp cho bi ton gom cm ti liu t ra. M hnh ng vi quan im c chng lp c t tn l VSM_OVL v VSM_NOVL l tn ca m hnh ng vi quan im khng chng lp.

    (Eqs. 2)

    =

    =k

    i

    ii

    NC

    NCCH

    1)||log||()(

    (Eqs. 3)

    Khoa hc & ng dng 43S 11 - 2010

  • Hnh 4: Biu OE v VI vi k thay iHnh 3: Biu OE v VI vi k = 4 v thay i

    Kin trc ca h thng gom cm ti liu da trn thc th c tn kt hp t kha

    Hnh 2 l kin trc ca h thng gom cm ti liu da trn thc th c tn kt hp t kha. Trong kin trc ny c s tham gia ca mt s h thng nh h thng nhn din NE v ch thch ng ngha ti liu, h thng nh ch mc

    ti liu. u vo ca h thng l tp ti liu th. Ti liu th l cc vn bn, trang Web, Tp ti liu ny c a vo module Nhn din NE v ch thch ng ngha ti liu nhn din cc NE xut hin trong ti liu. Qu trnh ch thch ng ngha ti liu c s tham gia ca Ontology v C s tri thc. Kt qu ca qu trnh ny l tp ti liu vi cc NE c nhn din v ch thch ng ngha, gi l Kho ti liu c ch thch NE. Tp ti liu th c a vo module nh ch mc ti liu. Nu ngi s dng chn m hnh gom cm ti liu VSM_NOVL th Kho ti liu c ch thch NE cng c a vo module ny nh phn tch trn. Sau khi qua module ny, ta c tp ti liu c nh ch mc theo m hnh gom cm ti liu tng ng. Trung tm ca h thng gom cm ti liu l module Gom cm ti liu theo cc m hnh VSM_OVL, VSM_NOVL. Sau khi qua module ny, tp ti liu c gom thnh cc cm v tr v cho ngi s dng.

    THC NGHIM V NH GITrong bi bo ny, chng ti tp trung

    vo c trng lp (type) ca thc th c tn v c trng ny b b qua trong cc h thng gom cm da trn t kha. Do , chng ti thc nghim trn cc vect

    .cosine( Tdr

    , Tqr

    ) + (1 ).cosine( , ). Trong , c gi tr thay i t 0 n 1, cho bit ng ngha ca NE v KW ng gp cho cht lng gom cm. Khi = 0

    Ti liu th

    Nhn din NE v ch thch ng ngha

    ti liu

    Ontology v C s tri thc

    Kho ti liu c ch thch NE

    nh ch mc ti liu

    Kho ti liu c nh ch mc theo

    VSM_OVL

    Kho ti liu c nh ch mc theo

    VSM_NOVL

    Gom cm ti liu theo cc m

    hnh VSM_OVL, VSM_NOVL

    Cc cm ti liu

    Hnh 2: Kin trc ca h thng gom cm ti liu theo NE v t kha

    Khoa hc & ng dng44 S 11 - 2010

  • ngha l gom cm hon ton da trn t kha, v khi = 1 ngha l gom cm hon ton da trn thc th c tn. Chng ti xy dng tp d liu kim th t tp d liu Reuters-21578 v tp d liu ny c phn hoch chun C* thch hp cho phng php nh gi VI. Tp d liu kim th gm 500 ti liu c phn hoch nh sau:PLACES: 195 documentsPEOPLE: 105 documentsORGS: 129 documentsEXCHANGES: 71 documentsSau khi thc nghim h thng vi gii thut gom cm k-means trn tp d liu kim th trn (k = 4), thay i t 0 n 1, bc nhy 0.1, chng ti c kt qu nh hnh 3, bng 1. Tip theo, chng ti cho k thay i t 2 n 10, kt qu thc nghim (hnh 4) cho thy cht lng gom cm t gi tr tt nht khi k = 4 nh mong i.

    Kt qu thc nghim cho thy:

    Cht lng gom cm c ci thin 100% khi = 0.9 so vi khi = 0 (OE = 0.47 so vi 1.07 i vi m hnh NEKW_OVL). Chng ta ch rng khi = 0 l gom cm hon ton da trn t kha. Nh vy, cc c trng ca thc th c tn ng vai tr quan trng i vi kt qu gom cm.

    Cht lng gom cm t c gi tr tt nht khi k = 4, chnh l s cm ca tp d liu kim th c xy dng trc. iu ny cho thy tp d liu Reuters-21578 tng i thch hp vi nhng m hnh gom cm m chng ti xy dng.

    KT LUN

    Chng ti a ra hai m hnh khng gian vect kt hp thc th c tn v t kha cho bi ton gom cm ti liu. Chng ti cng xy dng h thng gom cm ti liu da trn hai m hnh xut ny v chy thc nghim h thng trn tp d liu kim th chun Reuters-21578. Kt qu thc nghim cho thy hai m hnh xut em li hiu qu cho cht lng gom cm. C th khi = 0.9 th hiu qu gom cm tng 100% so vi cc h thng gom cm ti

    liu thun ty da trn t kha. iu ny chng t cc c trng ca thc th c tn ng vai tr quan trng trong vic th hin ng ngha ca vn bn. c bit l c trng lp ca thc th c tn, c trng ny b b qua trong cc h thng gom cm c in.

    (*): GV Khoa CNTT & Ton ng D ng H Tn c Thng

    Ti liu tham kho [1] Van.T.T.Duong, Tru H. Cao, Cuong K.Chau and Tho T.Quan, Latent Ontological Feature Discovery for Text Clustering, in Proc. of the 7th IEEE International Conference on Research, Innovation and Vision for the Future, in Computing and Communication Technologies (RIVF2009, July 13-17, Da Nang, Viet Nam), IEEE Press.[2] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval. Addison-Wesley, 1999.[3] T.H. Cao, K.C. Le, and V.M. Ngo, Exploring combinations of ontological features and keywords for text retrieval, in Proc. of the 10th Pacific Rim Intl Conference on Artificial Intelligence, LNAI 5351.Springer-Verlag, 2008, pp. 603-613.

    Bng 1: Cc gi tr OE v VI vi k = 4 v thay i

    Khoa hc & ng dng 45S 11 - 2010


Recommended