4
THỰC THỂ C TÊN Thực thể có tên (Named Entity – NE) là các đối tượng được tham khảo thông qua tên như tổ chức, nơi chốn, con người. Thực thể có tên được đề cập lần đầu tại Message Understanding Conference 6, năm 1995 (MUC-6, 1995), và được dùng rộng rãi trong các ứng dụng rút trích thông tin (Information Extraction – IE), trả lời câu hỏi (Question Answering – QA) hay xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP). Một thực thể có tên được biểu diễn bởi bộ ba <tên, lớp, danh hiệu>. Trong đó, danh hiệu xác định duy nhất một thực thể có tên. Các thực thể có tên khác nhau có thể có cùng tên hoặc cùng lớp. Ví dụ hai thực thể “đường Trần Hưng Đạo” và “ông Trần Hưng Đạo” có cùng tên, hay thực thể “đường Trần Hưng Đạo ở TP. HCM” và “đường Trần Hưng Đạo ở Đà Nẵng” là hai thực thể khác nhau có cùng tên và cùng lớp. Các thực thể có tên khác về bản chất và ngữ nghĩa với các từ (word) ở chỗ chúng nói về các cá thể, trong khi các từ nói về những cái chung như khái niệm, phân loại, quan hệ, thuộc tính. Do đó, việc xử lý các thực thể có tên xuất hiện trong văn bản cần đến tri thức cụ thể về thế giới đang xét còn việc xử lý các từ chỉ đòi hỏi ngữ nghĩa từ vựng và ngữ nghĩa thông thường. Như vậy, việc nhận diện các thực thể có tên xuất hiện trong văn bản là một trong những vấn đề khá quan trọng. Điều này đã thu hút rất nhiều nỗ lực nghiên cứu và cũng đã đạt được một số thành tựu. Thành tựu trong việc nhận diện NE đã tạo điều kiện và là cơ sở cho các nghiên cứu khai thác ngữ nghĩa của thực thể có tên. BÀI TOÁN GOM CỤM TÀI LIU 1.Tổng quan về bài toán gom cụm Bài toán gom cụm là bài toán phân loại tập mẫu dữ liệu ra thành nhiều nhóm dựa vào độ tương tự giữa các mẫu. Các mẫu trong cùng cụm giống nhau hơn so với các mẫu thuộc cụm khác. Hiện nay, có rất nhiều kỹ thuật gom cụm dữ liệu. Sự khác nhau giữa những kỹ thuật là phương pháp biểu diễn dữ liệu, phương pháp đo độ tương tự giữa các mẫu dữ liệu, và phương pháp gom các mẫu dữ liệu thành các cụm. Như vậy, bài toán gom cụm bao gồm ba giai đoạn chính như hình 1. Feature Selection hay Feature Extraction là các quá trình chọn lựa, rút trích những đặc điểm nổi bật nhất của mẫu dữ liệu. Ví dụ, dữ liệu là hình ảnh thì màu sắc và hình dạng có thể được xem là những đặc điểm nổi bật của chúng. Interpattern Similarity là quá trình đo độ tương tự giữa các mẫu dữ liệu, thường được đo bằng một hàm xác định khoảng cách giữa từng cặp mẫu. Có nhiều phương pháp đo khoảng cách khác nhau, trong đó, khoảng cách GOM CỤM TÀI LIU DỰA TRÊN THỰC THỂ C TÊN ThS. Dương Thị Thùy Vân (*) C ác hệ thống gom cụm tài liệu cổ điển thường dựa trên từ khóa. Quá trình xử lý chỉ dựa vào sự xuất hiện của từ trong văn bản bằng cách so trùng chuỗi. Sự nhập nhằng về nghĩa trong các ngữ cảnh khác nhau và sự đa nghĩa của ngôn ngữ tự nhiên là hạn chế của các hệ thống gom cụm cổ điển. Để giải quyết hạn chế trên, chúng tôi đề xuất khai thác ngữ nghĩa văn bản thông qua thực thể có tên và các mối quan hệ giữa chúng. Kết quả thực nghiệm cho thấy các mô hình ứng dụng thực thể có tên vào bài toán gom cụm tài liệu đều tốt hơn mô hình gom cụm tài liệu theo từ khóa thuần túy. Kết quả này mở ra triển vọng mới cho việc nâng cao chất lượng gom cụm tài liệu. Clusters Feature Selection/ Extraction Patterns Interpattern Similarity Grouping Pattern Representations feedback loop Hình 1: Các giai đon trong bài toán gom cm[4] Khoa học & Ứng dụng 42 Số 11 - 2010

42-45

Embed Size (px)

DESCRIPTION

42-45

Citation preview

  • THC TH CO TN

    Thc th c tn (Named Entity NE) l cc i tng c tham kho thng qua tn nh t chc, ni chn, con ngi. Thc th c tn c cp ln u ti Message Understanding Conference 6, nm 1995 (MUC-6, 1995), v c dng rng ri trong cc ng dng rt trch thng tin (Information Extraction IE), tr li cu hi (Question Answering QA) hay x l ngn ng t nhin (Natural Language Processing NLP).

    Mt thc th c tn c biu din bi b ba . Trong , danh hiu xc nh duy nht mt thc th c tn. Cc thc th c tn khc nhau c th c cng tn hoc cng lp. V d hai thc th ng Trn Hng o v ng Trn Hng o c cng tn, hay thc th ng Trn Hng o TP. HCM v ng Trn Hng o Nng l hai thc th khc nhau c cng tn v cng lp.

    Cc thc th c tn khc v bn cht v ng ngha vi cc t (word) ch chng ni v cc c th, trong khi cc t ni v nhng ci chung nh khi nim, phn loi, quan h, thuc tnh. Do , vic x l cc thc th c tn xut hin trong vn bn cn n tri thc c th v th gii ang xt cn vic x l cc t ch i hi ng ngha t vng v ng ngha thng thng. Nh vy, vic nhn din cc thc th

    c tn xut hin trong vn bn l mt trong nhng vn kh quan trng. iu ny thu ht rt nhiu n lc nghin cu v cng t c mt s thnh tu. Thnh tu trong vic nhn din NE to iu kin v l c s cho cc nghin cu khai thc ng ngha ca thc th c tn.

    BI TON GOM CM TI LIU

    1.Tng quan v bi ton gom cm

    Bi ton gom cm l bi ton phn loi tp mu d liu ra thnh nhiu nhm da vo tng t gia cc mu. Cc mu trong cng cm ging nhau hn so vi cc mu thuc cm khc. Hin nay, c rt nhiu k thut gom cm d liu. S khc nhau gia nhng k thut l phng php biu din d liu, phng php o tng t gia cc mu d liu, v phng php gom cc mu d liu thnh cc cm. Nh vy, bi ton gom cm bao gm ba giai on chnh nh hnh 1.

    Feature Selection hay Feature Extraction l cc qu trnh chn la, rt trch nhng c im ni bt nht ca mu d liu. V d, d liu l hnh nh th mu sc v hnh dng c th c xem l nhng c im ni bt ca chng. Interpattern Similarity l qu trnh o tng t gia cc mu d liu, thng c o bng mt hm xc nh khong cch gia tng cp mu. C nhiu phng php o khong cch khc nhau, trong , khong cch

    GOM CM TI LIU DA TRN

    THC TH CO TNThS. Dng Th Thy Vn (*)

    Cc h thng gom cm ti liu c in thng da trn t kha. Qu trnh x l ch da vo s xut hin ca t trong vn bn bng cch so trng chui. S nhp nhng v ngha trong cc ng cnh khc nhau v s a ngha ca ngn ng t nhin l hn ch ca cc h thng gom cm c in. gii quyt hn ch trn, chng ti xut khai thc ng ngha vn bn thng qua thc th c tn v cc mi quan h gia chng. Kt qu thc nghim cho thy cc m hnh ng dng thc th c tn vo bi ton gom cm ti liu u tt hn m hnh gom cm ti liu theo t kha thun ty. Kt qu ny m ra trin vng mi cho vic nng cao cht lng gom cm ti liu.

    Clusters Feature

    Selection/ Extraction

    Patterns Interpattern Similarity Grouping

    Pattern

    Representations

    feedback loop Hnh 1: Cc giai on trong bi ton gom cm[4]

    Khoa hc & ng dng42 S 11 - 2010

  • Euclidean l phng php n gin v thng c s dng o khc nhau gia hai mu ([4]). Trong m hnh khng gian vect, khong cch cosine c s dng ph bin o tng t gia hai vect. Grouping l bc gom cc mu thnh nhiu cm khc nhau da vo mt gii thut gom cm no . Trong nhiu loi gii thut gom cm, K-Means l gii thut phn hoch ph bin ([8]). u im ca K-Means l c th c p dng cho tp d liu ln m vn c hiu qu v thi gian chy. phc tp tnh ton ca K-Means l O(kn) vi k l s cm v n l s mu d liu.

    2.Cc phng php nh gi cht lng ca h thng gom cm

    Xa nay, cht lng gom cm thng c nh gi da vo hai o: (1) o Entropy theo cm (cluster entropy) c s dng o hn n bn trong mi cm, gi tr o cng nh th hn n trong cm cng nh, ngha l thun nht trong cm cng ln; v (2) o Entropy theo lp (class entropy) c s dng xc nh cc mu d liu cng lp c phn b nh th no vo cc cm. Tuy nhin, khi s cm trong phn hoch kt qu tng th o entropy theo cm gim nhng o entropy theo lp tng. Do , cn kt hp hai o ny c o entropy tng th (overall entropy) dng nh gi cht lng ca h thng gom cm. o entropy tng th l s kt hp tuyn tnh ca hai o Entropy trn.

    Gi s C = C1C2 Ck l mt phn hoch trn tp N ti liu c nhn trong tp {l1, l2, , lk*}. L tng, mi cm Ci ch cha mt nhn lj. Gi s gi nj l s ti liu c nh nhn lj, v nij l s ti liu c nh nhn lj trong cm Ci. Th, o entropy theo cm Ec, o entropy theo lp El v o entropy tng th c nh ngha nh sau:

    E(C) = .Ec(C) + (1 ).El(C)vi b [0, 1] l trng s cn bng hai o Entropy.

    Phng php nh gi Entropy cng c th gip chng ta nhn ra phn hoch c phi l li gii tt, ng vi mong mun ca ngi s dng hay khng. Tuy nhin, mt hn ch ca phng php ny l phc tp tnh ton ca qu trnh nh nhn tng ti liu trong tp ti liu a vo. ng vi mi tp ti liu a vo, ngi s dng phi nh nhn tng ti liu ri sau mi dng cc phng php Entropy nh gi. C th ni vic nh nhn cho mi tp ti liu a vo l khng kh thi trong ng dng thc t.

    khc phc mt hn ch ca phng php Entropy, chng ta dng phng php nh gi da vo s so snh cc phn hoch. Phng php ny o mc ging nhau gia phn hoch c to ra vi phn hoch chun (phn hoch ng). Phn hoch c to ra cng ging phn hoch chun cng tt. Vi phng php nh gi ny, chng ta cn chn tp d liu kim th chun (data sets) c phn hoch ng C*, thch hp vi phng php gom cm

    xut. Phn hoch C* do chuyn gia ngi xy dng sn. Trong cc phng php nh gi da vo s so snh cc phn hoch th phng php o thng tin khc nhau gia hai phn hoch VI (variation of information) trong [11] c xem l mi v tt nht. o VI o lng thng tin mt i hay thu c trong vic bin i phn hoch C thnh phn hoch C*. o VI c nh ngha nh sau:

    VI(C, C*) = H(C | C*) + H(C* | C) = H(C) + H(C*) 2I(C,C*)

    NG DNG THC TH CO TN VO BI TON GOM CM TI LIU

    Cc m hnh kt hp thc th c tn v t kha

    Theo m hnh khng gian vect ([2]), mi ti liu c biu din bi mt vect trn mt khng gian no . V ti liu vn bn cha t kha (Key Word - KW) v thc th c tn (NE) nn chng ta c th xem KW v NE l hai c im

    ni bt ca ti liu. K hiu iKd l vect trn khng gian t kha ca ti liu di, v k hiu Nd

    r, Td

    r, , v Id

    r

    ln lt l vect trn khng gian tn, lp, tn-lp hoc danh hiu ca thc th c tn ca ti liu di. tng t gia hai ti liu di v dj c nh ngha nh (Eq. 1), trong wN + wT + wNT + wl = 1 v a c gi l trng s kt hp ([1]).

    sim( dr

    , qr ) = .[wN.cosine( Ndr

    , Nqr ) + wT.cosine( Td

    r, Tqr

    ) +

    wNC.cosine( , ) + wI.cosine( Idr

    , Iqr

    )]

    + (1 a).cosine( , )

    Tuy nhin, hai c im t kha v thc th c tn ca ti liu l khng c lp nhau. Ngha l mt t hay cm t xut hin trong vn bn c th c xem l mt t kha cng c th c xem l mt thc th c tn. Do pht sinh vn l chng lp hay khng chng lp trong

    qu trnh xc nh hai vect iKd v vect iNEd cho mi ti liu di. Ngha l khi m mt thut ng no l mt trong cc c trng ca thc th c tn th sau c m n nh mt t kha hay khng. Vi l do trn, chng ti xut hai m hnh khng gian vect tng ng vi quan im c chng lp v khng chng lp cho bi ton gom cm ti liu t ra. M hnh ng vi quan im c chng lp c t tn l VSM_OVL v VSM_NOVL l tn ca m hnh ng vi quan im khng chng lp.

    (Eqs. 2)

    =

    =k

    i

    ii

    NC

    NCCH

    1)||log||()(

    (Eqs. 3)

    Khoa hc & ng dng 43S 11 - 2010

  • Hnh 4: Biu OE v VI vi k thay iHnh 3: Biu OE v VI vi k = 4 v thay i

    Kin trc ca h thng gom cm ti liu da trn thc th c tn kt hp t kha

    Hnh 2 l kin trc ca h thng gom cm ti liu da trn thc th c tn kt hp t kha. Trong kin trc ny c s tham gia ca mt s h thng nh h thng nhn din NE v ch thch ng ngha ti liu, h thng nh ch mc

    ti liu. u vo ca h thng l tp ti liu th. Ti liu th l cc vn bn, trang Web, Tp ti liu ny c a vo module Nhn din NE v ch thch ng ngha ti liu nhn din cc NE xut hin trong ti liu. Qu trnh ch thch ng ngha ti liu c s tham gia ca Ontology v C s tri thc. Kt qu ca qu trnh ny l tp ti liu vi cc NE c nhn din v ch thch ng ngha, gi l Kho ti liu c ch thch NE. Tp ti liu th c a vo module nh ch mc ti liu. Nu ngi s dng chn m hnh gom cm ti liu VSM_NOVL th Kho ti liu c ch thch NE cng c a vo module ny nh phn tch trn. Sau khi qua module ny, ta c tp ti liu c nh ch mc theo m hnh gom cm ti liu tng ng. Trung tm ca h thng gom cm ti liu l module Gom cm ti liu theo cc m hnh VSM_OVL, VSM_NOVL. Sau khi qua module ny, tp ti liu c gom thnh cc cm v tr v cho ngi s dng.

    THC NGHIM V NH GITrong bi bo ny, chng ti tp trung

    vo c trng lp (type) ca thc th c tn v c trng ny b b qua trong cc h thng gom cm da trn t kha. Do , chng ti thc nghim trn cc vect

    .cosine( Tdr

    , Tqr

    ) + (1 ).cosine( , ). Trong , c gi tr thay i t 0 n 1, cho bit ng ngha ca NE v KW ng gp cho cht lng gom cm. Khi = 0

    Ti liu th

    Nhn din NE v ch thch ng ngha

    ti liu

    Ontology v C s tri thc

    Kho ti liu c ch thch NE

    nh ch mc ti liu

    Kho ti liu c nh ch mc theo

    VSM_OVL

    Kho ti liu c nh ch mc theo

    VSM_NOVL

    Gom cm ti liu theo cc m

    hnh VSM_OVL, VSM_NOVL

    Cc cm ti liu

    Hnh 2: Kin trc ca h thng gom cm ti liu theo NE v t kha

    Khoa hc & ng dng44 S 11 - 2010

  • ngha l gom cm hon ton da trn t kha, v khi = 1 ngha l gom cm hon ton da trn thc th c tn. Chng ti xy dng tp d liu kim th t tp d liu Reuters-21578 v tp d liu ny c phn hoch chun C* thch hp cho phng php nh gi VI. Tp d liu kim th gm 500 ti liu c phn hoch nh sau:PLACES: 195 documentsPEOPLE: 105 documentsORGS: 129 documentsEXCHANGES: 71 documentsSau khi thc nghim h thng vi gii thut gom cm k-means trn tp d liu kim th trn (k = 4), thay i t 0 n 1, bc nhy 0.1, chng ti c kt qu nh hnh 3, bng 1. Tip theo, chng ti cho k thay i t 2 n 10, kt qu thc nghim (hnh 4) cho thy cht lng gom cm t gi tr tt nht khi k = 4 nh mong i.

    Kt qu thc nghim cho thy:

    Cht lng gom cm c ci thin 100% khi = 0.9 so vi khi = 0 (OE = 0.47 so vi 1.07 i vi m hnh NEKW_OVL). Chng ta ch rng khi = 0 l gom cm hon ton da trn t kha. Nh vy, cc c trng ca thc th c tn ng vai tr quan trng i vi kt qu gom cm.

    Cht lng gom cm t c gi tr tt nht khi k = 4, chnh l s cm ca tp d liu kim th c xy dng trc. iu ny cho thy tp d liu Reuters-21578 tng i thch hp vi nhng m hnh gom cm m chng ti xy dng.

    KT LUN

    Chng ti a ra hai m hnh khng gian vect kt hp thc th c tn v t kha cho bi ton gom cm ti liu. Chng ti cng xy dng h thng gom cm ti liu da trn hai m hnh xut ny v chy thc nghim h thng trn tp d liu kim th chun Reuters-21578. Kt qu thc nghim cho thy hai m hnh xut em li hiu qu cho cht lng gom cm. C th khi = 0.9 th hiu qu gom cm tng 100% so vi cc h thng gom cm ti

    liu thun ty da trn t kha. iu ny chng t cc c trng ca thc th c tn ng vai tr quan trng trong vic th hin ng ngha ca vn bn. c bit l c trng lp ca thc th c tn, c trng ny b b qua trong cc h thng gom cm c in.

    (*): GV Khoa CNTT & Ton ng D ng H Tn c Thng

    Ti liu tham kho [1] Van.T.T.Duong, Tru H. Cao, Cuong K.Chau and Tho T.Quan, Latent Ontological Feature Discovery for Text Clustering, in Proc. of the 7th IEEE International Conference on Research, Innovation and Vision for the Future, in Computing and Communication Technologies (RIVF2009, July 13-17, Da Nang, Viet Nam), IEEE Press.[2] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval. Addison-Wesley, 1999.[3] T.H. Cao, K.C. Le, and V.M. Ngo, Exploring combinations of ontological features and keywords for text retrieval, in Proc. of the 10th Pacific Rim Intl Conference on Artificial Intelligence, LNAI 5351.Springer-Verlag, 2008, pp. 603-613.

    Bng 1: Cc gi tr OE v VI vi k = 4 v thay i

    Khoa hc & ng dng 45S 11 - 2010