ĐẠI HỌC QUỐC GIA HÀ NỘI I H - uet.vnu.edu.vnuet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Le_Manh_Cuong_Thesis.pdf · ngày một tăng. Bài toán xâu chuỗi văn bản là

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Mạnh Cường

XÂU CHUỖI VĂN BẢN THEO SỰ KIỆN

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: công nghệ thông tin

HÀ NỘI – 2013

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Mạnh Cường


KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: công nghệ thông tin

Cán bộ hướng dẫn: TS. Phan Xuân Hiếu

Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ

VIETNAM NATIONNAL UNIVERSITY, HANOI

UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Cuong Le Manh

EVENT – ORIENTED DOCUMENT GROUPING

Major: Information Technology

Supervisor: Dr. Hieu Phan Xuan

Co-Supervisor: M.s. Vu Tran Mai

HA NOI – 2013

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến PGS.TS. Hà Quang Thụy, TS.

Phan Xuân Hiếu, ThS. Trần Mai Vũ và cử nhân Nguyễn Minh Tiến, những người đã

tận tình hướng dẫn tôi trong quá trình thực hiện khóa luận tốt nghiệp.

Tôi cảm ơn các thầy, cô trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho

tôi học tập và nghiên cứu tại đây.

Tôi xin cảm ơn các anh chị và các bạn trong phòng thí nghiệm Công nghệ Tri

thức KT-Lab đã hỗ trợ tôi về mặt kiến thức chuyên môn cũng như thực nghiệm để tôi

hoàn thành khóa luận tốt hơn.

Tôi cũng xin cảm ơn các bạn trong lớp K54CD và K54C–CLC đã ủng hộ, giúp

đỡ tôi trong thời gian tôi học tập ở trường.

Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình và bạn bè, những người đã

khích lệ, động viên tôi giúp tôi vượt qua những khó khăn.

Tôi xin chân thành cảm ơn.

Hà Nội, ngày 15 tháng 5 năm 2013

Lê Mạnh Cường


Lê Mạnh Cường

Khóa QH-2009-I/CQ, ngành Công nghệ thông tin

Tóm tắt khóa luận tốt nghiệp

Dữ liệu đang bùng nổ một cách chóng mặt, nhu cầu trích chọn thông tin của con người

ngày một tăng. Bài toán xâu chuỗi văn bản là một trong những vấn đề lớn đang được quan

tâm hiện nay. Với mục tiêu giúp con người nắm được bức tranh toàn cảnh về các nguồn văn

bản trên mạng hay cụ thể ở đây là các văn bản dạng tin tức dựa trên chuỗi các sự kiện xảy ra

là sự ra đời của bài toán xâu chuỗi văn bản theo sự kiện. Trong phạm vi khóa luận tìm hiểu

về một số tiếp cận phát hiện sự kiện trong văn bản cũng như mốt số tiếp cận dùng để xâu

chuỗi các sự kiện trong văn bản. Với mục tiêu phát hiện sự kiện trong văn bản tìm hiểu về

hướng tiếp cận sử dụng độ đo TF – IDF, còn với mục tiêu là phát hiện chuỗi sự kiện dùng để

xâu chuỗi văn bản, tìm hiểu hai tiếp cận. Tiếp cận đầu tiên cũng sử dụng độ đo TF – IDF còn

tiếp cận thứ hai sử dụng độ tương đồng của các thông tin thời gian – địa điểm của sự kiện.

Về phần phương pháp đề xuất cho loại văn bản tin tức sử dụng phương pháp xâu chuỗi

dựa trên tiêu đề các trang tin tức vì thực tế là hầu hết tiêu đề của tin tức đã nêu rõ nội dung

của sự kiện. Tác giả xây dựng các từ điển danh từ, động từ, thực thể và các luật để bắt sự kiện

sau đó dùng độ tương đồng cô-sin giữa các từ/cụm từ để gom nhóm các sự kiện. Cuối cùng sử

dụng yếu tố thời gian để xâu chuỗi sự kiên. Từ chuỗi sự kiện phát hiện được trên các tiêu đề

ta tiến hành xâu chuỗi các văn bản tương ứng với các tiêu đề đó.

Từ khóa: xâu chuỗi văn bản, sự kiện, chuỗi sự kiện

EVENT – ORIENTED DOCUMENT GROUPING

Cuong Le Manh

QH-2009-I/CQ, Information Technology

Abstract

Nowadays data is booming, the development of information extraction is necessary.

Document grouping is the one of the major problems and it has become a hot trend of

academy community. To help people know clearly the background of on-line information is

motivation of event-oriented document grouping. It can divide into two stages: event

detection and event sequence detection. In this thesis the author have learned about three

approaches to deal with that problem. The first approach what uses TF – IDF measures aims

to detect events in a document. The second approach also uses TF – IDF measures but it aims

to group documents. The last approach uses time and place information to detect event

sequence.

In this thesis, the author proposes a method for on-line news documents. The method

uses title of these documents to group them. Firstly, the author builds a dictionary which

consists of noun phrases, verb phrases and entity names. Then author uses the dictionary and

rules to detect event. Afterwards the method uses cosine similar measure and time feature to

group documents by grouping their titles.

Keywords: document grouping, event, event sequence.

Lời cam đoan

Tôi xin cam đoan phương pháp tôi sử dụng để Xâu chuỗi văn bản theo sự kiện là

công trình nghiên cứu của tôi, có sự giúp đỡ từ hai người thầy hướng dẫn của tôi là TS.

Phan Xuân Hiếu và Th.S. Trần Mai Vũ. Các nội dung và kết quả trong đề tài này là do

tác giả thực hiện, không sao chép từ bất cứ nguồn nào có sẵn.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được trích dẫn một các

rõ ràng từ danh mục tài liệu tham khảo của khóa luận. Trong khóa luận, không có việc

sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu

tham khảo.

Hà Nội, ngày 15 tháng 5 năm 2013

Lê Mạnh Cường

Mục lục

Lời nói đầu .......................................................................................................................... 1

Chương 1: Tổng quan bài toán xâu chuỗi văn bản theo sự kiện ..................................... 3

1.1. Trích chọn thông tin ............................................................................................. 3

1.1.1. Bùng nổ dữ liệu ...................................................................................... 3

1.1.2. Trích chọn thông tin ............................................................................... 3

1.2. Sự kiện và trích chọn sự kiện................................................................................ 4

1.2.1. Định nghĩa sự kiện ................................................................................. 5

1.2.2. Trích chọn sự kiện .................................................................................. 5

1.3. Bài toán xâu chuỗi văn bản theo sự kiện ............................................................. 6

1.3.1. Tổng quan .............................................................................................. 6

1.3.2. Định nghĩa chuỗi sự kiện ........................................................................ 6

1.3.3. Bài toán xâu chuỗi văn bản theo sự kiện ................................................. 7

1.3.4. Phát hiện sự kiện khởi đầu và quyết định chuỗi ...................................... 8

1.4. Ý nghĩa của bài toán xâu chuỗi văn bản theo sự kiện ......................................... 8

1.5. Khó khăn và thách thức......................................................................................... 9

1.6. Tóm tắt chương.................................................................................................... 10

Chương 2: Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện ................................. 11

2.1. Hướng tiếp cận độ đo TF – IDF để phát hiện sự kiện ....................................... 11

2.2. Hướng tiếp cận độ đo TF – IDF để xâu chuỗi sự kiện ...................................... 12

2.3. Hướng tiếp cận sử dụng độ tương đồng các thông tin và địa điểm để xâu chuỗi

sự kiện ........................................................................................................................... 13

2.3.1. Thông tin về thời gian của sự kiện ........................................................ 13

2.3.2. Thông tin về địa điểm của sự kiện ........................................................ 13

2.4. Nhận xét và đánh giá ........................................................................................... 15

2.5. Tóm tắt chương.................................................................................................... 15

Chương 3: Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng của cụm trên ngôn

ngữ tiếng Việt ................................................................................................................... 16

3.1. Mô tả bài toán ...................................................................................................... 16

3.2. Phương pháp đề xuất ........................................................................................... 16

3.2.1. Giai đoạn phát hiện sự kiện ................................................................. 16

3.2.2. Giai đoạn xâu chuỗi sự kiện ................................................................. 17

3.3. Mô hình đề xuất để giải quyết bài toán .............................................................. 19

3.4. Một số đánh giá về phương pháp giải quyết ...................................................... 21

3.5. Tóm tắt chương.................................................................................................... 22

Chương 4. Thực nghiệm và đánh giá .............................................................................. 23

4.1. Môi trường thực nghiệm ..................................................................................... 23

4.1.1. Cấu hình phần cứng .............................................................................. 23

4.1.2. Môi trường phần mềm .......................................................................... 23

4.2. Xây dựng từ điển và các luật nhận biết sự kiện ................................................. 24

4.2.1. Xây dựng từ điển .................................................................................. 24

4.2.2. Xây dựng các luật ................................................................................. 25

4.3. Thực nghiệm ........................................................................................................ 25

4.3.1. Dữ liệu thực nghiệm ............................................................................. 25

4.3.2. Quá trình thực nghiệm .......................................................................... 26

4.4. Kết quả và nhận xét kết quả ................................................................................ 27

4.4.1. Phần phát hiện sự kiện .......................................................................... 27

4.4.2. Phần xâu chuỗi sự kiện ......................................................................... 28

4.5. Đánh giá ............................................................................................................... 32

4.5.1. Phương pháp đánh giá .......................................................................... 32

4.5.2. Đánh giá ............................................................................................... 33

4.6. Tóm tắt chương.................................................................................................... 35

Tổng kết ............................................................................................................................ 36

Định hướng tương lai ....................................................................................................... 37

Tài liệu tham khảo ............................................................................................................ 38

Phụ lục ............................................................................................................................... 41

Danh sách hình vẽ

Hình 1. Sự tăng trưởng dung lượng dữ liệu giai đoạn 2004-2020 ........................... 4

Hình 2. Minh họa một chuỗi sự kiện ..................................................................... 7

Hình 3. Minh họa sự kiện khởi đầu ....................................................................... 8

Hình 4. Mô hình giải quyết bài toán .................................................................... 20

Hình 5. Mô tả một phần của dữ liệu ..................................................................... 26

Hình 6. Thống kê số sự kiện phát hiện được trên các chủ đề từ 6/3 đến 7/5 ......... 28

Hình 7. Thống kê các sự kiện được phát hiện từ 8/4 đến 7/5 ................................ 29

Hình 8. Số cụm phát hiện được khi sử dụng ba độ đo tương đồng ....................... 29

Hình 9. Số cụm và số sự kiện lớn nhất trong các cụm từ 8/4 đến 7/5 ................... 31

Hình 10. Thống kê trên bộ luật thứ hai ................................................................ 32

Hình 11. Tỉ lệ lỗi trên các chủ đề (theo tập luật thứ nhất) .................................... 34

Danh sách bảng biểu

Bảng 1. Cấu hình phần cứng ............................................................................. 23

Bảng 2. Môi trường phần mềm ......................................................................... 23

Bảng 3. So sánh giữa sự kiện nóng nhất giữa hệ thống với thực tế .................... 31

Bảng 4. Kết quả xâu chuỗi sự kiện .................................................................... 35

Các ký hiệu và từ viết tắt

Kí hiệu Ý nghĩa

ACE Automatic Content Extraction

LOC Location

k-NN k Nearest Neighbours

MUC Message Understanding Conference

NER Name Entity

NOAA National Oceanic and Atmospheric Administration

NP Noun Phrase

OBN Object name

ORG Organization

TDT Topic Detection and Tracking

TF–IDF Term Frequency–Inverse Document Frequency

TREC Text REtrieval Conference

VP Verb Pharse

1

Lời nói đầu

Xâu chuỗi văn bản theo sự kiện thực chất là bài toán phát hiện và theo dõi sự kiện

– một bài toán đã được cộng đồng khoa học quan tâm từ khá lâu. Bài toán được phát

biểu tường minh là xác định sự kiện trong các văn bản rồi từ những sự kiện đã phát

hiện quay trở lại xâu chuỗi văn bản. Hội nghị Message Understanding Conferences

MUC1 hay các chương trình phát hiện và theo dõi chủ đề TDT

2, trích xuất các nội

dung tự động ACE3 đã dày công nghiên cứu vấn đề này. Có nhiều hướng tiếp cận về

học máy (k – NN, cây quyết định…) cũng như thống kê (TF – IDF) được đưa ra trong

quá trình tìm hiểu và giải quyết bài toán. Hiện nay, trên thế giới có nhiều hệ thống xác

định sự kiện cũng như chuỗi sự kiện từ các văn bản dạng tin tức được cập nhập hàng

ngày, ví dụ như BioCaster (http://born.nii.ac.jp/), HealthMap (http://healthmap.org/)

hay hệ thống VnLoc của Việt Nam (http://vnloc.com/). Việc dữ liệu đang tăng trưởng

với một tốc độ chóng mặt trở thành động lực cũng như thách thức không nhỏ cho bài

toán.

Khóa luận Xâu chuỗi văn bản theo sự kiện khảo sát một số phương pháp phát

hiện sự kiện và chuỗi sự kiện. Dựa trên cơ sở đó, tác giả nghiên cứu và đề xuất phương

pháp xâu chuỗi văn bản hướng sự kiện thực hiện trên miền văn bản tin tức tiếng Việt.

Phương pháp được đề xuất bao gồm hai giai đoạn chính là phát hiện sự kiện và xâu

chuỗi các sự kiện đó. Ở giai đoạn thứ nhất, tác giả sử dụng hệ thống luật và từ điển do

tác giả nghiên cứu và xây dựng để phát hiện sự kiện. Ở giai đoạn thứ hai, các sự kiện

được đánh giá dưới ba độ đo tương đồng thử nghiệm với ngưỡng là 0.2 và dùng đặc

trưng thời gian để xâu chuỗi sự kiện. Quá trình thực nghiệm thu được kết quả tương

đối khả quan. Điều này chứng tỏ tính đúng đắn của phương pháp tác giả sử dụng cũng

như tính thực tiễn với miền tin tức tiếng Việt. Sử dụng tiêu đề để phát hiện và xâu

chuỗi sự kiện có thể không chính xác bằng việc xử lý cả đoạn văn nhưng lại rút ngắn

được nhiều thời gian. Bên cạnh đó nếu xây dựng các từ điển và bộ luật tốt hướng tới

từng chủ đề riêng thì phương pháp này sẽ có độ chính xác cao.

Khóa luận bao gồm bốn chương được mô tả như dưới đây.

Chương 1. Tổng quan bài toán xâu chuỗi văn bản theo sự kiện giới thiệu về trích

chọn thông tin trong giai đoạn dữ liệu bùng nổ mạnh mẽ, sau đó giới thiệu khái quát

1 http://www-nlpir.nist.gov/related_projects/muc/

2 http://projects.ldc.upenn.edu/TDT/

3 http://projects.ldc.upenn.edu/ace/

http://born.nii.ac.jp/

http://healthmap.org/

http://vnloc.com/

http://www-nlpir.nist.gov/related_projects/muc/

http://projects.ldc.upenn.edu/TDT/

http://projects.ldc.upenn.edu/ace/

2

bài toán xâu chuỗi văn bản, ý nghĩa bài toán cũng như một số khó khăn thách thức mà

bài toán đối mặt.

Chương 2. Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện trình bày một

phương pháp để phát hiện sự kiện và hai phương pháp phát hiện chuỗi sự kiện dùng để

hỗ trợ cho bài toán mà tác giả hướng đến.

Chương 3. Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng của cụm từ

trên ngôn ngữ tiếng Việt mô tả rõ ràng bài toán xâu chuỗi văn bản trên miền tin tức

tiếng Việt. Chương này cũng trình bày phương pháp giải quyết bài toán dựa trên hai

giai đoạn chính là phát hiện sự kiện và xâu chuỗi các sự kiện đã được phát hiện. Giai

đoạn phát hiện sự kiện dựa trên tập luật và tập dữ liệu mà tác giả đã xây dựng. Giai

đoạn sau sử dụng độ đo tương đồng giữa các cụm từ để xâu chuỗi sự kiện.

Chương 4. Thực nghiệm và đánh giá thể hiện quá trình thực hiện phương pháp đã

được nêu trong chương 3, sau đó đánh giá kết quả thực nghiệm.

Tiếp theo là phần tổng kết khóa luận cùng với định hướng tương lai. Phần này

khái quát lại toàn bộ công trình và đưa ra một số định hướng mới trong thời gian tiếp

theo.

Cuối cùng là danh mục Tài liệu tham khảo chỉ ra các tài liệu mà tác giả đã tham

khảo trong suốt quá trình thực hiện khóa luận. Việc sử dụng các tài liệu này trong khóa

luận được trích dẫn một cách rõ ràng.

3

Chương 1: Tổng quan bài toán xâu chuỗi văn bản theo sự kiện

1.1. Trích chọn thông tin

1.1.1. Bùng nổ dữ liệu

Dữ liệu do con người tạo ra đang tăng lên với một tốc độ chóng mặt. Theo thống

kê gần đây của tổ chức NOAA (National Oceanic and Atmospheric Administration),

dung lượng dữ liệu dữ liệu đạt gần 80,000 Terabytes tính đến tháng 4 năm 2013. Cũng

theo tổ chức này, dự báo đến năm 2020 sẽ tăng lên đến 160,000 Terabytes (chi tiết tại

hình 14).

Trong một cuốn sách mang tên Megatrends: Ten New Directions Transforming

Our Lives, tác giả John Naisbitt nhận định.

We are drowning in information, and starved for knowledge [11].

(Chúng ta đang chìm ngập trong thông tin nhưng lại thiếu thốn tri thức).

Điều đó có nghĩa có nhiều thông tin chưa chắc đã có nhiều tri thức. Quá trình

biến đổi từ dữ liệu thành tri thức là một quá trình mang tính bản chất và lâu dài. Bên

cạnh đó tri thức thường mang tính chất đặc riêng của từng miền, để thu thập và biến

đổi dữ liệu thành tri thức cần có những nghiên cứu và công cụ hỗ trợ cho quá trình

này.

1.1.2. Trích chọn thông tin

Như đã đề cập ở trên, thông tin không phải ngẫu nhiên mà nắm bắt được. Yêu

cầu đặt ra cho lĩnh vực trích chọn thông tin là có thể trích xuất các thông tin có ích từ

một tập dữ liệu lớn.

Với phạm vi văn bản, theo phân loại của Sunita Sarawagi, có nhiều mức trích

chọn thông tin chẳng hạn như nhận dạng thực thể, xác định thuộc tính thực thể, xác

định quan hệ giữa các thực thể, nhận dạng đồng tham chiếu… [15]. Tùy theo từng lĩnh

vực cụ thể, người ta xây dựng và áp dụng một số phương pháp để tăng hiệu quả trích

xuất. Có hai phương pháp điển hình đó là dựa trên luật hoặc dựa trên thống kê. Với

phương pháp dựa trên luật có thể kể đến như là luật nhận dạng đơn thực thể, luật nhận

dạng đa thực thể, luật đánh dấu biên thực thể, …) còn với phương pháp thống kê người

4 http://celebrating200years.noaa.gov/visions/data_mgmt/image14.html

http://celebrating200years.noaa.gov/visions/data_mgmt/image14.html

4

ta hay sử dụng Mô hình Markov ẩn, mô hình Markov cực đại Entropy hay độ tương

đồng TF – IDF.

Bùng nổ dữ liệu vừa là thách thức vừa là động lực cho lĩnh vực trích chọn thông tin.

Việc xử lý lượng một dữ liệu lớn đòi hỏi ngoài một hiệu năng phần cứng lớn cần có

những phương pháp trích chọn thích hợp.

1.2. Sự kiện và trích chọn sự kiện

Trích chọn sự kiện được cộng đồng khoa học quốc tế đầu tư nghiên cứu từ khá

sớm. Hội nghị MUC5 được tổ chức lần đầu tiên năm 1987 dưới sự hỗ trợ của Quỹ

nghiên cứu bộ quốc phòng Hoa Kỳ là một trong những hội nghị tiêu biểu trong trích

chọn sự kiện. Hội nghị đã đưa ra phương pháp trích chọn sự kiện theo khung mẫu với

mục đích là trích chọn bằng cách lấy các thông tin liên quan đến sự kiện. Bên cạnh đó,

các chương trình TDT6 (Phát hiện và theo dõi chủ đề) được tổ chức hàng năm từ năm

1997 đã bước đầu giải quyết được bài toán phát hiện sự kiện mới, theo dõi và xâu

chuỗi sự kiện. Có nhiều nhóm nghiên cứu tham gia chương trình như nhóm BBN từ

công ty BBN Technologies, nhóm CMU của trường đại học Carnegie Mellon, nhóm

DRAGON của công ty Dragon Systems … Mỗi nhóm đều đưa ra những tiếp cận riêng

và góm phần nâng cao kết quả của lĩnh vực trích chọn sự kiện.

5 http://www-nlpir.nist.gov/related_projects/muc/

6 http://projects.ldc.upenn.edu/TDT/

Hình 1. Sự tăng trưởng dung lượng dữ liệu giai đoạn 2004-2020

http://www-nlpir.nist.gov/related_projects/muc/

http://projects.ldc.upenn.edu/TDT/

5

1.2.1. Định nghĩa sự kiện

Tùy theo từng lĩnh vực và dữ liệu người ta có nhiều cách định nghĩa sự kiện. Trên

miền tin tức, Allan và cộng sự định nghĩa tin tức chứa sự kiện nếu nó có bốn yếu tố:

hành vi, chủ thể, thời gian và địa điểm [3]. Hội nghị MUC quan tâm đến các sự kiện về

khủng bố, quân sự, đầu tư mạo hiểm, tai nạn máy bay… Định nghĩa sự kiện mà hội

nghị đưa ra phải có đủ các yếu tố: tác nhân, thời gian, địa điểm và các tác động của nó.

Còn trong chương trình ACE7 (Automatic Content Extraction), sự kiện đơn giản là

một sự thay đổi trạng thái. Loại sự kiện và các thuộc tính sự kiện được quy định chặt

chẽ hơn. Có tám loại sự kiện được sử dụng bao gồm business (kinh tế), conflict (xung

đột), contact (liên lạc), justice (pháp lý), life (cuộc sống), movement (sự di chuyển),

personnel (nhân sự) và transaction (giao dịch). Mỗi loại sự kiện sau đó lại được chia

thành từng dạng con. Ví dụ như trong justice bao gồm một số dạng như arrest – jail

(bắt giữ – bỏ tù ), convict (kết án), fine (phạt)…[1] Hay như trong hệ thống VnLoc sự

kiện được định nghĩa là bộ bảy đặc trưng bao gồm tên sự kiên, loại sự kiện, thời gian

xảy ra sự kiện, nơi xảy ra sự kiện, nguồn đưa tin, liên kết và tóm tắt của sự kiện đó.

Cũng theo VnLoc thì sự kiện họ quan tâm thuộc một trong ba loại: tai nạn giao thông,

hình sự, cháy nổ.

Thông thường các nghiên cứu thường chỉ giải quyết vấn đề trong một lĩnh vực cụ

thể. Yoko Nishihara quan tâm sự kiện trong lĩnh vực mạng xã hội [13] trong khi Hong-

woo Chun hay K. Bretonnel Cohen lại tập trung vào sự kiện y sinh [5] [6]. Bên canh

đó người ta cũng quan tâm đến các mối nguy hiểm đe dọa [17], …

Trong phạm vi khóa luận, tác giả quan tâm đến sự kiện thuộc một trong mười chủ

đề thuộc mục thế giới trên một số trang tin tức tiếng Việt. Cụ thể là các chủ đề: bầu cử,

chiến tranh – quân sự, hàng không – vũ trụ, hạt nhân, khủng bố, khủng hoảng kinh tế,

ngoại giao, tham nhũng, tin tặc và tranh chấp chủ quyền. Sự kiện ở đây là sự thay đổi

trạng thái ứng với tác động của các cụm danh từ và cụm động từ.

1.2.2. Trích chọn sự kiện

Trích chọn sự kiện là lĩnh vực con của trích chọn thông tin. Nhiệm vụ của trích

chọn sự kiện là nhận biết và trích chọn được các thông tin về sự kiện từ tập dữ liệu. Cụ

thể hơn trích chọn sự kiện tập trung phát hiện sự kiện với miền lĩnh vực cho trước, sau

đó trích được ra các đặc trưng của sự kiện như thời gian, địa điểm…

7 http://projects.ldc.upenn.edu/ace/

http://projects.ldc.upenn.edu/ace/

6

Trích chọn sự kiện thực sự là một bài toán khó. Ngoài vấn đề về việc xây dựng

các bộ nhận dạng sự kiện thì nó còn phải đối mặt với các khó khăn chung về xử lý

ngôn ngữ tự nhiên, hay tính nhập nhằng ngữ cảnh.

1.3. Bài toán xâu chuỗi văn bản theo sự kiện

1.3.1. Tổng quan

Dưới góc nhìn sự kiện, bài toán xâu chuỗi văn bản chính là bài toán phát hiện

chuỗi sự kiện. Giám sát một tập dữ liệu để tìm ra các văn bản cùng nói về một sự kiện

và xâu chuỗi theo thứ tự thời gian chính là định nghĩa của chuỗi sự kiện. Chẳng hạn về

sự kiện “Khủng bố ở cuộc đua ma-ra-tông Boston”, chúng ta muốn theo dõi diễn biến

cũng như kết quả cho đến khi sự kiện kết thúc. Yêu cầu đặt ra là cần xâu chuỗi các văn

bản theo diễn biến của sự kiện từ nguồn thông tin trên các trang báo được cập nhật liên

tục.

Các trang báo mạng rất quan tâm đến vấn đề xâu chuỗi các văn bản cụ thể ở đây

là tin tức. Cách tiếp cận hiện nay của các trang báo mạng là cách làm thủ công, tức là

gắn văn bản với các sự kiện liên quan đã có bằng cách trỏ liên kết bằng tay. Cách làm

này không những bị động mà còn mang tính cục bộ, tức là trang báo mạng nào cũng

thực hiện nhưng lại không có liên kết với nhau. Một yêu cầu đặt ra cho miền Tiếng

Việt là cần có một hệ thống phát hiện và theo dõi sự kiện của văn bản, hay có thể nói

gọn là xâu chuỗi văn bản theo sự kiện.

1.3.2. Định nghĩa chuỗi sự kiện

Bài toán chuỗi sự kiện được cộng đồng khoa học quốc tế quan tâm từ khá sớm.

Như đã đề cập ở phần đầu, đây là một trong những nội dung chính của chương trình

TDT. Ở TDT–1, người ta chỉ tập trung vào hai dạng dữ liệu, đó là tin tức dưới dạng

văn bản và tin tức từ phát thanh, truyền hình. Bên cạnh đó, hội nghị TREC–68 (Text

REtrieval Conference) cũng quan tâm đến bài toán chuỗi sự kiện nhưng có đôi chút

khác biệt so với TDT–1. Trong khi TDT–1 quan tâm đến sự kiện và hướng phát hiện

chuỗi sự kiện thì TREC–6 xâu chuỗi văn bản theo cùng chủ đề.

Theo Heikki Mannila, một sự kiện được mô tả là cặp (A,t) với A là các thông tin

liên quan đến sự kiện, t là thời gian xảy ra sự kiện [10]. Tập sự kiện E cho trước và A

E.

8 http://trec.nist.gov/

http://trec.nist.gov/

7

Chuỗi sự kiện S là bộ ba giá trị (s, Ts, Te) với s =< (A1, t1), (A2, t2), …, (An, tn) >

Trong đó:

Ai E với i = 1, 2, …, n

Ai Ai+1 với i = 1, 2, …, n-1

ti ti+1 với i = 1, 2, …, n-1

Ts là thời gian bắt đầu chuỗi sự kiện

Te là thời gian kết thúc chuỗi sự kiện

Ts ti Te

Hình 2 [10] minh họa một ví dụ về chuỗi sự kiện S = (s, 29,67)

với s = < (E, 31), (D, 32), (F, 33), …, (D, 67)>

Hình 2. Minh họa một chuỗi sự kiện [10]

1.3.3. Bài toán xâu chuỗi văn bản theo sự kiện

Thực chất bài toán xâu chuỗi văn bản theo sự kiện chính là bài toán phát hiện

chuỗi sự kiện. Đầu vào yêu cầu là một tập văn bản còn đầu ra chính là tập văn bản đó

nhưng đã được xâu chuỗi theo sự kiện. Mỗi văn bản có một ứng viên sự kiện, đầu tiên

người ta tiến hành xâu chuỗi các sự kiện ứng viên, sau đó quay trở lại xâu chuỗi văn

bản. Như vậy theo hướng sự kiện, bài toán xâu chuỗi văn bản phụ thuộc vào bài toán

phát hiện chuỗi sự kiện.

Theo Yang Yiming, bài toán phát hiện chuỗi sự kiện là một bài toán học có giám

sát [19]. Đầu tiên người ta xây dựng dữ liệu học dựa vào các sự kiện đã xảy ra sau đó

sử dụng mô hình học máy dựa trên bộ dữ liệu này để phát hiện văn bản được thêm vào

có chứa sự kiện thuộc những sự kiện đã được xây dựng hay không. Có nhiều cách tiếp

cận được sử dụng để giải quyết bài toán này. Chẳng hạn các phương pháp học máy

như k người láng giềng gần nhất k–NN [2], cây quyết định [18], [19]. Các phương

pháp thống kê như sử dụng trọng số TF–IDF được đề cập ở [3] hay thống kê tần suất

xuất hiện của các cụm từ của nhóm Heikki Mannila [10]. Ngoài ra còn có một số cách

dựa trên mô hình ngôn ngữ như sử dụng mô hinh ngữ nghĩa của Ramesh Nallapati

[12], hay như của công ty Dragon Systems [2].

8

Bài toán xâu chuỗi văn bản theo sự kiện bao gồm hai giai đoạn. Giai đoạn thứ

nhất là phát hiện sự kiện trong các văn bản. Giai đoạn thứ hai là theo dõi và xâu chuỗi

các sự kiện. Một số vấn đề được quan tâm trong bài toán là phát hiện sự kiện khởi đầu,

đánh giá sự kiện tương đồng và quyết định chuỗi.

1.3.4. Phát hiện sự kiện khởi đầu và quyết định chuỗi

Chương trình TDT định nghĩa sự kiện khởi đầu là sự kiện chưa từng xảy ra và

được nhắc đến trong quá khứ. Hình 3 [4]dưới đây minh họa hai dạng sự kiện (hình thoi

và hình tròn) theo thứ tự tăng dần của thời gian. Với luồng tin tức thu được từ các

trang báo mạng chúng ta thu được rất nhiều sự kiện, nhiệm vụ của chúng ta là phải

gom nhóm các tin tức cùng nói về một sự kiện. Trong ví dụ này chúng ta cần đưa các

sự kiện hình thoi về một cụm và các sự kiện hình tròn về một cụm. Để đưa các văn bản

về được một cụm cần dựa trên độ tương đồng giữa hai văn bản hay cụ thể hơn là phải

dựa vào độ tương đồng giữa hai sự kiện. Bên cạnh đó cần phải xem xét và đánh giá

các sự kiện trùng lặp. Sau khi đưa được các sự kiện về các cụm chúng ta sử dụng yếu

tố thời gian để quyết định chuỗi sự kiện. Trong khóa luận tác giả quan tâm đến vấn đề

các sự kiện tương đồng phục vụ cho công việc xâu chuỗi.

Hình 3. Minh họa sự kiện khởi đầu [4]

1.4. Ý nghĩa của bài toán xâu chuỗi văn bản theo sự kiện

Về mặt khoa học, bài toán xâu chuỗi văn bản có ý nghĩa rất lớn. Đầu tiên, việc có

thể tập trung các văn bản có liên quan lại với nhau giúp con người có thể dễ dàng tìm

thông tin cần thiết một cách nhanh chóng. Bên cạnh đó, khi các văn bản được xâu

chuỗi theo sự kiện, bài toán có thể giúp chúng ta dự đoán xu hướng sự kiện, theo dõi

các xu hướng mà cộng đồng quan tâm. Việc nắm được diễn biến của sự kiện giúp con

9

người chủ động hơn trong tình hình cuộc sống hiện nay. Cuối cùng bài toán là một lĩnh

vực con của bài toán trích chọn thông tin. Giải quyết tốt bài toán là cơ sở để giải quyết

những bài toán liên quan, chẳng hạn như giám sát thông tin trong các bài toán quản lý

xã hội.

Bài toán xâu chuỗi văn bản theo sự kiện cũng có ý nghĩa rất lớn trong thực tiễn.

Với bối cảnh bùng nổ dữ liệu cụ thể trong mảng tin tức chúng ta có thể thấy thông tin

xuất hiện rất nhiều nhưng lại rất rời rạc. Người dùng không thể nắm được bước tranh

toàn cảnh về những gì đang diễn ra trong cuộc sống. Chẳng hạn một người quan tâm

đến sự kiện “Khủng bố ở Boston” vừa diễn ra trong tháng tư vừa qua thì với lượng tin

tức cập nhật liên tục nhưng lại không theo quy luật cụ thể nào có thể khiến người đó

gặp rất nhiều rắc rối trong việc nắm thông tin. Đơn giản người ta chỉ muốn xem diễn

biến của sự kiện trên nhưng họ buộc phải tìm kiếm tuần tự để thực hiện điều đó. Yêu

cầu đặt ra cho bài toán xâu chuỗi văn bản là cố gắng đưa các văn bản nói về một sự

kiện về cùng một nhóm sau đó trình bày theo thứ tự thời gian để người dùng có thể

nắm được rõ ràng diễn biến sự kiện. Trên thế giới hiện nay có rất nhiều hệ thống theo

dõi các sự kiện từ luồng tin tức. Điển hình có thể kể đến như HealthMap của Hoa Kỳ

hay BioCaster của Nhật Bản. Ở Việt Nam cũng có hệ thống VnLoc9 theo dõi các sự

kiện đời sống như tai nạn, hỏa hoạn, dịch bênh… Không những vậy các hệ thống

thường được thể hiện trực quan trên bản đồ giúp người dùng dễ dàng theo dõi.

1.5. Khó khăn và thách thức

Được nhận định là một bài toán khó vì phải trải qua bài toán xâu chuỗi sự kiện

nên dễ hiểu là bài toán phải đối mặt với nhiều khó khăn. Bài toán gặp một số khó khăn

trong cả giai đoạn phát hiện sự kiện trong văn bản cũng như là xâu chuỗi các sự kiện.

Về giai đoạn phát hiện sự kiện, bài toán gặp những khó khăn chung của lĩnh vực

xử lý ngôn ngữ tự nhiên trên Tiếng Việt. Bên cạnh đó, bài toán đối mặt với các khó

khăn về nhập nhăng ngữ cảnh, tính đa tham chiếu cũng như tính đa hình cấu trúc ngữ

pháp của văn bản. Chẳng hạn như “Tổng thống Mỹ sang thăm Nhật Bản”, “Ông

Barrack Obama trò chuyện với thủ tướng Nhật Bản”, … Vấn đề đồng tham chiếu cũng

như sự biến đổi của thông tin trở thành thách thức lớn. Trong khóa luận tác giả chưa

giải quyết được vấn đề đồng tham chiếu.

9 http://vnloc.com/

http://vnloc.com/

10

Về giai đoạn xâu chuỗi sự kiện, bài toán gặp khó khăn trong việc xác định sự

kiện khởi đầu cũng như đánh giá độ tương đồng giữa các sự kiện. Bên cạnh đó bài

toán phải đảm bảo tính đúng đắn của chuỗi sự kiện, tức là phải xác định được sự kiện

nào đi trước sự kiện nào theo sau.

Ngoài ra việc xây dựng được bộ phát hiện sự kiện gặp nhiều khó khăn. Tác giả

phải tìm hiểu rất nhiều bài báo và xây dựng được từ điển cũng như luật phục vụ cho

công việc phát hiện sự kiện. Việc này đòi hỏi tác giả phải can thiệp sâu vào dữ liệu, có

những phân tích đúng đắn và tỉ mỉ trên miền ứng dụng thực hiện. Trong khóa luận, tác

giả thực hiện xây dựng mười chủ đề thuộc chuyên mục Thế giới trên các trang báo

mạng. Việc xử lý với một lượng lớn dữ liệu đòi hỏi nhiều thời gian cũng như công sức.

1.6. Tóm tắt chương

Chương một đã nêu lên được một số vấn đề. Đầu tiên là việc bùng nổ dữ liệu

cũng như nhu cầu trích chọn thông tin. Nhiều phương pháp được đưa ra cho lĩnh vực

này. Tiếp đó là nêu được tổng quan về sự kiện, chuỗi sự kiện và bài toán xâu chuỗi văn

bản hướng sự kiện. Đồng thời chương một cũng nêu được ý nghĩa thực tiễn của bài

toán. Cuối cùng là khó khăn thách thức chung của bài toán cũng như một số khó khăn

của tác giả khi thực hiện trong một lĩnh vực cụ thể.

11

Chương 2: Một số cách tiếp cận xâu chuỗi văn bản theo sự kiện

Trong chương một đã giới thiệu tổng quan về bài toán xâu chuỗi văn bản theo sự

kiên. Bài toán này phải trải qua hai giai đoạn là phát hiện sự kiện và xâu chuỗi sự kiên.

Ở chương này giới thiệu một phương pháp phát hiện sự kiện sử dụng độ đo TF – IDF

ở mục 2.1. Mục 2.2 và 2.3 sẽ trình bày hai phương pháp được sử dụng để xâu chuỗi sự

kiện. Phương pháp đầu tiên là hướng tiếp cận sử dụng độ đo TF – IDF còn phương

pháp thứ hai dựa trên độ tương đồng các thông tin về thời gian cũng như địa điểm.

2.1. Hướng tiếp cận độ đo TF – IDF để phát hiện sự kiện

Hướng tiếp cận sử dụng các độ đo TF – IDF là một trong những phương pháp

được sử dụng trong thời kỳ mở đầu của bài toán phát hiện sự kiện.

Để đánh giá khi so sánh văn bản d với tập đặc trưng q, Allan và cộng sự sử dụng

hàm đánh giá sau [14]

Trong đó:

wi là độ liên quan của đặc trưng qi

di là độ tin cậy được thể hiện ở công thức 2.2

Độ tin cậy được tính bởi công thức sau:

Trong đó:

được thể hiện ở công thức 2.3

được thể hiện ở công thức 2.4

là hằng số làm trơn, ở đây = 0.4

Độ đo TF được tính bởi công thức 2.3

Trong đó:

t là số lần xuất hiện của đặc trưng trong tin tức.

dl là độ dài của tin tức tính theo đơn vị từ.

avg_dl là số lượng trung bình đặc trưng trong một tin tức

Độ đo IDF được tính bởi công thức 2.4

12

Trong đó:

C là số tin tức trong bộ ngữ liệu đã được chuẩn hóa

df là số lượng tin tức có ít nhất một đặc trưng xuất hiện

2.2. Hướng tiếp cận độ đo TF – IDF để xâu chuỗi sự kiện

Ngoài việc sử dụng trọng số TF – IDF để phát hiện sự kiện, người ta cũng sử

dụng trọng số này để phát hiện chuỗi sự kiện. Tiếp cận này dựa trên quan điểm các sự

kiện trong cũng chuỗi thường có một số thuộc tính tương đồng hoặc trùng nhau. Các

sự kiện được vec-tơ hóa để có thể tính độ tương đồng giữa chúng [16].

Gọi K = { k1, k2, …, kn,} là tập đặc trưng.

Đối với mỗi tài liệu chứa sự kiện, độ đo TF và IDF được tính toán theo các công

thức

Trong đó:

là số lần xuất hiện của từ khóa ki trong văn bản

là số lần xuất hiện cực đại của tất cả các từ khóa trong văn bản.

Trong đó:

là số văn bản chứa đặc trưng ki.

N là tổng số văn bản được xét tới.

Tuy nhiên có một số trường hợp df(i) = 0 nên trong một số bài báo người ta có

thể lấy mẫu số là 1+df(i).

Cuối cùng độ tương đồng giữa hai văn bản được tính bởi công thức

Bên cạnh đó có một số cải tiến nhằm nâng cao tính đúng đắn của chuỗi sự kiện,

chẳng hạn có thể áp dụng các độ đọ TF – IDF ở phần 2.1 vào các công thức 2.3 và 2.4.

13

2.3. Hướng tiếp cận sử dụng độ tương đồng các thông tin và địa điểm để xâu

chuỗi sự kiện

Thông tin về thời gian và địa điểm là những đặc trưng cơ bản của sự kiện. Thông

thường người ta sử dụng thông tin địa điểm để xác định độ liên quan của các sự kiện.

Các sự kiện có địa điểm giống nhau thì khả năng cao là có độ tương đồng giữa chúng.

Trong khi thời gian là yếu tố cần thiết để xác định trình tự chuỗi sự kiện, sự kiện xảy

ra trước đi trước còn sự kiện xảy ra sau đi sau.

2.3.1. Thông tin về thời gian của sự kiện

Với khía cạnh thời gian có một số phương pháp đo độ tương đồng giữa thông tin

của hai địa điểm.

Juha Makkonen và cộng sự đưa ra công thức [9]:

Trong đó

covert(Xt, Yt) là độ bao phủ của Xt và Yt

Xt, Yt là các cụm tham chiếu sự kiện tương ứng của sự kiện X, Y.

RWS’(Xt, Yt) là trọng số xếp hạng.

Công thức cụ thể tác giả không đề cập chi tiết.

Trong khi đó Baoli Li và cộng sự lại dựa trên độ tương đồng Cô-sin [8].

Trong đó

x = (x1, x2, …, xm)

y = (y1, y2, …, ym)

m là số lượng đặc trưng.

2.3.2. Thông tin về địa điểm của sự kiện

Thông tin về địa điểm là một đặc trưng quan trọng của sự kiện. Tuy nhiên thông

tin địa điểm đôi khi gặp khó khăn trong quá trình trích xuất vì sự nhập nhằng cũng như

tính đa cấp của địa điểm. Do vậy tính toán độ tương đồng về địa điểm trở nên khó

khăn hơn.

Theo nghiên cứu của Yun Jin và cộng sự [7], độ tương đồng giữa thông tin về địa

điểm được nên dựa trên 3 đặc trưng.

Đặc trưng thứ nhất là độ tương đồng phân cấp:

14

Trong đó:

nt là từ điển địa điểm đã được làm giàu.

nd là tập địa điểm trong tin tức.

Đặc trưng thứ hai là độ đo vị trí của địa điểm:

Trong đó:

pos(nd) là vị trí câu chứa tên địa điểm tính từ 0.

d là số lượng câu trong tin tức.

Đặc trưng thứ ba là độ đo mức độ phù hợp của tên địa danh trong ngữ cảnh được

xét đến.

Trong đó:

nd là số lần xuất hiện của một địa điểm đang được xem xét trong tin tức

Nd là số lần tất cả địa điểm xuất hiện trong tin tức.

là một hằng số làm trơn. Trong [7], người ta lấy = 0.5.

Sử dụng ba đặc trưng ta được độ đo về mức độ tương đồng địa điểm

nếu , và

nếu , và

trong các trường hợp khác (2.13)

Kết hợp độ tương đồng địa điểm với độ tương đồng nội dung ta được độ tương

đồng cuối cùng:

Trong đó

là độ tương đồng nội dung giữa hai tin tức t và d.

là hệ số làm trơn, trong [7] người ta lấy

15

2.4. Nhận xét và đánh giá

Tuy vào từng lĩnh vực cũng như miền dữ liệu cụ thể người ta chọn cho mình

những phương pháp phù hợp để nâng cao độ chính xác của hệ thống. Đối với giai đoạn

phát hiện sự kiện ở phương pháp tiếp cận thứ nhất, trong [3] kết quả thu được cũng

khá khả quan (F1 = 48% với 400 đặc trưng). Ở bước xâu chuỗi sự kiện, trong phương

pháp sử dụng TF – IDF cũng cho kết quả tốt. Còn phương pháp tiếp cận cuối cùng sử

dụng thông tin thời gian – địa điểm kết quả đưa ra cũng khả quan nhưng còn tùy thuộc

vào độ chính xác thông tin được cung cấp trong tin tức.

Trong phương pháp đề xuất thực hiện trên miền tiếng Việt, tác giả đề xuất

phương pháp phát hiện sự kiện dựa trên từ điển và luật và sau đó xâu chuỗi các sự kiện

đó bằng cách tính độ tương đồng giữa các tiêu đề chứa sự kiện. Với phạm vi văn bản

phương pháp dựa trên độ đo TF – IDF tỏ ra thích hợp tuy nhiên việc tác giả chỉ sử

dụng tiêu đề để phát hiện sự kiện và xâu chuỗi chúng khiến việc sử dụng độ đo này

không phù hợp mà thay vào đó ở bước xâu chuỗi tác giả sử dụng độ tương đống cô-sin

giữa các đặc trưng (đặc trưng là các từ khóa trong từ điển hoặc các từ trong tiêu đề

hoặc kết hợp cả hai). Chi tiết của phương pháp đề xuất được giới thiệu cụ thể ở

chương 3.


Trong chương hai tác giả đã khảo sát một số phương pháp phát hiện cũng như

xâu chuỗi sự kiện. Điều này làm tiền đề cho việc giải quyết bài toán xâu chuỗi văn bản

theo hướng sự kiện. Hai phương pháp đầu tiên đều sử dụng trọng số TF – IDF, phương

pháp cuối cùng sử dụng các thông tin thời gian và địa điểm có thể làm tăng độ chính

xác của bài toán.

16

Chương 3: Phương pháp xâu chuỗi văn bản dựa trên độ tương đồng

của cụm trên ngôn ngữ tiếng Việt

3.1. Mô tả bài toán

Bài toán xâu chuỗi văn bản theo sự kiện là bài toán phát hiện sự kiện trên tập văn

bản đầu vào, sau đó thực hiện việc xâu chuỗi sự kiện và cuối cùng là dựa vào các

chuỗi sự kiện đó để xâu chuỗi các văn bản.

Theo khía cạnh toán học, bài toán được thể hiện như sau:

Đầu vào: Tập các văn bản

Đầu ra: Tập các văn bản đã được xâu chuỗi theo sự kiện

Trong khóa luận tác giả sử dụng tin tức trên mạng như các văn bản.

3.2. Phương pháp đề xuất

Bài toán xâu chuỗi văn bản theo sự kiện bao gồm hai giai đoạn chính. Giai đoạn

đầu tiên là phát hiện sự kiện trên văn bản cụ thể trong khóa luận của tác giả là tin tức.

Giai đoạn thứ hai là phát hiện chuỗi sự kiện trên các sự kiện đã được phát hiện. Tuy

nhiên để thực hiện được hai giai đó cần một giai đoạn không kém phần quan trọng đó

là xây dựng dữ liệu và các luật nhận biết sự kiện.

3.2.1. Giai đoạn phát hiện sự kiện

Với đầu vào là các tin tức, tác giả nhận thấy thông thường tiêu đề mang hầu hết

thông tin về sự kiện. Thực tế các trang báo mạng luôn đảm bảo tiêu đề chứa đủ thông

tin để có thể thu hút người đọc. Bên cạnh đó việc dùng tiêu đề của tin tức thay vì dùng

hết cả nội dung của tin tức làm giảm thời gian xử lý xuống rất nhiều. Đây có thể xem

là một ưu điểm của các tiếp cận này.

Giai đoạn này có thể phát biểu tường mình như sau:

Đầu vào: Danh sách các tiêu đề từ các tin tức.

Đầu ra: Tập các tiêu đề chứa sự kiện.

Trong khóa luận, tác giả quan tâm đến sự kiện thuộc một trong mười chủ đề: bầu

cử, chiến tranh – quân sự, hàng không – vũ trụ, hạt nhân, khủng bố, khủng hoảng kinh

tế, ngoại giao, tham nhũng, tin tặc và tranh chấp chủ quyền thuộc mục Thế giới của

các trang tin tức trên miền tiếng Việt. Nhãn được gắn tương ứng với các chủ đề là

17

BAUCU, QUANSU, HANGKHONG, HATNHAN, KHUNG BO, KINH TE,

NGOAIGIAO, THAMNHUNG, TINTAC và CHUQUYEN.

Tác giả định nghĩa một tiêu đề chứa sự kiện khi tiêu đề có cả danh từ/ cụm danh

từ và động từ/ cụm động từ. Các cụm danh từ NP (Noun Phrase) và cụm đồng từ VP

(Verb Phrase) được tác giả khảo sát trên 5000 tiêu đề để tìm ra các cụm từ hay xuất

hiện thuộc một trong mười chủ đề mà tác giả quan tâm. Chẳng hạn với tiêu đề “Ngoại

trưởng Mỹ thăm Pháp” tác giả có thể thu được NP là “ngoại trưởng” và VP là “thăm”.

Việc tác giả khảo sát thủ công mà không sử dụng các cụm danh từ, cụm động từ có sẵn

bởi vì văn phong các trang báo mạng, tác giả muốn lấy được các dữ liệu một cách gần

nhất với thực tế.

Các tiêu đề chứa sự kiện được nhận biết bởi các bộ từ điển và các luật được nêu ở

phần 4.2. Các tiêu đề chứa sự kiện sẽ được tách riêng để phục vụ cho các giai đoạn sau

3.2.2. Giai đoạn xâu chuỗi sự kiện

Việc tác giả sử dụng tiêu đề để xâu chuỗi văn bản làm công việc cho phần phát

hiện sự kiện dễ dàng nhưng lại gây khó cho giai đoạn xâu chuỗi sự kiện. Với phạm vi

toàn văn bản, trong tiếp cận liên quan mà tác giả đã nêu ở chương hai, người ta sử

dụng được trọng số TF – IDF vì số lượng từ, cụm từ nhiều nhưng với phạm vi chỉ là

tiêu đề thì không dùng được trọng số trên. Phương pháp tác giả đưa ra là sự dụng độ

tương đồng các cụm từ đã được phát hiện trong các sự kiện để đưa các sự kiện về theo

các cụm. Mỗi cụm sẽ chứa các sự kiện tương đồng với nhau. Cuối cùng tác giả dựa

vào yếu tố thời gian để xâu chuỗi các cụm sự kiện.

Giai đoạn này có thể phát biểu thành bài toán như sau

Đầu vào: Danh sách các tiêu đề chứa sự kiện.

Đầu ra: Danh sách các cụm tiêu đề chứa chuỗi sự kiện tương đồng.

Cho t1 và t2 là hai tiêu đề chứa sự kiện, tiến hành vector hóa các sự kiện e1, e2

tương ứng của t1 và t2 theo các cụm từ đã phát hiện được. Độ tương đồng của hai sự

kiện e1 và e2 được tính theo công thức cô-sin

Trong đó

x = (x1, x2, …, xn)

y = (y1, y2, …, yn)

18

n là số chiều của tập đặc trưng.

Với hai tiêu đề t1 và t2 ta tiến hành xác định tập các cụm từ xuất hiện trong hai

tiêu đề đó sau đó đối chiếu lại với các tiêu đề để xác định các vec-tơ.

Ví dụ so sánh độ tương đồng giữa hai tiêu đề “Tổng thống Mỹ công du Việt

Nam” và “Tổng thống Obama sang thăm Việt Nam”. Theo từ điển các cụm từ đã được

xây dựng ta thu được tập các cụm từ bao gồm {“Tổng thống”, ”Mỹ”, ”công du”, ”Việt

Nam”, ”Obama”, ”sang thăm”}, số chiều vec-tơ chính là số lượng các cụm từ. Sau đó

đối chiếu lại với hai tiêu đề ta thu được hai vec-tơ. Với tiêu đề thứ nhất ta thu được

vec-tơ e1 = (1, 1, 1, 1, 0, 0) và e2 = (1, 0, 0, 1, 1, 1) . Độ tương đồng lúc này sẽ là 0.5 (

= 2/4)

Gọi n1, n2 là số các cụm từ của t1, t2; n là số các cụm từ được tạo nên từ t1, t2. Do

tác giả quy ước các giá trị của các thành phần chỉ có 0 và 1 nên công thức 3.1 có thể

chuyển thành

Trong khóa luận tác giả dự định lấy ngưỡng tương đồng là , tức là nếu

thì xem như e1 và e2 là hai sự kiện tương đồng hay hai tiêu đề chứa sự

kiện tương đồng.

Bên cạnh đó tác giả cũng thử nghiệm dựa trên các từ chứ không ở mức cụm từ

như ở trên. Cụ thể lấy ví dụ trên “Tổng thống Mỹ công du Việt Nam” và “Tổng thống

Obama sang thăm Việt Nam” thì các từ thu được từ tiêu đề thứ nhất là {“Tổng”,

“thống”, “Mỹ”, “công”, “du”, “Việt”, “Nam”}, tiêu đề thứ hai thu được {“Tổng”,

“thống”, “Obama”, “sang”, “tham”, “Việt”, “Nam”}. Từ các từ thu được từ hai tiêu đề

ta gộp cả hai lại được {“Tổng”, “thống”, “Mỹ”, “công”, “du”, “Việt”, “Nam”,

“Obama”, “sang”, “tham”}. Vec-tơ e1 thu được từ tiêu đề t1 sẽ là e1 = (1, 1, 1, 1, 1, 1,

1, 0, 0, 0) trong khi của tiêu đề t2 là e2 = (1, 1, 0, 0, 0, 1, 1, 1, 1, 1). Độ tương đồng

tính theo công thức 3.1 là 4/7.

Gọi m1, m2 là số các từ của t1, t2; m là số các từ được tạo nên từ t1, t2. Do tác giả

quy ước các giá trị của các thành phần chỉ có 0 và 1 nên công thức 3.1 có thể chuyển

thành

19

Ngoài ra có thể kết hợp cả cụm từ và từ lại với nhau để tính toán độ tương đồng.

Lại lấy ví dụ trên các từ/cụm từ của tiêu đề t1 là {“Tổng thống”, “Tổng”, “thống”,

“Mỹ”, “công du”, “công”, “du”, “Việt Nam”, “Việt”, “Nam”}, tiêu đề t2 là {“Tổng

thống”, “Tổng”, “thống”, “Obama”,”sang thăm”, “sang”, “tham”, ”Việt Nam”, “Việt”,

“Nam”}. Từ các cụm từ và từ thu được từ hai tiêu đề ta tính được các vec-tơ e1 và e2.

Vec-tơ e1= (1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0) trong khi vec-tơ e2 = (1, 1, 1, 0, 0, 0, 0,

1, 1, 1, 1, 1, 1, 1). Độ tương đồng tính theo công thức 3.1 là 3/5.

Gọi p1, p2 là số các từ và cụm từ của t1 và t2; p là số các từ và cụm từ được tạo

nên từ t1, t2. Do tác giả quy ước các giá trị của các thành phần chỉ có 0 và 1 nên công

thức 3.1 có thể chuyển thành

Tùy theo điều kiện thực tế lúc thực nghiệm sẽ cho thấy công thức nào phù hợp

với dữ liệu tin tức nhất. Kết quả cũng như so sánh sẽ được trình bày vào phần sau của

khóa luận.

3.3. Mô hình đề xuất để giải quyết bài toán

20

Mô hình đề xuất để giải quyết bài toán xâu chuỗi văn bản được minh họa ở hình

3.1. Mô hình này bao gồm 6 thành phần: kho dữ liệu, mô-đun phát hiện sự kiện, mô-

đun tính toán độ tương đồng, mô-đun phát hiện chuỗi sự kiện và mô-đun xâu chuỗi

văn bản.

Kho dữ liệu: Kho dữ liệu chứa các ba loại dữ liệu là tập dữ liệu đầu vào, từ điển

NP, VP, NER và các luật, các tiêu đề đã được xâu chuỗi theo sự kiện.

Tập dữ liệu đầu vào: Tác giả thu thập dữ liệu trên các trang tin tức. Dữ

liệu đầu vào bao gồm ba đặc trưng là thời gian, liên kết và tiêu đề của tin

tức. Phần mình họa cho tập dữ liệu đầu vào sẽ được giới thiệu vào phần

sau của khóa luận.

Hình 4. Mô hình giải quyết bài toán

21

Từ điển NP, VP, NER và các luật bao gồm các từ điển cụm danh từ NP,

cụm động từ VP, các thực thể NER và các luật được xây dựng để bắt sự

kiện trong tiêu đề. Các bộ từ điển và các luật đã được nói trong phần 3.2.1.

Các tiêu đề đã được xâu chuỗi sự kiện: đây là kết quả của quá trình xâu

chuỗi văn bản. Do tác giả tiến hành xử lý trên các tiêu đề nên thu được các

chuỗi tiêu đề có liên quan với nhau.

Phát hiện sự kiện: Dựa trên các từ điển đã được xây dựng cùng với tập luật, mô-

đun có thể bắt được các tiêu đề chứa sự kiện thuộc một trong mười chủ đề đã giới

thiệu ở phần 3.2. Tập luật để bắt sự kiện có thể là tập luật dựa trên khảo sát hoặc tập

luật không dựa trên khảo sát, ví dụ như BAUCU_ [NP_CHUNG] [NER_LOC]

[VP_BAUCU] hoặc [NP][NER][VP]. Đây là thành phần rất quan trọng của bài toán.

Để có thể xâu chuỗi các văn bản theo sự kiện thì cần phải bắt sự kiện càng chính xác

càng tốt.

Tính toán độ tương đồng: Sau khi phát hiện được các tiêu đề chứa sự kiện,

chúng ta tiến hành tính toán độ tương đồng giữa các tiêu đề. Như đã giới thiệu ở phần

3.2 có ba cách để tính toán độ tương đồng giữa hai tiêu đề. Cách thứ nhất là tính toán

độ tương đồng dựa trên cụm từ bắt được ở công thức 3.2, cách thứ hai là tính toán dựa

trên các từ chứa trong hai tiêu đề minh họa ở công thức 3.3 và cách cuối cùng là kết

hợp hai cách trên, tức là dựa trên các cụm từ đã bắt được sau đó sử dụng cả các cụm

đó lẫn các từ tách ra từ các cụm đó để tính toán độ tương đồng.

Phát hiện chuỗi sự kiện: Mô-đun này dựa vào mức độ tương đồng của các tiêu

đề theo ngưỡng, hiện tại tác giả lấy ngưỡng tương đồng là 0.2, tức là nếu độ tương

đồng lớn hơn hoặc bằng 0.2 thì được xem là tương đồng. Các tiêu đề cùng độ tương

đồng được đưa về cùm một cụm. Sau đó sử dụng yếu tố thời gian để xâu chuỗi các

cụm. Các cụm sau khi xâu chuỗi trở thành các cụm chuỗi sự kiện.

Xâu chuỗi văn bản: Từ các cụm tiêu đề chứa các chuỗi sự kiện, ta tiến hành xâu

chuỗi văn bản. Do đối tượng làm việc của tác giả là các tiêu đề nên đầu ra không phải

là các văn bản đã xâu chuỗi mà là các tiêu đề đã được xâu chuỗi theo sự kiện. Tuy

nhiên liên kết bài viết được trích xuất kèm xem như là văn bản.

3.4. Một số đánh giá về phương pháp giải quyết

Phương pháp xâu chuỗi văn bản được đề xuất có khá nhiều khó khăn.

Khó khăn đầu tiên phải kể đến là việc tìm hiểu dữ liệu thực để xây dựng các từ

điển NP, VP và NER. Có tất cả mười chủ đề tương ứng có mười loại từ điển NP và VP

22

tương ứng. Với từ điển NER, từ điển LOC xây dựng khá đơn giản, từ điển ORG đòi

hỏi phải tìm hiểu sâu về các tổ chức trong các chủ đề, còn từ điển OBN thì cũng tương

đối khó khăn. Chẳng hạn như đối với chủ đề chiến tranh – quân sự, từ điển OBN có

chứa tên của các loại máy bay, tên lửa, tàu ngầm… thường được sử dụng trên các

trang báo mạng.

Khó khăn thứ hai là việc xây dựng luật. Về lý thuyết các luật thường tuân theo

các cấu trúc câu tuy nhiên trong thực tế khi các trang tin tức đưa bài viết lên thì họ đã

thay đổi cấu trúc rất nhiều. Chẳng hạn như tiêu đề “Nợ công: Thách thức lớn ở xứ

Sương mù”, “Đánh bom kinh hoàng ở Thái Lan”, …Chính vì điều này khiến số lượng

luật phải tăng lên nhiều để có thể bắt được. Bên cạnh đó có những từ có thể vừa làm

danh từ vừa làm động từ như “đình công”. Trong “Đình công khiến nền kinh tế Nhật

suy sụp” “đình công” nhận vai trò là danh từ còn trong “Công nhân đình công rầm rộ ở

Nhật Bản” thì “đình công” lại đóng vai trò là động từ.

Khó khăn thứ ba là việc một số trang tin tức sử dụng từ không chính xác nhằm

nhấn mạng cũng để “giật tít” nhằm thu hút được sự chú ý của người đọc, ví dụ “Phạm

Băng Băng "nặng nề" với giày "khủng bố"” hay “Tiêu diệt "khủng bố" ốc sên” có thể

gây hiểu nhầm là tiêu đề chứa tin tức thuộc mục khủng bố. Việc nhập nhằng là khó

tránh khỏi trong việc xây dựng dữ liệu.

Tuy nhiên không thể phủ nhận được một số ưu điểm của phương pháp này. Do

đối tượng làm việc chỉ là các tiêu đề nên cùng một thời gian số lượng sự kiện được xử

lý tăng lên rất nhiều, trong một thời gian ngắn có thể thống kê được các chuỗi sự kiện

được xảy ra trong những khoảng thời gian nhiều. Với mức độ văn bản phương pháp

đưa ra thường là dựa trên độ đo TF – IDF còn với mức độ chỉ một câu thì dựa trên độ

tương đồng từ hay cụm từ.


Chương 3 nêu bật được cụ thể bài toán mà tác giả giải quyết cùng với phương

pháp đề xuất để giải quyết bài toán của tác giả, tiếp đó là mô hình cụ thể tương ứng với

phương pháp đã đề ra. Cuối cùng là một số nhận xét và đánh giá của tác giả về phương

pháp tiếp cận trong quá trình thực hiện bài toán.

23

Chương 4. Thực nghiệm và đánh giá

Trong chương này tác giả thực hiện việc xây dựng dữ liệu và các luật để phát

hiện sự kiện, sau đó sẽ dùng độ tương đồng để xâu chuỗi các sự kiện. Dữ liệu được thu

thập chuyên mục Thế giới trên trang báo mới (http://baomoi.com/). Tác giả sẽ thực

hiện một số thực nghiệm dựa trên hai bộ luật tác giả xây dựng để đánh giá giai đoạn

phát hiện sự kiện. Sau đó dựa trên dữ liệu sự kiện thu được ở bước trên, tác giả cũng sẽ

thực hiện một số thực nghiệm trên cả ba độ đo tương đồng (công thức 3.2, 3.3, 3.4) với

ngưỡng tương đồng dự định . Việc lấy ngưỡng quá cao có thể khiến một số sự

kiện gần tương đồng lại ở khác cụm, ngược lại lấy ngưỡng quá thấp lại khiến nhiều

cụm không chính xác.

4.1. Môi trường thực nghiệm

4.1.1. Cấu hình phần cứng

Bảng 1. Cấu hình phần cứng

Thành phần

Thông số

Bộ xử lý

E7500 (2.93GHz x 2)

Bộ nhớ trong

2GB

Bộ nhớ ngoài

320GB

Hệ điều hành

Windows XP SP3

4.1.2. Môi trường phần mềm

Bảng 2. Môi trường phần mềm

STT

Tên phần mềm Sở hữu Mô tả chức năng

1

Eclipce Indigo Eclipse Foundation Môi trường lập trình

Java

2 Thư viện mã nguồn

mở headvances

Thư viện hỗ trợ xây

dựng từ điển

http://baomoi.com/

24

4.2. Xây dựng từ điển và các luật nhận biết sự kiện

4.2.1. Xây dựng từ điển

NP bao gồm các danh từ/ cụm danh từ thường xuất hiện cho các chủ đề. Có 11

loại NP được đề cập trong khóa luận của tác giả bao gồm 1 NP chung và 10 NP thuộc

riêng cho các chủ đề. VP bao gồm các động từ/ cụm đồng từ hay xuất hiện thuộc 10

chủ đề đã được chọn.

Bên canh việc xây dựng các cụm NP và VP tác giả cũng thu thập các từ điển thực

thể (NER). Thực thể trong khóa luận bao gồm tên địa điểm LOC (location), tên tổ

chức ORG (organization), tên người PER (person) và tên của một số đối tượng OBN

(object’name) thường xuất hiện trong các chủ đề.

Các cụm NP, VP, OBN được gán nhãn riêng cho từng chủ đề. Ví dụ với NP,

HATNHAN_nhà máy hạt nhân, trong đó HATNHAN là nhãn của chủ đề hạt nhân còn

“nhà máy điện hạt nhân” là cụm danh từ thuộc chủ đề này. Ví dụ về VP,

NGOAIGIAO_ hợp tác đa phương, thì NGOAIGIAO là nhãn của chủ đề, “hợp tác đa

phương” là cụm động từ thuộc chủ đề này. KHUNGBO_Al-Qaeda là ví dụ từ điển tên

đối tượng thuộc chủ đề khủng bố, thực tế Al-Qaeda là tên một tổ chức khủng bố tuy

nhiên lại gắn riêng với khủng bố nên tác giả lựa chọn là tên của đối tượng thuộc chủ đề

khủng bố. Ngoài ra còn có một danh sách NP chung cho các chủ đề.

Riêng từ điển thực thể NER thì có LOC, ORG và PER không được tác giả gán

nhãn chủ đề cho nó. LOC là danh sách các địa điểm ở mức độ quốc gia, vùng lãnh thổ

cũng như châu lục ví dụ Hoa Kỳ, châu Âu. Trong từ điển LOC cũng bao gồm tên khác

thường dùng cho các địa điểm, ví dụ ngoài Hoa Kỳ thì còn có Mỹ, Trung Quốc với

Trung…

Từ điển ORG là tập hợp tên một số tổ chức thường xuất hiện trong mười chủ đề

của , ví dụ WHO – tổ chức y tế thế giới, WTO – tổ chức kinh tế thế giới, tuy nhiên có

một số tổ chức tác giả lại đưa vào từ điển OBN vì tính đặc thù của từng chủ đề, ví dụ

nhắc đến Al-Qaeda là nhắc đến khủng bố hay nhắc đến Anonymous hay Lulz Security

là nhắc đến tin tặc.

Từ điển PER là tên một số nhân vật thường xuất hiện trong mười chủ đề, chẳng

hạn như Barrack Obama, Kim Jong-Un hay Tập Cận Bình… Bên cạnh đó cũng vì tính

đặc thù đã nói ở trên có một số tên nhân vật tác giả đưa và từ điển OBN, ví dụ như

nhắc đến Dzhokhar Tsarnaev (kẻ gây ra vụ khủng bố ở Boston hôm 15/4) chúng ta

nghĩ ngay đến chủ đề khủng bố.

25

Sau khi xây dựng xong các cụm từ cần thiết, tác giả dùng các cụm này để xác

định xem tiêu đề có chứa sự kiện thuộc các chủ đề đã được nhắc đến không.. Nếu là sự

kiện thì được thu thập để thực hiện cho giai đoạn thứ hai của bài toán.

4.2.2. Xây dựng các luật

Về việc xét xem tiêu đề có chứa sự kiện thuộc mười chủ đề đã nêu không tác giả

thực hiện việc tạo hai bộ luật.

Bộ luật thứ nhất dựa trên khảo sát dữ liệu trong lúc xây dựng các từ điển NP, VP

và NER. Các luật này chỉ ra dạng sự kiện là cấu trúc của sự kiện đó trong tiêu đề đầu

vào. Ví dụ, luật NGOAIGIAO_ [NP_chung] [NER_LOC]

[VP_NGOAIGIAO][NER_LOC] sẽ bắt được sự kiện trong tiêu đề như “Tổng thống

Pháp thăm Nga” hay “Thủ tướng Trung Quốc công du Ấn Độ”, … Luật

KHUNGBO_[OBN_KHUNGBO][VP_KHUNGBO][NER_LOC] sẽ bắt được sự kiện

có trong tiêu đề như “Al-Qaeda tiến hành đánh bom đẫm máu tại Trung Đông”… Số

lượng luật càng nhiều thì số sự kiện bắt được càng nhiều tuy nhiên vẫn không tránh

khỏi nhập nhằng vì một số chủ đề có chứa những cụm từ giống nhau. Ví dụ “phóng

thành công” có thể là VP thuộc chủ đề chiến tranh – quân sự hoặc cũng có thể là VP

thuộc chủ đề hạt nhân.

Bộ luật thứ hai không dựa trên khảo sát dữ liệu, mục đích của nó là bắt được càng

nhiều sự kiện càng tôt. Tuy nhiên bộ luật này vẫn đảm bảo tiêu đề chứa sự kiện thuộc

1 trong 10 chủ đề nêu trên. Các từ điển NP và VP lúc này không còn phân biệt chủ đề

mà được gộp chung là NP và VP, từ điển NER cũng được gộp lại. Luật

[NP][NER][VP] có thể bắt được rất nhiều sự kiện ví dụ như “Cử tri Venezuela đi bầu

cử”, “Tàu hải giám Trung Quốc vào vùng tranh chấp”, “Mạng máy tính Mỹ bị đánh

sập”, …

4.3. Thực nghiệm

4.3.1. Dữ liệu thực nghiệm

26

Dữ liệu được tác giả lấy từ mục Thế giới của trang tin tức Báo mới

(http://baomoi.com/) bao gồm 20,000 bài báo. Mỗi báo báo có 3 phần được sử dụng:

Tiêu đề, thời gian và liên kết. Thời gian có khuôn dạng là “DD/MM/YYYY HH:MM”,

liên kết có khuôn dạng là “http://www.baomoi.com/Home/TheGioi/...” còn tiêu đề

chính là tiêu đề của bài báo theo liên kết, ví dụ như “Ngoại trưởng Mỹ thăm Nga”.

Hình sau mô tả một đoạn dữ liệu.

4.3.2. Quá trình thực nghiệm

Ngay sau khi xây dựng các từ điển và các luật, tác giả thực hiện từng bước các

giai đoạn của bài toán.

Ở giai đoạn đầu tiên, tác giả thực hiện tìm các sự kiện trong các tiêu đề bài báo

(các sự kiện này thuộc một trong mười chủ đề mà tác giả đã nhắc từ chương trước).

Trong giai đoạn này tác giả thử nghiệm trên hai bộ luật mà tác giả định nghĩa. Việc

phát hiện này thực hiện trong khoảng thời gian một tháng từ 8/4 đến 7/5 (đây là thời

gian các bài báo được đưa lên mạng – tính theo thời gian trên trang baomoi.com).

Giai đoạn thứ hai tác giả tiến hành xâu chuỗi các văn bản dựa trên các sự kiện đã

phát hiện được ở giai đoạn thứ nhất. Trong giai đoạn này tác giả thực hiện một số thực

nghiệm trên cả ba độ đo tương đồng (độ tương đồng các đặc trưng, độ tương đồng các

từ và kết hợp của hai độ tương đồng).

Hình 5. Mô tả một phần của dữ liệu

http://baomoi.com/

http://www.baomoi.com/Home/TheGioi/...

27

4.4. Kết quả và nhận xét kết quả

4.4.1. Phần phát hiện sự kiện

Tác giả tiến hành thực nghiệm với 20,176 bài báo trong khoảng thời gian từ

6/3/2013 đến 7/5/2013 trên cả hai bộ luật đã nêu ở phần trước.

Với bộ luật thứ nhất, bộ chỉ rõ được chủ đề của sự kiện kết quả thu được là 4,524

sự kiện được bắt thuộc 10 chủ đề đã chọn. Hình 6 minh họa chi tiết kết quả khi chạy

bộ luật thứ nhất.

Với bộ luật thứ hai, bộ không chỉ rõ chủ đề mà chỉ bắt nếu tiêu đề chứa sự kiện

thuộc 1 trong 10 chủ đề. Kết quả thu được là 10,534 sự kiện.

Bộ luật thứ hai không chặt chẽ bằng bộ luật thứ nhất nên kết quả là bắt được

nhiều hơn gấp đôi so với bộ luật thứ nhất nhưng độ chính xác trên từng chủ đề thì lại

không bằng được.

Về kết quả thu được trên bộ luật thứ nhất, chủ đề nóng nhất bắt được nhiều sự

kiện nhất là chủ đề 8 (chiến tranh quân sự), so sánh với thực tiễn với khoảng thời gian

từ 6/3 đến 7/5 đã diễn ra nhiều sự kiện quân sự liên quan đến Syria, Triều Tiên, …

Chủ đề 9 (tham nhũng) bắt được ít sự kiện nhất, so sánh với thực tiễn trong khoảng

thời gian nêu trên có rất ít vụ bê bối tham nhũng. Chủ đề 1 (bầu cử) cũng bắt được rất

ít sự kiện (chỉ có 159) vì thực tế giai đoạn vừa qua chỉ có cuộc bầu cử ở Venezuela và

Malaysia là được quan tâm.

Một hướng đặt ra cho tương lai là tác giả nên bỏ các chủ đề như tin tặc hay bầu

cử mà nên nghiên cứu kĩ hơn dữ liệu để tìm được chủ đề phù hợp hơn với từng khoảng

thời gian.

28

Hình 6. Thống kê số sự kiện phát hiện được trên các chủ đề từ 6/3 đến 7/5

Các chủ đề trong hình 6 chính là 10 chủ đề tác giả quan tâm, theo thứ tự trình bày

tương ứng trên hình sẽ là bầu cử (Topic1), chiến tranh – quân sự (Topic2), hàng không

– vũ trụ (Topic3), hạt nhân (Topic4), khủng bố (Topic5), khủng hoảng kinh tế

(Topic6), ngoại giao (Topic7), tham nhũng (Topic8), tin tặc (Topic9) và tranh chấp

chủ quyền (Topic10).

Kết quả thu được trên bộ thứ hai tuy không chính xác về từng chủ đề một so với

bộ luật thứ nhất nhưng xét trên tổng thể thì kết quả cũng rất khả quan.

Các sự kiện bắt được trong phần này sẽ được làm đầu vào cho phần xâu chuỗi sự

kiện.

4.4.2. Phần xâu chuỗi sự kiện

Ở phần này tác giả thực hiện việc xâu chuỗi trên các sự kiện đã được trích chọn

từ phần phát hiện sự kiện. Với chiến lược là thực hiện với cả hai bộ sự kiện trên cả luật

thứ nhất và luật thứ hai đồng thời sử dụng cùng lúc cả ba độ đo tương đồng (độ tương

đồng cụm từ bắt được, độ tương đồng từ và kết hợp cả hai).

Sử dụng kết quả từ bộ luật thứ nhất:

Đầu tiên tác giả xét với bộ luật thứ nhất. Để có thể quan sát rõ hơn phần này, tác

giả đã thống kê kết quả các sự kiện bắt được trong vòng 1 tháng (từ 8/4 đến 7/5 – mỗi

cột là 3 ngày) trên cả 10 chủ đề. Hình 7 minh họa chi tiết phần thống kê này.

0

200

400

600

800

1000

1200

1400

1600

Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10

Sự kiện

29

Hình 7. Thống kê các sự kiện được phát hiện từ 8/4 đến 7/5

Sau đó tác giả tiến hành thực hiện trên cả ba độ đo tương đồng trong khoảng thời

gian nêu trên (từ 8/4 đến 7/5 – mỗi cột cũng là 3 ngày) (tác giả lấy ngưỡng tương đồng

là 0.2). Kết quả thu được minh họa bằng hình 8.

Hình 8. Số cụm phát hiện được khi sử dụng ba độ đo tương đồng

0

50

100

150

200

250

300

350

8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5

Sự kiện

0

10

20

30

40

50

60

70

80

90

100

8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5

Độ đo 1

Độ đo 2

Độ đo 3

30

Số cụm bắt được khi dùng độ đo thứ nhất (độ tương đồng giữa các cụm từ bắt

được) trong cả 10 khoảng thời gian đều cho kết quả bé nhất trong khi sử dụng độ đo

thứ hai (sử dụng độ tương đồng giữa các từ) lại cho kết quả lớn nhất. Sử dụng độ đo

thứ ba (kết hợp giữa hai độ đo) thì kết quả thu được ở mức trung bình.

Ở độ đo thứ nhất, mặc dù phải trích chọn đúng các cụm từ trong từ điển thì mới

có thể so sánh độ tương đồng nhưng do giai đoạn bắt sự kiện đã chọn ra các tiêu đề

chứa các cụm đó nên có thể dễ dàng thực hiện. Mặt khác, ở độ đo này tác giả bỏ qua

tất cả các từ không thuộc từ điển nên kết quả là nhiều sự kiện đều vào một cụm khiến

cho số cụm ít. Ví dụ, “Nga tập trận rầm rộ với tên lửa chiến lược” thì độ đo thứ nhất

chỉ sử dụng các cụm từ trong từ điển mà bỏ qua từ “rầm rộ”. Số lượng đặc trưng giảm

khiến kết quả tương đồng tăng.

Trường hợp độ đo thứ hai, với việc tác giả thử nghiệm để so sánh với độ đo thứ

nhất và độ đo thứ ba, kết quả thu được nhiều cụm hơn. Lý do là tất cả các từ được sử

dụng khiến tập đặc trưng tăng lên khiến độ tương đồng giảm. Có thể lấy một ví dụ như

sau, hai tiêu đề “Nhật Bản triển khai tên lửa Patriot tại Tokyo chống Triều Tiên” và

“Nhật triển khai lá chắn tên lửa đề phòng Triều Tiên”. Về trực quan ta có thể thấy

được hai tiêu đề này chưa thông tin tương đồng nhau nhưng việc sử dụng độ tương

đồng của các từ riêng lẻ khiến độ tương đồng của hai tin này giảm xuống mức thấp

(theo độ đo thứ hai thì kết quả là 0.26) trong khi nếu dùng độ đo thứ nhất thì kết quả

cao hơn (theo độ đo thứ nhất kết quả là 0.89).

Độ đo thứ ba kết hợp được cả hai độ đo trên giải quyết được trường hợp rút gọn

từ. Các trang tin tức thông thường hay rút gọn nhưng vẫn đảm bảo cung cấp đủ thông

tin. Ví dụ người ta thường dùng Trung, Ấn, Nhật thay cho Trung Quốc, Ấn Độ và

Nhật Bản…

Tác giả sử dụng kết quả xâu chuỗi bằng độ đo thứ ba để xem xét các sự kiện

được quan tâm trong vòng 30 ngày (từ 8/4 đến 7/5). Hình 9 mô tả số lượng cụm và số

sự kiện lớn nhất trong một cụm.

31

Hình 9. Số cụm và số sự kiện lớn nhất trong các cụm từ 8/4 đến 7/5

Kết quả là từ 8-10/4 sự kiện được quan tâm nhiều nhất là về vấn đề Triều Tiên, từ

11-13/4 vẫn là về vấn đề Triều Tiên. Tuy nhiên sang đến ngày 14-16/4 thì vấn đề lại là

vụ khủng bố ở Boston. So sánh kết quả với thực tế ta thấy điều đó là hoàn toàn phù

hợp. Ngoài nếu lấy thử nghiệm từ ngày 2-4/5, sự kiện được nhắc đến nhiều nhất là vụ

máy bay Mỹ rơi ở Kyrgyzstan, hay chiến sự Syria… Kết quả xâu chuỗi sự kiện có ý

nghĩa thực tế rất lớn, chúng ta có thể tìm ra sự kiện nóng nhất trong một khoảng thời

gian rất ngắn. Bảng 3 minh họa sự so sánh với thực tế các sự kiện nóng nhất giữa hệ

thống và thực tế.

Bảng 3. So sánh giữa sự kiện nóng nhất giữa hệ thống với thực tế

Ngày Sự kiện nóng nhất trong hệ

thống

Sự kiện nóng nhất trong thực tế

8-10/4 Triều Tiên đe dọa tấn công một

số nước như Nhật Bản, Hoa Kỳ

Triều Tiên đe dọa tấn công một số

nước như Nhật Bản, Hoa Kỳ

14-16/4

Vụ tấn công khủng bố ở

Boston – Hoa Kỳ

Vụ tấn công khủng bố ở Boston –

Hoa Kỳ

2-4/5 Máy bay Mỹ rơi ở Kyrgyzstan Máy bay Mỹ rơi ở Kyrgyzstan

Sử dụng kết quả từ bộ luật thứ hai:

0

20

40

60

80

100

120

140

160

180

8/4 11/4 14/4 17/4 20/4 23/4 26/4 29/4 2/5 5/5

Số cụm

Số sự kiện lớn nhất trong

cụm

32

Do số lượng sự kiện bắt được của bộ luật này rất nhiều nên tác giả chỉ lấy đầu

vào là sự kiện trong vòng 10 ngày (từ 15/4 đến 24/4). Ở đây tác giả chỉ thử nghiệm

trên độ đo thứ ba (độ tương đồng kết hợp). Tác giả cũng thống kê số lượng sự kiện bắt

được trong phạm vi thời gian đang xét. Phần thống kê được minh họa bằng hình 10.

Hình 10. Thống kê trên bộ luật thứ hai

Kết quả thu được một lẫn nữa cho thấy tính phù hợp với thực tế đang diễn ra. Các

vấn đề nóng như vụ khủng bố ở Boston – Hoa Kỳ hay vấn đề Triều Tiên, Syria… đều

xuất hiện trong các cụm có số sự kiện lớn nhất.

4.5. Đánh giá

4.5.1. Phương pháp đánh giá

Trong phần thực nghiệm, tác giả thực hiện cả hai phần phát hiện sự kiện và xâu

chuỗi sự kiện nên sẽ đánh giá kết quả ở cả hai phần.

Do tác giả không có bộ dữ liệu chuẩn và cũng không thể chia dữ liệu để học và

để kiểm tra như thông thường nên tác giả dùng hệ số lỗi.

Tác giả sử dụng công thức hệ số lỗi như sau:

Trong đó

0

50

100

150

200

250

300

350

15/4 16/4 17/4 18/4 19/4 20/4 21/4 22/4 23/4 24/4

Số sự kiện

Số cụm

Số sự kiện lớn nhất trong cụm

33

n là số trường hợp sai.

N là số trường hợp được xét ngẫu nhiên.

Bên cạnh đó, tác giả cũng sử dụng công thức hệ số lỗi micro và macro như công

thức 4.2 và 4.3:

Trong đó:

là tỉ lệ lỗi ở mỗi cụm.

M là số cụm xét ngẫu nhiên.

Trong đó:

là sô ví dụ lỗi trong cụm thứ i.

là số lượng trường hợp trong cụm.

M là số cụm được xét.

4.5.2. Đánh giá

Với giai đoạn phát hiện sự kiện, tác giả lấy ngẫu nhiên và thu được kết quả như

hình 11. (tỉ lệ lỗi trung bình là 37 %)

34

Hình 11. Tỉ lệ lỗi trên các chủ đề (theo tập luật thứ nhất)

Các chủ đề trong hình 11 chính là 10 chủ đề tác giả quan tâm, theo thứ tự trình

bày tương ứng trên hình sẽ là bầu cử (Topic1), chiến tranh – quân sự (Topic2), hàng

không – vũ trụ (Topic3), hạt nhân (Topic4), khủng bố (Topic5), khủng hoảng kinh tế

(Topic6), ngoại giao (Topic7), tham nhũng (Topic8), tin tặc (Topic9) và tranh chấp

chủ quyền (Topic10).

Tác giả cũng lấy ngẫu nhiên 100 sự kiện được phát hiện bộ luật mới để đo tỉ lệ

lỗi. Kết quả tỉ lệ lỗi đạt 10%.

Kết quả tập luật thứ nhất có vẻ tỉ lệ lỗi cao tuy nhiên hầu hết các trường hợp lỗi

đều do sự nhập nhằng gây ra. Trong khi đó tập luật thứ hai thì không bị ảnh hưởng

nhiều bởi sự nhập nhằng nên kết quả thu được cao hơn.

Với giai đoạn xâu chuỗi sự kiện, tác giả chọn ngẫu nhiên 10 cụm để đánh giá tỉ lệ

lỗi với kết quả phát hiện sự kiện từ bộ luật thứ hai. Kết quả được minh họa ở bảng 4.

0

10

20

30

40

50

60

70

80

Topic1 Topic2 Topic3 Topic4 Topic5 Topic6 Topic7 Topic8 Topic9 Topic10

Tỉ lệ lỗi

35

Bảng 4. Kết quả xâu chuỗi sự kiện

Tỉ lệ lỗi micro là:

Tỉ lệ lỗi macro là:

Có thể thấy rằng tỉ lệ lỗi micro và macro cho giai đoạn xâu chuỗi sự kiện là khá

thấp.


Trong chương 4 tác giả đã mô tả khá cụ thể cách thức xây dựng từ điển và các

luật. Tiếp theo, tác giả cũng thể hiện hướng thực nghiệm một cách rõ ràng. Các kết quả

cũng như nhận xét về kết quả cho thấy mức độ thực tiễn của bài toán. Cuối cùng là

phần đánh giá theo tỉ lệ lỗi cho hệ thống.

Số sự kiện trong cụm

Số sự kiện sai Tỉ lệ lỗi

Cụm 1 11 1 0.091

Cụm 2 33 2 0.061

Cụm 3 11 3 0.272

Cụm 4 8 3 0.375

Cụm 5 20 4 0.2

Cụm 6 37 5 0.135

Cụm 7 40 5 0.135

Cụm 8 27 3 0.11

Cụm 9 8 2 0.25

Cụm 10 7 1 0.143

Tổng 202 29

36

Tổng kết

Khóa luận nêu lên được bài toán Xâu chuỗi văn bản theo sự kiện, đồng thời khóa

luận đã xem xét được một số tiếp cận để phát hiện và xâu chuỗi sự kiện dưới mức độ

văn bản. Các phương pháp sử dụng trọng số TF – IDF và thông tin thời gian – địa

điểm chỉ thích hợp với toàn văn bản. Đối với đối tượng là tiêu đề thì các phương pháp

trên trở nên không phù hợp.

Tác giả đã đề xuất và thử nghiệm một phương pháp phát hiện và xâu chuỗi sự

kiện dựa trên việc xây dựng các từ điển, luật cũng như sử dụng độ tương đồng cô-sin ở

cả ba mức cụm từ, từ và kết hợp giữa cụm từ và từ.

Tác giả cũng đã trình bày một số ưu điểm của hướng sử dụng tiêu đề của văn bản.

Việc chỉ thực hiện trên tiêu đề khiến thời gian để phát hiện và xâu chuỗi sự kiện trở

nên ngắn đi, không những thế chúng ta có thể nhanh chóng nắm được một số sự kiện

nóng hổi mang tính thời sự. Thực nghiệm cho thấy kết quả hoàn toàn phù hợp với thực

tế đang diễn ra.

Việc tỉ lệ lỗi còn cao là điều khó tránh khỏi. Xử lý ngôn ngữ tự nhiên vốn dĩ đã là

một bài toán khó, bên cạnh đó trích chọn thống tin cũng là một bài toán khó khăn

không kém. Do thời gian có hạn nên bộ dữ liệu tác giả xây dựng được chưa nhiều, các

luật đưa ra vẫn còn rất lỏng lẻo.

37

Định hướng tương lai

Như tác giả đã đề cập trong các phần trước, tác giả gặp khá nhiều khó khăn. Nếu

xây dựng và hoàn thiện tiếp, tác giả dự định thực hiện một số công việc như sau:

Thứ nhất, tác giả sẽ xây dựng bộ dữ liệu đầy đủ hơn, mang tính thời sự hơn.

Thứ hai, tác giả cũng sẽ thiết lập các luật chặt chẽ hơn, tránh được càng nhiều

nhập nhằng càng tốt.

Thứ ba, tác giả sẽ tìm cách giải quyết vấn đề đồng tham chiếu.

Cuối cùng, trên cơ sở dữ liệu cũng như luật mới, tác giả sẽ thử nghiệm để tìm

ngưỡng tương đồng phù hợp nhất (hiện tại đang lấy 0.2) cùng với độ tương đồng thích

hợp nhất.

38

Tài liệu tham khảo

Tiếng Anh

[1] David Ahn. “The stages of event extraction”, in Proceedings of the Workshop

on Annotating and Reasoning about Time and Events, 2006, pp. 1-8.

[2] J. Allan, J. Carbonell, G. Doddington, J. Yamron, and Y. Yang. “Topic

detection and tracking pilot study: Final report”, in Proceedings of the DARPA

Broadcast News Transcription and Understanding Workshop, 1998, pp. 194-218.

[3] James Allan, Ron Papka, and Victor Lavrenko. “On-line new event detection

and tracking”, in Proceedings of the 21st annual international ACM SIGIR conference

on Research and development in information retrieval, 1998, pp. 37-45.

[4] Thorsten Brants, Francine Chen, Ayman Farahat. “A system for new event

detection”, in Proceedings of the 26th annual international ACM SIGIR conference on

Research and development in informaion retrieval, 2003, pp. 330-337.

[5] Hong-woo Chun, Young-sook Hwang, and Hae-Chang Rim. “Unsupervised

event extraction from biomedical literature using co-occurrence informationand basic

patterns”, in Proceedings of the First international joint conference on Natural

Language Processing, 2005, pp. 777-786.

[6] K. Bretonnel Cohen, Karin Verspoor, Helen L. Johnson, Chris Roeder, Philip

V. Ogren, William A. Baumgartner, Jr., Elizabeth White, Hannah Tipney, and

Lawrence Hunter. “High-precision biological event extraction with a concept

recognizer”, in Proceedings of the Workshop on Current Trends in Biomedical Natural

Language Processing: Shared Task, 2009, pp. 50-58.

[7] Baoli Li, Wenjie Li, and Qin Lu. “Enhancing topic tracking with temporal

information”, in Proceedings of the 29th annual international ACM SIGIR conference

on Research and development in information retrieval, 2006, pp. 667-668.

[8] Yun Jin, Sung Hyon Myaeng, Yuchul Jung. “Use of place information for

improved event tracking”. in Journal Information Processing and Management: an

International Journal - Special issue: AIRS2005: Information retrieval research in

Asia, volume 43 issue 2, 2007, pp. 365-378.

[9] Juha Makkonen, Helena Ahonen-Myka, and Marko Salmenkivi. “Topic

detection and tracking with spatio-temporal evidence”, in Proceedings of the 25th

European conference on IR research, 2003, pp 251-265.

39

[10] Heikki Mannila, Hannu Toivonen, and A. Inkeri Verkamo. “Discovery of

frequent episodes in event sequences”, in Data Mining and Knowledge Discovery,

1997, pp. 259-289.

[11] John Naisbitt. “Megatrends: Ten New Directions Transforming Our Lives”,

Grand Central Publishing, 1988.

[12] Ramesh Nallapati. “Semantic language models for topic detection and

tracking”, in Proceedings of the 2003 Conference of the North American Chapter of

the Association for Computational Linguistics on Human Language Technology,

volume 3, 1998, pp. 1-6.

[13] Yoko Nishihara, Keita Sato, and Wataru Sunayama. “Event extraction and

visualization for obtaining personal experiences from blogs”, in Proceedings ofthe

Symposium on Human Interface 2009 on Human Interface and the Management of

Information. Information and Interaction. Part II: Held as part of HCI International

2009, pp. 315–324.

[14] Ron Papka, James Allan. “On-Line New Event Detection using Single Pass

Clustering”, in Technical Report at University of Massachusetts Amherst, 1998, pp. 1-

10.

[15] Sunita Sarawagi. “Information extraction”, in Journal Foundations and

Trends in Databases, Volume 1 issue 3, 2008, pp. 261–377.

[16] J. M. Schultz and M. Liberman. “Topic detection and tracking using idf-

weighted cosine coefficient”, in Proceedings of the DARPA Broadcast News

Workshop, 1999, pp. 189–192.

[17] Hristo Tanev, Jakub Piskorski, and Martin Atkinson. “Real-Time News

Event Extraction for Global Crisis Monitoring”, in Proceedings of the 13th

international conference on Natural Language and Information Systems: Applications

of Natural Language to Information Systems, 2008, pp. 207-218.

[18] Yiming Yang, Jaime G. Carbonell, Ralf D. Brown, Thomas Pierce, Brian

T.Archibald, and Xin Liu. “Learning approaches for detecting and tracking news

events”, in Journal IEEE Intelligent Systems, volume 14 issue 4, 1999, pp. 32-43.

[19] Yiming Yang, Tom Pierce, and Jaime Carbonell. “A study of retrospective

and online event detection”, in Proceedings of the 21st annual international ACM

40

SIGIR conference on Research and development in information retrieval, 1998, pp.

28-36.

41

Phụ lục

Một số ví dụ về các luật được xây dựng và một số tiêu đề được phát hiện

Bộ luật thứ nhất:

BAUCU [NP_BAUCU][NER_LOC][VP_BAUCU]: Tân tổng thống Venezuela

nhậm chức.

HANGKHONG [NER_LOC][VP_HANGKHONG][NP_HANGKHONG]: Iran

thử thành công 2 tên lửa tầm ngắn.

QUANSU [NER_LOC][VP_QUANSU][NER_LOC]: Israel đã không kích Syria.

TINTAC [OBN_TINTAC][VP_TINTAC][NP_TINTAC][NER_LOC]:

Anonymous đánh sập 5 trang web Triều Tiên.

KHUNGBO

[NER_ORG][VP_KHUNGBO][NP_KHUNGBO][OBN_KHUNGBO]: FBI mở rộng

điều tra vụ đánh bom Boston.

…

Bộ luật thứ hai:

[NP][NER][VP][NP]: Thủ tướng Ai Cập thoát chết sau một vụ tấn công.

[NP][NER][VP][NER]: Ngoại trưởng Mỹ thăm Nga.

[NP][NER][NER][VP]: Đại sứ quán Pháp ở Libya bị đánh bom.

[NER][NER][VP][VP]: Mỹ: Thành phố Boston bị đánh bom khủng bố.

[NER][VP][NER][VP]: Mỹ phản đối Trung Quốc dọa dẫm láng giềng.

[NER][VP][NP][NER]: Ông Tập Cận Bình hội đàm với Tổng thống Palestine.

[NP][NER][VP][NER][NER]: Tổng thống Hàn Quốc tới thăm Mỹ về vấn đề

Triều Tiên.

[NP][NER][VP][NER][VP][NER] Thủ tướng Thổ Nhĩ Kỳ phản đối Israel không

kích ở Syria.

…

Documents

ĐẠI HỌC QUỐC GIA HÀ NỘI I H - uet.vnu.edu.vnuet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Le_Manh_Cuong_Thesis.pdf · ngày một tăng. Bài toán xâu chuỗi văn bản là