43
ĐẠI HC QUC GIA HÀ NI TRƯỜNG ĐẠI HC CÔNG NGHNgô Quang Hiu PHÂN TÍCH VÀ TRC QUAN HÓA CHUI SKIN DNG HTHNG LIFEFLOW KHOÁ LUN TT NGHIỆP ĐẠI HC HCHÍNH QUY Ngành: Công NghThông Tin HÀ NI - 2013

PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Ngô Quang Hiểu

PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN

DẠNG HỆ THỐNG LIFEFLOW

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

HÀ NỘI - 2013

HÀ NỘI 2013

Page 2: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Ngô Quang Hiểu

PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN

DẠNG HỆ THỐNG LIFEFLOW

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công Nghệ Thông Tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS. Vũ Ngọc Trình

Page 3: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

i

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS Hà

Quang Thụy, ThS. Vũ Tiến Trình, những người đã tận tình hướng dẫn, chỉ bảo tôi trong

suốt quá trình thực hiện khóa luận tốt nghiệp.

Tôi xin cảm ơn các thầy cô và cán bộ của trường Đại học Công Nghệ đã dạy bảo

cũng như tạo điều kiện cho tôi học tập và nghiên cứu tại đây.

Tôi cũng xin cảm ơn các anh chị, các bạn trong phòng thí nghiệm công nghệ tri

thức KT-Lab đã giúp đỡ tôi rất nhiều trong việc hỗ trợ các vấn đề chuyên môn trong học

tập và trong quá trình thực hiện khóa luận.

Tôi xin gửi lời cảm ơn đến các bạn trong lớp K54CD đã ủng hộ, khích lệ, giúp đỡ

tôi rất nhiều trong quá trình học tập và rèn luyện tại trường.

Cuối cùng, tôi muốn gửi lời biết ơn vô hạn tới gia đình, bạn bè, người thân, đặc

biệt là bố mẹ và em gái tôi, những người luôn dành cho tôi sự yêu thương, tin tưởng, luôn

sát cánh bên tôi, hỗ trợ về mọi mặt, khuyến khích và ủng hộ để tôi có thể vượt qua những

khó khăn và đạt được những thành công trong học tập và cuộc sống.

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 10 tháng 5 năm 2013

Sinh viên

Ngô Quang Hiểu

Page 4: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

ii

TÓM TẮT NỘI DUNG

Phân tích và trích chọn chuỗi sự kiện là quá trình trích chọn thông tin trong các

văn bản có chứa sự kiện, nhóm các văn bản cùng nói về một sự kiện thành chuỗi theo thứ

tự thời gian. Đây là một bài toán có tính ứng dụng thực tiễn cao nên nó đã và đang nhận

được sự quan tâm nghiên cứu của nhiều nhà khoa học, chẳng hạn tại các hội nghị khoa

học quốc tế có uy tín như MUC (Message Understand Conference), chương trình TDT

(Topic Detection Tracking), chương trình ACE (Automatic Content Extraction), tại các

trung tâm nghiên cứu IBM, Microsoft…

Đi cùng với bài toán trích chọn chuỗi sự kiện là việc trực quan hóa các chuỗi sự

kiện trích chọn được. LifeFlow là một hệ thống trực quan hóa chuỗi sự kiện do Guerra-

Gómez J. và cộng sự (Đại học Maryland) nghiên cứu phát triển [1]. Hệ thống cho phép

biểu diễn theo thời gian, thống kê, và theo vết các chuỗi sự kiện rất hiệu quả.

Khóa luận tốt nghiệp với đề tài “Phân tích và trực quan hóa chuỗi sự kiện dạng hệ

thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích và trích chọn chuỗi sự

kiện đồng thời thực hiện trực quan hóa các chuỗi sự kiện này. Khóa luận trình bày một

số hướng tiếp cận để giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, sau đó, đề

xuất một phương pháp nhằm trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng

Việt. Phần cuối của khóa luận mô tả quá trình thực nghiệm với phương pháp đánh giá độ

tương đồng kết hợp thông tin thời gian, địa điểm sau đó trực quan hóa bằng hệ thống

LifeFlow.

Từ khóa: chuỗi sự kiện, trích chọn chuỗi sự kiện, nhận dạng chuỗi sự kiện, phân tích

chuỗi sự kiện, trực quan hóa chuỗi sự kiện

Page 5: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

iii

Lời cam đoan

Tôi xin cam đoan rằng, khóa luận tốt nghiệp với đề tài “Phân tích và trực quan

hóa chuỗi sự kiện dạng hệ thống LifeFlow” là công trình nghiên cứu của mình với sự

giúp đỡ của giảng viên hướng dẫn là PGS.TS. Hà Quang Thụy. Các nội dung và kết quả

trong khóa luận này hoàn toàn là trung thực, được viết lại theo cách hiểu của bản thân sau

quá trình nghiên cứu, thực nghiệm, không hề sao chép từ bất kì nguồn có sẵn nào. Tất cả

các tài liệu tham khảo liên quan đều được trích dẫn trong danh sách các tài liệu tham khảo

của khóa luận.

Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước

hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình.

Hà Nội, ngày 10 tháng 5 năm 2013

Sinh viên

Ngô Quang Hiểu

Page 6: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

iv

Nội Dung

Lời cảm ơn ................................................................................................................ i

TÓM TẮT NỘI DUNG .......................................................................................... ii

Lời cam đoan .......................................................................................................... iii

Danh sách hình vẽ và bảng biểu .......................................................................... vii

Danh sách thuật toán ........................................................................................... viii

LỜI MỞ ĐẦU ......................................................................................................... 1

Chương 1 ................................................................................................................. 3

Tổng quan về phân tích và trích chọn chuỗi sự kiện .......................................... 3

1.1. Trích chọn thông tin .................................................................................... 3

1.2. Trích chọn sự kiện....................................................................................... 3

1.2.1. Định nghĩa sự kiện ............................................................................ 4

1.2.2. Trích chọn sự kiện ............................................................................ 5

1.3. Phân tích và trích chọn chuỗi sự kiện ......................................................... 5

1.3.1. Phân tích chuỗi sự kiện và tính thời sự ............................................. 5

1.3.2. Định nghĩa chuỗi sự kiện .................................................................. 5

1.3.3. Phát hiện sự kiện khởi đầu và quyết định chuỗi ............................... 6

1.3.4. Trực quan hóa chuỗi sự kiện ............................................................. 7

1.4. Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự kiện .......... 7

1.4.1. Ý nghĩa khoa học .............................................................................. 7

1.4.2. Ứng dụng thực tiễn ........................................................................... 7

1.5. Khó khăn và thách thức .............................................................................. 7

1.6. Tóm tắt chương 1 ........................................................................................ 8

Chương 2 .................................................................................................................. 9

Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện .............................. 9

2.1. Hướng tiếp cận học máy ............................................................................. 9

2.1.1. Phương pháp k người láng giềng gần nhất k-NN .................................... 9

2.1.2. Phương pháp lai kNN-SVM ........................................................... 11

Page 7: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

v

2.2. Hướng tiếp cận sử dụng trọng số TF-IDF ................................................. 13

2.3. Hướng tiếp cận sử dụng thông tin thời gian- địa điểm ............................. 14

2.3.1. Thông tin thời gian ......................................................................... 14

2.3.2. Thông tin địa điểm .......................................................................... 15

2.4. Nhận xét và đánh giá ................................................................................. 16

2.5. Tóm tắt chương 2 ...................................................................................... 16

Chương 3 ............................................................................................................... 18

Phương pháp phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng

Việt ......................................................................................................................... 18

3.1 Mô tả bài toán ........................................................................................... 18

3.2 Phương pháp đề xuất ................................................................................. 18

3.2.1 Đánh giá độ tương đồng nội dung ...................................................... 20

3.2.2 Đánh giá độ tương đồng thời gian địa điểm ....................................... 20

3.2.3 Đánh giá độ tương đồng sự kiện ........................................................ 21

3.3 Mô hình giải quyết .................................................................................... 22

3.3.1 Lưu trữ dữ liệu ................................................................................... 22

3.3.2 Trích chọn đặc trưng .......................................................................... 24

3.3.3 Biểu diễn sự kiện ................................................................................ 24

3.3.4 Phát hiện sự kiện khởi đầu ................................................................. 24

3.3.5 Tính độ tương đồng sự kiện ............................................................... 24

3.3.6 Quyết định chuỗi sự kiện ................................................................... 25

3.3.7 Mô hình chuỗi sự kiện ........................................................................ 25

3.4 Tóm tắt chương 3 ...................................................................................... 25

Chương 4: .............................................................................................................. 27

Thực nghiệm ......................................................................................................... 27

4.1. Phương pháp thực nghiệm ........................................................................ 27

4.1.1. Phương pháp đánh giá .................................................................... 27

4.1.2. Chiến thuật thực nghiệm ................................................................. 27

4.2. Môi trường thực nghiệm ........................................................................... 29

Page 8: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

vi

4.2.1. Hệ thống phần cứng ........................................................................ 29

4.2.2. Công cụ phần mềm ......................................................................... 29

4.3. Kết quả thực nghiệm và đánh giá ............................................................. 29

Tổng kết ................................................................................................................. 31

Tài liệu tham khảo ................................................................................................ 32

Page 9: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

vii

Danh sách hình vẽ và bảng biểu

Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy ………………… 10

Hình 2.2. Mô tả dữ liệu âm dương ………………………………………. 11

Hình 2.3. Sự nhập nhằng của học máy SVM …………………………….. 13

Hình 3.1. Mô hình đề xuất để giải quyết bài toán………………………… 24

Hình 3.2. Cấu trúc tệp dữ liệu sự kiện…………………………………..... 26

Hình 3.3. Cấu trúc tệp thuộc tính sự kiện ………………………………... 26

Hình 4.1. Giao diện hệ thống VnLoc …………………………………….. 29

Page 10: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

viii

Danh sách thuật toán

Thuật toán 1. Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM……..14

Page 11: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

1

LỜI MỞ ĐẦU

Hiện nay, sự phát triển mạnh mẽ của Internet dẫn đến sự bùng nổ thông tin về

nhiều mặt kể cả nội dung lẫn số lượng. Mặt khác, nhu cầu tiếp nhận, theo dõi, phân tích

thông tin, tìm kiếm tri thức của các cá nhân, tổ chức luôn là thiết yếu. Chính vì lý do đó,

bài toán trích chọn thông tin được coi là bài toán quan trọng trong vấn đề tìm kiếm thông

tin, tri thức từ nguồn Internet [2] [3] [4].

Là một lĩnh vực con của trích chọn thông tin, phân tích và trích chọn chuỗi sự kiện

được áp dụng trong rất nhiều hoạt động như theo dõi tin tức, chăm sóc sức khỏe, quảng

cáo, dự đoán, dự báo xu hướng… bên cạnh đó là nhiều lợi ích về khoa học và kinh tế

khác. Mục tiêu chính của khóa luận là tập trung vào khảo sát, nghiên cứu các phương

pháp giải quyết bài toán phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức

tiếng Việt với sự kế thừa kết quả từ hệ thống theo dõi sự kiện trực tuyến VnLoc. Phương

pháp chính được đề xuất là tính toán độ tương đồng nội dung giữa các sự kiện kết hợp sử

dụng các thông tin về thời gian, địa điểm. Kết quả của phương pháp này tương đối khả

quan, nó sẽ là tiền đề cho các nghiên cứu về sau của tác giả trong thời gian tới. Dữ liệu

đầu ra của hệ thống đã được hiển thị rất tốt với chương trình trực quan hóa sự kiện theo

dòng thời gian LifeFlow.

Khóa luận bao gồm 4 chương được mô tả như dưới đây.

Chương 1. Tổng quan về phân tích chuỗi sự kiện. Đưa ra cái nhìn tổng quát về

trích chọn thông tin trong kỷ nguyên dữ liệu lớn, bài toán phân tích và trích chọn chuỗi sự

kiện, tầm quan trọng và ứng dụng của nó trong khoa học cũng như thực tiễn.

Chương 2. Nền lý thuyết về trích chọn và phân tích chuỗi sự kiện. Trình bày một

số hướng tiếp cận giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, đánh giá các

hướng tiếp cận này để lựa chọn giải pháp thử nghiệm cho vấn đề phân tích chuỗi sự kiện

trên miền dữ liệu tiếng Việt.

Chương 3. Phương pháp phân tích và trực quan hóa chuỗi sự kiện. Mô tả đặc

điểm của dữ liệu, phân tích các khía cạnh của bài toán và trình bày cụ thể mô hình giải

quyết bài toán.

Chương 4. Thực nghiệm và đánh giá. Chương này trình bày quá trình thực nghiệm

với mô hình đề xuất ở chương 3, đưa ra các kết quả thực nghiệm cùng với so sánh và

đánh giá.

Page 12: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

2

Tổng kết là phần tóm tắt các công việc mà khóa luận đã thực hiện được, những kết

quả đạt được và những điểm còn hạn chế, đề ra phương hướng nghiên cứu trong thời gian

tới.

Page 13: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

3

Chương 1

Tổng quan về phân tích và trích chọn chuỗi sự kiện

Chương đầu tiên của khóa luận sẽ giới thiệu tổng quan về lĩnh vực trích chọn

thông tin trong kỷ nguyên dữ liệu lớn. Bên cạnh đó trình bày sơ lược về bài toán phân

tích, trích chọn và trực quan hóa chuỗi sự kiện cùng sự cần thiết của nó trong nghiên cứu

khoa học cũng như thực tiễn. Cuối cùng, khóa luận sẽ đưa ra những khó khăn và thách

thức của cộng đồng khoa học cũng như bản thân tác giả khi giải quyết bài toán.

1.1. Trích chọn thông tin

Trích chọn thông tin là lĩnh vực nhận được sự quan tâm rất lớn từ các nhà khoa

học. Con người luôn có nhu cầu trích chọn thông tin để có một sự thấu hiểu, một cái nhìn

tổng quan về những dữ liệu mình có được, hơn cả là có được những tri thức mới để phục

vụ nhu cầu tìm tòi, hiểu biết của cá nhân hay áp dụng vào thực tiễn trong nghiên cứu khoa

học và giải quyết các bài toán kinh tế của các tổ chức.

Hiện nay, với sự gia tăng chóng mặt về số lượng cũng như sự phức tạp của thông

tin thì nhiệm vụ trích chọn thông tin lại càng trở lên quan trọng. Nó được áp dụng trong

nhiều lĩnh vực cuộc sống như theo dõi tin tức, làm sạch dữ liệu, chăm sóc khách hàng,

quảng cáo… Đáng tiếc, là dữ liệu mà chúng ta có hiện nay hầu hết là các văn bản dạng

phi cấu trúc và bán cấu trúc. Các công cụ phần mềm đơn thuần không thể tự động phân

tích các văn bản này, nó đòi hỏi con người phải mất rất nhiều thời gian, công sức để thực

hiện công việc phân tích và chọn lọc. Trích chọn thông tin chính là giải pháp cho vấn đề

này. Theo Cowie & Lehnert [2] trích chọn thông tin là lựa chọn các mảnh thông tin rời

rạc có giá trị trong văn bản sau đó đưa chúng vào các dạng dữ liệu có cấu trúc nhằm nâng

cao khả năng phân tích, biểu diễn, trực quan dữ liệu.

Trích chọn thông tin có nhiều mức độ như nhận dạng thực thể (Entity

Recognition), xác định thuộc tính đặc trưng (Attribute Recognition), xác định quan hệ

giữa các thực thể (Ralation Extraction), nhận dạng đồng tham chiếu (Co-reference

Resolution) [4]. Bởi tính đa dạng về lĩnh vực, ngôn ngữ, rất nhiều phương pháp đã được

đề xuất và áp dụng để trích chọn thông tin: các phương pháp dựa trên luật, các mô hình

thống kế, các mô hình học máy. Mỗi phương pháp có ưu nhược điểm khác nhau và phù

hợp với những kiểu dữ liệu nhất định.

1.2. Trích chọn sự kiện

Trích chọn sự kiện là bài toán nhận được sự quan tâm từ cộng đồng nghiên cứu

khoa học từ rất sớm. Các vấn đề liên quan đến trích chọn sự kiện được đề cập đến nhiều

nhiều trong hội nghị nổi tiếng như MUC (Message Understand Conference) với đóng góp

Page 14: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

4

quan trọng là đưa ra phương pháp trích xuất sự kiện theo khung mẫu (scenario template).

Phương pháp này có thể trích chọn được ác sự kiện cùng các thông tin liên quan như tổ

chức, các đối tượng tham gia (tác nhân, sự kiện) với độ chính xác và độ hồi tưởng nằm

trong khoảng 50% tới 60% [5]. Bên cạnh đó, chương trình Phát hiện và theo dõi chủ đề

(TDT-Topic Detection and Tracking) được Viện công nghệ và chuẩn quốc gia Hoa Kỳ

(NIST) cùng DARPA tổ chức thường niên từ năm 1997 tập trung giải quyết bài toán phát

hiện sự kiện mới và theo dõi, xâu chuỗi sự kiện. Chương trình đã thu hút được sự quan

tâm của nhiều nhóm nghiên cứu nổi tiếng về trích chọn thông tin trên toàn thế giới. Tại

các hội nghị và chương trình danh giá khác về Xử lý ngôn ngữ tự nhiên và trích chọn

thông tin, vấn đề trích xuất sự kiện cũng được rất nhiều nhóm nghiên cứu có uy tín tham

luận, công bố và chia sẻ công trình nghiên cứu của mình với những kết quả ngày càng

tích cực

1.2.1. Định nghĩa sự kiện

Theo Allan và cộng sự thì tin tức được coi là phản ánh một sự kiện nếu nó có đủ

bốn yếu tố: hành vi, chủ thể, thời gian, địa điểm [6]. Hành vi là các hoạt động/hành động

gây ra sự kiện. Chủ thể là con người, sự vật hoặc sự việc. Thời gian là thời gian xảy ra sự

kiện. Địa điểm là nơi diễn ra sự kiện. Ví dụ: “Sáng ngày 28/8/2012 đã xảy ra một vụ tai

nạn trên đường Quốc lộ 1A khiến cho 2 người chết và 1 người bị thương.”. Cũng theo

nhóm nghiên cứu này, việc định nghĩa rõ ràng thế nào là một sự kiện rất khó bởi sự đa

dạng của ngôn ngữ, tính nhập nhằng liên quan tới ngữ cảnh và sự phức tạp về văn hóa của

mỗi cộng đồng. Ví dụ sau đây có đủ bốn yếu tố nhưng vẫn không phải là sự kiện: “Theo

thống kê, trong 6 tháng đầu năm nay, số người tử vong do hỏa hoạn trên địa bàn

TP.HCM đã tăng lên con số 23. ”. Trong phạm vi giải quyết bài toán trích xuất sự kiện,

việc định nghĩa rõ ràng sự kiện mà nghiên cứu quan tâm là yêu cầu trước tiên.

Chương trình ACE đã định nghĩa sự kiện như là một sự việc xảy ra rõ ràng có liên

quan đến người tham gia. Sự kiện được đề cập đến được mô tả bởi một cụm từ hoặc một

câu, nó bao gồm nguyên nhân xảy ra sự kiện và thành phần liên quan. Mỗi sự kiện chỉ có

một và chỉ một nguyên nhân và có thể có số lượng tùy ý các thành phần liên quan. Các

thành phần liên quan ở đây có thể là các thực thể được đề cập đến có quan hệ với sự kiện,

và mối quan hệ của các thực thể với nhau trong sự kiện. Ví dụ, sự kiện “sự tấn công” thì

phải có người tham gia là “người tấn công” hoặc “mục tiêu”, còn các thành phần liên

quan có thể là “thời gian diễn ra” và “địa điểm diễn ra”.

Trên thực tế, các nhóm nghiên cứu khác nhau quan tâm đến các lĩnh vực khác nhau

vì vậy việc định nghĩa thế nào là sự kiện cũng được xem xét, quyết định bởi mỗi lĩnh vực

thì sự kiện được định nghĩa bởi các thuộc tính có thể khác nhau, sự ưu tiên của các thuộc

tính này cũng khác nhau. Một sự kiện khi được đề cập đến không nhất thiết phải có đầy

đủ các thuộc tính như trong định nghĩa.

Page 15: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

5

1.2.2. Trích chọn sự kiện

Trích chọn sự kiện là lĩnh vực con của trích chọn thông tin, nhiệm vụ của nó là tự

động phân tích và trích chọn các đặc trưng về sự kiện trong các tài liệu phi cấu trúc hoặc

bán cấu trúc. Cụ thể hơn, trích chọn sự kiện tập trung vào nhận dạng các sự kiện thuộc

một miền lĩnh vực biết trước đồng thời đưa ra các đặc trưng (tham số) của sự kiện như:

tên, tác nhân, thời gian, địa điểm…

1.3. Phân tích và trích chọn chuỗi sự kiện

1.3.1. Phân tích chuỗi sự kiện và tính thời sự

Phân tích chuỗi sự kiện là một nhiệm vụ quan trọng trong nhiều lĩnh vực. Cụ schất

lượng chăm sóc sức khỏe cho bệnh nhân; phân tích các chuỗi hành vi người dùng để tìm

ra các mẫu sử dụng cho quảng cáo và nâng cao chất lượng dịch vụ … Trong mỗi lĩnh vực

đều có những phần mềm chuyên dụng để phân tích các, trực quan hóa các chuỗi sự kiện

để nhà quản lý có thể dễ dàng đánh giá được dữ liệu của mình. Với một yêu cầu, các dữ

liệu đầu vào phải ở dạng có cấu trúc được phân tích từ các bản ghi sự kiện giao dịch, các

phiên làm việc của người dùng… Tuy nhiên, như đã nói ở phần 1.1, lượng dữ liệu có cấu

trúc nàylà rất nhỏ so với lượng dữ liệu phi cấu trúc vô cùng lớn và có giá trị như các loại

nội dung số trên các trang báo mạng, mạng xã hội. Đây là động lực chính để tác giả tìm

hiểu và nghiên cứu giải pháp cho vấn đề phân tích và trực quan hóa chuỗi sự kiện áp dụng

trên miền tin tức tiếng Việt.

Phân tích chuỗi sự kiện là việc trích chọn các đặc trưng của sự kiện, tính toán sự

tương đồng của các sự kiện riêng biệt để liên kết chúng nhằm mô tả diễn biến của sự kiện

đó. Đây là bài toán được đặt ra cho nhiều hội nghị và chương trình chuyên nghiên cứu về

trích chọn thông tin, cụ thế nó là một trong năm nội dung của chương trình TDT-1 (1997).

Chương trình này quan tân đến hai dạng dữ liệu: tin tức dưới dạng văn bản và tin tức

thông qua phát thanh, truyền hình.

1.3.2. Định nghĩa chuỗi sự kiện

Trong công bố của Hekki Mannila và cộng sự [7], một sự kiện được định nghĩa bởi

cặp (A,t) với A ϵ E là tập sự kiện (A bao gồm tên sự kiện, loại sự kiện và các thuộc tính), t

là thời gian xảy ra sự kiện đó. Mỗi loại sư kiện có thể chứa đựng môt vài thuộc tính,

nhưng để đơn giản chúng ta coi như mỗi loại sự kiện chỉ có một giá trị duy nhất. Chuỗi sự

kiện S trên tập sự kiện E là một bộ ba giá trị (s, Ts, Te) với:

s = { (A1, t1), (A2, t2),…, (An, tn) }

là dãy có thứ tự của các sự kiện ở đó

Ai ϵ E với i = 1, …, n

ti ≤ ti + 1 với i = 1, …,n-1

Ts là thời gian bắt đầu dãy sự kiện

Page 16: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

6

Te là thời gian kết thúc dãy sự kiện

Ts, Te ϵ N

Ts ≤ ti < Te với i = 1,…, n.

Ví dụ: Hình dưới đây biểu diễn chuỗi sự kiện S = (s, 29, 68), ở đó

...,( ,31),( ,32),( ,33),( ,35),( ,37),...,( ,67),...s E D F A B D

Hình 1.1: Mô tả của một chuỗi sự kiện

Theo TDT, nhận dạng chuỗi sự kiện gồm 2 bước. Ở bước thứ nhất, sự kiện khởi

đầu được đánh dấu - bài toán phát hiện sự kiện đầu (First Story Detection) trong TDT-

1,2; bài toán phát hiện sự kiện mới (New Event Detection ) trong TDT-3,4,5. Bước thứ

hai, từ tập sự kiện đã được trích xuất, cần có những phương pháp đánh giá liên kết giữa

các sự kiện để quyết định chuỗi.

1.3.3. Phát hiện sự kiện khởi đầu và quyết định chuỗi

Chương trình TDT định nghĩa sự kiện khởi đầu là một sự kiện chưa từng xảy ra

hoặc chưa từng được nhắc đến tính tới thời điểm hiện tại [8]. Hình 1.2 minh họa sự kiện

khởi đầu trong luồng thông tin cập nhật. Hai sự kiện được biểu diễn bởi hình thoi và hình

tròn trong luồng thông tin hỗn tạp được sắp xếp theo thời gian. Hình vẽ chỉ ra hai sự kiện

khởi đầu cùng các sự kiện kéo theo chúng. Kết quả nhóm nghiên cứu tại đại học Carnegie

Mellong do Yiming Yang điều hành cho rằng việc phát hiện sự kiện khởi đầu có thể tiến

hành theo hai khía cạnh. Thứ nhất, dựa trên các sự kiện đã xảy ra trước đó, những sự kiện

được khởi đầu được đánh dấu, nghĩa là việc phát hiện sự kiện ngoại tuyến. Thứ hai, giám

sát luồng thông tin cập nhật và phát hiện sự khởi đầu qua từng sự kiện, tức ra thực hiện

trực tuyến [9].

Trong luồng thông tin cập nhật liên tục, chúng ta phải quan tâm đến sự kiện trùng

lặp và sự kiện tương đồng. Đối với sự kiện trùng lặp, nhiều nguồn tin đưa ra cùng một sự

kiện, tức là chúng có cùng tên và các thuộc tính. Trong khi đó, sự kiện tương đồng là

những sự kiện phản ánh sự thay đổi về trạng thái của sự kiện khởi đầu. Khi một sự kiện

xuất hiện trong luồng thông tin, nó sẽ được xác định xem có phải là sự kiện mới không

dựa trên độ tương đồng, đây cũng là cơ sở để quyết định chuỗi. Bài toán khử trùng lặp sẽ

được thực hiện trong pha trích xuất sự kiện, còn ở bài toán nhận dạng chuỗi sự kiện ta chỉ

quan tâm tới các sự kiện tương đồng.

Page 17: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

7

1.3.4. Trực quan hóa chuỗi sự kiện

LifeFlow là dạng các hệ thống có khả năng trực quan hóa chuỗi sự kiện theo thời

gian, biểu diễn các mốc sự kiện và khoảng thời gian giữa các mốc này. Hiện nay có khá

nhiều hệ thống có khả năng như trên, đơn cử là hệ thống Event Flow, một bản nâng cấp

của LifeFlow được phát triển bởi nhóm nghiên cứu tại trường Đại học Maryland, Mỹ.

EventFlow cho phép thống kê số lượng các chuỗi sự kiện, tìm kiếm chúng dựa trên các

đặc trưng [1].Một công cụ trực quan hóa rất tốt khác phải kể đến đó là Zinsight, phát

triển bởi trung tâm nghiên cứu của IBM và được công bố vào năm 2010 [10]. Ngoài khả

năng thống kê, Zinsight còn có thể theo dấu sự kiện, vẽ biểu đồ chuỗi sự kiện cùng một số

chức năng phân tích khác. Đặc biệt, Zinsight được phát triển như các plug-in cho phép

tích hợp vào những môi trường phát triển tích hợp như Eclipse tạo thuận lợi cho các nhà

phát triển phần mềm và phân tích dữ liệu làm việc hiệu quả hơn. Tuy nhiên, Zinsight vẫn

còn gặp một số lỗi khi tích hợp với eclipse, gây bất tiện khi thực nghiệm, do đó khóa luận

quyết định sử dụng hệ thống EventFlow để tiến hành trực quan hóa sự kiện.

1.4. Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự

kiện

1.4.1. Ý nghĩa khoa học

Trong lĩnh vực khoa học, phân tích và trích chọn chuỗi sự kiện là một trong những

bài toán cơ bản của trích chọn thông tin hướng sự kiện. Đưa ra được phương pháp tốt để

giải quyết các khía cạnh của bài toán là cần thiết và là tiền đề cho các nghiên cứu khác

như theo dõi xu hướng quan tâm của cộng đồng, dự đoán xu hướng sự kiện hay các bài

toán về giám sát, quản lý xã hội. Mặt khác, hiện nay trên miền dữ liệu Tiếng Việt có rất ít

nghiên cứu được công bố chính thức về trích chọn cũng như trực quan hóa sự kiện và

chuỗi sự kiện, do đó có một phương pháp trích xuất sự kiện và chuỗi sự kiện tốt sẽ là

bước đệm cơ sở cho các nghiên cứu sau này

1.4.2. Ứng dụng thực tiễn

Như đã nói ở trên, nhu cầu tất yếu của con người là tiếp nhận thông tin, theo dõi

các tin tức về lĩnh vực mà mình quan tâm. Người dùng sẽ dễ dàng hơn trong việc theo dõi

một sự kiện, tin tức nếu nó đã được sắp xếp có tuần tự. Ngoài ra, trên các lĩnh vực khác

nhau, việc xâu chuỗi các sự kiện là vô cùng cần thiết đối với các hệ thống phân tích, theo

dõi, dự đoán về thời tiết, sức khỏe, bệnh dịch, xu hướng dịch vụ,… Do vậy, phát triển các

phương pháp về trích xuất chuỗi sự kiện là cần thiết và đúng đắn.

1.5. Khó khăn và thách thức

Mặc dù được các nhà khoa học quan tâm nghiên cứu khá sớm, phân tích và trích

chọn chuỗi sự kiện vẫn còn tồn tại nhiều khó khăn với những thách thức trong việc nâng

cao hiệu quả bài toán trong dữ liệu ngày càng lớn và phức tạp.

Page 18: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

8

Độ chính xác của trích chọn chuỗi sự kiện phụ thuộc rất lớn vào quá trình trích

xuất sự kiện. Trong khi đó, trích xuất sự kiện là một bài toán khó, liên quan mật thiết đến

các vấn đề ngôn ngữ học. Lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt

nói riêng tương đối rộng và tồn tại bài toán chưa được giải quyết triệt để mà trong đó có

xử lý nhập nhằng ngữ nghĩa (Word Sense Disambiguation), bài toán đồng tham chiếu

(Co-references) hay việc nhận dạng tính đa hình của cấu trúc ngữ pháp trong tiêu đề tin

tức.

Vấn đề mấu chốt trong trích chọn chuỗi sự kiện là sự đúng đắn trong tính tuần tự

của các tin tức sự kiện. Trong nhiều trường hợp, giả sử rằng hai tin tức đều nói về một sự

kiện, tin tức T1 được xuất bản trước tin tức T2 nhưng T1 lại phản ánh trạng thái sự kiện xảy

ra sau tin tức T2 khi mà khoảng thời gian chuyển trạng thái của sự kiện không có cách biệt

lớn và sự mập mờ trong thông tin về thời gian. Có thể đó là một sự kiện nóng được cập

nhật liên tục. Như vậy, rất khó để có thể đưa ra một chuỗi trạng thía sự kiện hợp lý. Điều

này đòi hỏi nhiều thống kê, khảo sát dữ liệu, phân tích xu hướng xuất bản tin tức và

những kỹ thuật giám sát mức cao khác.

Ngoài ra, tính tới thời điểm thực hiện khóa luận, theo khảo sát của tác giả thì ở

Việt Nam có rất ít nghiên cứu về trích xuất sự kiện, phân tích và trích chọn chuỗi sự kiện.

Bởi vậy, khóa luận rất thiếu những nguồn tham khảo về kỹ thuật cũng như kinh nghiệm

trong việc xử lý bài toán với dữ liệu tiếng Việt. Điều này đòi hỏi nhiều thời gian hơn để

thử nghiệm và đánh giá phương pháp nào là tốt, phù hợp với mục tiêu đề ra.

1.6. Tóm tắt chương 1

Chương 1 đã nêu một số vấn đề về trích chọn thông tin trong thời đại dữ liệu lớn

và có xu hướng tang mạnh trong tương lai. Trọng tâm của chương này là làm rõ ràng bài

toán phân tích và trích chọn chuỗi sự kiện với các định nghĩa sự kiện, trích xuất sự kiện,

chuỗi sự kiện, các bước tiếp cận vấn đề đồng thời giới thiệu một số công cụ phân tích và

trực quan hóa chuỗi sự kiện. Bên cạnh đó, nội dung của chương 1 cũng nêu bật ý nghĩa

của việc giải quyết bài toán phân tích chuỗi sự kiện bao gồm ý nghĩa về mặt lý luận khoa

học và ứng dụng thực tiễn. Chương này cũng nêu lên những khó khăn, thách thức mà

người giải quyết bài toán gặp phải khi nghiên cứu và triển khai các phương pháp trích

chọn, chi tiết về các phương pháp phân tích, trích chọn chuỗi sự kiện sẽ được đề cập trong

chương

Page 19: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

9

Chương 2

Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện

Trong chương 1, tác giả đã mô tả những hiểu biết cơ bản về bài toán phân tích,

trích chọn sự kiện và chuỗi sự kiên. Ở chương này, khóa luận sẽ trình bày một số phương

pháp giải quyết, trong phần 2.1 là các phương pháp học máy như k người láng giềng gần

nhất k-NN, cây quyết định D-tree và một phương pháp lai kết hợp giữa k-NN và máy hỗ

trợ vec-tơ SVM. Tiếp đó, phần 2.2 sẽ đưa đến phương pháp trích xuất chuỗi sự kiện dựa

trên độ tương đồng về nội dung, phần 2.3 nói về hướng giải quyết bài toán dựa trên việc

sử dụng các thông tin về thời gian địa điểm. Kết thúc chương sẽ là phần nhận xét, đánh

giá các thuật toán dẫn đến quyết định phương pháp đề xuất của tác giả sẽ được trình bày ở

chương 3.

2.1. Hướng tiếp cận học máy

Ở góc độ học máy, bài toán phân tích và trích chọn chuỗi sự kiện được coi là một

bài toán phân lớp. Bộ phân lớp sẽ học dựa trên tập huấn luyện và đưa ra kết quả phân lớp

các chuỗi sự kiện. Một hệ thống như vậy được mô tả như hình dưới đây.

Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy

2.1.1.Phương pháp k người láng giềng gần nhất k-NN

Có rất nhiều phương pháp học máy được áp dụng vào bài toán nhận dạng và trích

chọn chuỗi sự kiện, trong đó k-NN là một trong những thuật toán được sử dụng sớm nhất.

Với học máy giám sát, k-NN được biết đến là một phương pháp phân lớp rất tốt trong

việc nhận dạng các mẫu, phân loại văn bản. Trong công bố của Yiming Yang và các cộng

sự [11], nhóm đã tiến hành áp dụng k-NN vào bài toán theo dõi chuỗi sự kiện, ưu điểm

của phương pháp này là kết quả rất tốt mà lại cần ít nhất số giả thiết về các về các sự

kiện. Mỗi chuỗi sự kiện sẽ được trích chọn một cách độc lập mà không cần biết về các sự

kiện khác. Các sự kiện trong tập dữ liệu huấn luyện sẽ được gán một trong ba nhãn YES,

NO hoặc Brief (tóm tắt sự kiện hoặc thông báo). Bộ phân lớp sẽ tiến hành học trên từng

Page 20: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

10

sự kiện riêng biệt, khi một sự kiện mới được đưa vào, hệ thống sẽ mã hóa nó bằng một

vec-tơ đặc trưng và so sánh với các sự kiện đã có trong tập huấn luyện. Việc lựa chọn k sự

kiện gần với sự kiện mới nhất dựa trên độ tương đồng cô-sin. Độ tin cậy khi gán nhãn

YES cho một sự kiện mới được tính theo công thức 2.1.

d P(x,k) d P(x,k)

s1(YES | x )= cos( d ,x ) cos( d ,x )

(2.1)

Trong đó

x là sự kiện mới.

(x,k)P là tập dữ liệu huấn luyện dương trong số k láng giềng.

(x,k)N là tập dữ liệu huấn luyện dương trong số k láng giềng.

Hình 2.2. Mô tả dữ liệu âm dương

Một vấn đề nảy sinh là dữ liệu huấn luyện dương quá ít so với dữ liệu huấn luyện

âm. Bởi vậy, hầu như cụm nào cũng có chứa dữ liệu âm (Hình 2.2), dẫn tới không thể gán

nhãn cho tin tức mới. Giải pháp cho vấn đề này là sự hạn chế sự ảnh hưởng của các dữ

liệu huấn luyện âm bằng cách lấy một số nhỏ mẫu trong k láng giềng gần nhất, bỏ qua số

còn lại. Thuật toán k-NN có sự thay đổi theo tư tưởng vừa nêu ra. Lấy tập 1 1( )k k k láng

giềng gần nhất được gán nhãn dương 1

( , )P x k và tập 2 2( )k k k láng giềng gần nhất được

gán nhãn âm 2

N(x,k ) . Theo đó độ tin cậy của nhãn YES đối với dữ liệu tin tức mới được

tính lại bởi biểu thức 2.2.

Page 21: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

11

1 2

2

d P(x,k ) d P(x,k )1 2

1 1s (YES | x )= cos( d ,x ) cos( d ,x )

k k

(2.2.)

Gọi tN là số mẫu huấn luyện dương đối với từng sự kiện. Thông thường giá trị

của tN là 1, 2, 4, 8, 16. Theo [11], qua quá trình thực nghiệm k ,

1k , k

2 được quyết định

bởi:

t

k=min(N ,5) (2.3)

1 tk =min(P(x,100),N ) (2.4)

k =min(P(x,100), )2

16 (2.5)

2.1.2. Phương pháp lai kNN-SVM

Máy hỗ trợ vec-tơ SVM (Support Vector Machine) được đánh giá là một thuật toán

có hiệu năng rất cao trong bài toán phân lớp văn bản, đặc biệt là những bài toán với dữ

liệu có số chiều lớn như vec-tơ biểu diễn văn bản [12]. Để tận dụng điều này, Zhen Lei và

cộng sự đã đưa ra hướng giải quyết bài toán trích chọn chuỗi sự kiện dựa trên ý tưởng kết

hợp hai thuật toán SVM và k-NN [13]. Độ chính xác siêu phẳng quyết định bởi mô hình

SVM trong nhiều trường hợp này vẫn có sự nhập nhằng, không chính xác (Hình 2.3).

Khắc phục điều này, phương pháp k-NN được áp dụng bằng cách tìm một mẫu trung tâm

rồi xét các mẫu gần nó nhất nằm xung quanh siêu phẳng, nhằm đưa ra nhãn đúng nhất cho

những mẫu bị nhập nhằng này. Mẫu trung tâm được quyết định bởi công thức 2.6.

n

(0)

i 2

k=1 i k

1D =

1+ fd || x - x || (2.6)

Với ix là dữ liệu mẫu thứ i và:

d 2

d

4f =

r (2.7)

Page 22: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

12

Hình 2.3: Sự nhập nhằng của học máy SVM

dr là khoảng cách tối đa giữa các láng giềng, có thể một trong hai giá trị ở công

thức 2.8 và 2.9.

f i k

1r = min{max{|| x - x ||,i =1,...,n},k =1,...,n}

2 (2.8)

n n

m i k

k i

r || x x ||

n(n )

2

1 1

1 1

2 1 (2.9)

* ( )

iD max {D ,i ,...,n} 0

11 , tương ứng với

*

x1

là dữ liệu trọng tâm của cụm khởi

đầu. Các cụm về sau được tính theo công thức 2.10.

(k) (k ) *

i i k *

d i k

D D D

f ||x x ||

1

2

1

1 (2.10)

Trong đó:

k ,...,c 1 1

* (k )

k iD max{D ,i ,...,n}

1

1

Phương pháp kết hợp k-NN và SVM sẽ được trình bày ở thuật toán 1.

Page 23: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

13

____________________________________________________________

Thuật toán 1: Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM

Bước 1: Tìm dữ liệu trung tập trong tập mẫu Z gồm K cụm CenterSetN =

{O1, O2, …, Ok}.

Bước 2: TrainingSet CenterSetN P+ với TrainingSet là tập dữ liệu huấn luyện.

Bước 3: Tính khoảng cách giữa tin tức mới với các dữ liệu mẫu trong tập

TrainingSet, lấy ra K mẫu gần nhất với nó. Tin tức đó được gán nhãn khi K láng

giềng có cùng nhãn. Ngược lại, tới bước 4.

Bước 4: Xác định hàm xác định siêu phẳng ( ) ( )k

i i ii=1f e sgn y a (e×e ) b

Bước 5: Nếu f(e) =1 thì dữ liệu cần kiểm tra e DE. Trong đó DE là tập sự kiện đã

được xác định.

___________________________________________________________

2.2. Hướng tiếp cận sử dụng trọng số TF-IDF

Bên cạnh phương pháp sử dụng trọng số TF-IDF cũng là một trong những phương

pháp sử dụng trong thời kỳ đầu bài toán được đặt ra. Các sự kiện thuộc cùng một chuỗi

thường có một số đặc trưng tương tự (thậm trí trùng nhau). Do đó, một số độ đo tương

đồng có thể sử dụng để tiến hành nhận biết chuỗi sự kiện. Nghiên cứu của J.Micheal

Schultz, Mark Liberman biểu diễn sự kiện dưới dạng 1 vector và tính toán độ tương

đồng giữa chúng [14]. K = {k1, k2, …, kn} là tập đặc trưng. Đối với mỗi tài liệu chứa sự

kiện, độ đo TF và IDF được tính lần lượt theo công thức.

tfi = 𝑓𝑟𝑒𝑞(𝑖)

𝑚𝑎𝑥(𝑓𝑟𝑒𝑞(𝑙)) (2.11)

Trong đó:

freq(i) là số lần xuất hiện của từ khóa ki trong văn bản.

max(freq(l)) là số lần xuất hiện cực đại của tất cả từ khóa trong văn

bản.

idf = log(𝑁

𝑑𝑓(𝑖)) (2.12)

Trong đó:

df(i) là số tin tức chứa đặc trưng i

N là tổng số tin tức được xét tới.

Cuối cùng độ tương đồng giữa hai sự kiện (ở đây ta xét hai sự kiện a và b) được

quyết định bởi công thức:

Page 24: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

14

1

2 2

1 1

* *

,

*

n

a b

i

n n

a b

i i

tf i tf i idf i

sim a b

tf i tf i

(2.13)

Trong một số nghiên cứu được công bố sau này, phương pháp sử dụng trọng số

TF-IDF đã được cải tiến để nâng cao hiệu quả trích suất chuỗi sự kiện. Kết quả cho thấy,

trong trường hợp sự kiện đã được trích xuất thì phương pháp sử dụng độ tương đồng nội

dung của sự kiện có kết quả tốt hơn

2.3. Hướng tiếp cận sử dụng thông tin thời gian- địa điểm

Trong bài toán phân tích sự kiện, các thông tin thời gian và địa điểm luôn là thuộc

tính chính để biểu diễn một sự kiện do vậy sử dụng các thuộc tính này vào việc trích xuất

chuỗi sự kiện là một điều đúng đắn. Trên thế giới cũng đã có nhiều công bố liên quan đến

vấn đề này.

2.3.1. Thông tin thời gian

Thông tin về thời gian được sử dụng vào hai việc. Thứ nhất, xâu chuỗi các sự kiện

xảy ra. Thứ hai, xâu chuỗi các sự kiện xảy ra vào chuỗi đã có trước. Thông tin thời gian

thường có ba dạng:

Dạng rõ ràng: ngày 02 tháng 9 năm 2012

Dạng không rõ ràng: sáng nay

Dạng ước lượng: cách đây chừng 1 năm

Trong [9], khái niệm tham chiếu sự kiện được đưa ra để chỉ những cụm từ mang

nghĩa tham chiếu từ tin tức này qua tin tức khác để thể hiện tính chuỗi của sự kiện. Ví dụ,

“ ngay sau đó, ngày 02/9 “ là một cụm tham chiếu sự kiện. Đây là cơ sở để tính độ tương

đồng giữa các tin tức chứa cụm tham chiếu sự kiện với các tin tức chứa sự kiện đã xảy ra.

Tin tức chứa cụm tham chiếu sự kiện sẽ được quyết định sự kiện có thuộc chuỗi nào trong

số những chuỗi đã tồn tại hay không.

Một số phương pháp tính độ tương đồng đã được đưa ra. Điển hình là:

'

x t t t t tsim (X,Y)= cover (X ,Y )* RWS (X ,Y ) (2.14)

Với Xt, Yt là các cụm tham chiếu sự kiện tương ứng của sự kiện X, Y và RWS’(Xt,

Yt ) là trọng số xếp hạng.

Page 25: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

15

|X Y|

k

k=1t t |X| |X|

j

j=1 l=1

rs(t )

RWS(X ,Y )=

rs(t )+ rs(tl)

(2.15)

ln1

1(t)

2 k

m

tk

rs

(2.16)

n m

1,i 2, j

i=1 j=1

t 1 2

v + v

cover (T ,T )=n+m

(2.17)

2.3.2. Thông tin địa điểm

Cũng giống như đặc trưng thời gian, địa điểm là một thuộc tính quan trọng đối với

sự kiện. Tuy nhiên, trong rất nhiều trường hợp, thông tin thời gian có thể được trích xuất

chuẩn xác thì địa điểm lại gặp nhiều khó khăn bởi tính nhập nhằng tên người và tên địa

danh, hay sự trùng lặp giữa nhiều địa danh với nhau. Hơn thế, thông tin địa điểm mang

nhiều cấp, như trong “đường Cầu Giấy, quận Cầu Giấy, thành phố Hà Nội” chứa 3 cấp

địa danh và trùng lặp. Như vậy để tính toán độ tương đồng của yếu tố địa điểm phức tạp

hơn so với yếu tố thời gian.

Các đặc tính thường thấy của thông tin địa điểm:

Thông tin địa điểm thường có nhiều mức

Thông tin về địa điểm thường xuất hiện ở đầu bản tin (thường là ở ngay

phần tóm tắt sự kiện hoặc ngay trong phần đầu nội dung bài báo)

Thông tin sự kiện ít được nhắc đến trong bản tin thông báo sự kiện. Nếu

một thông tin sự kiện được nhắc đến nhiều lần thì có thể đó là bản tin thống

kê sự kiện.

Để giải quyết sự đa mức của thông tin địa điểm, ta dựa trên bộ ngữ liệu từ điển địa

điểm và thực hiện phép tính:

| |

neáu

( , ) | |

0 neáu ngöôïc laïi

t d

d t

h t d t d

n nn n

sim n n n n (2.18)

Trong đó:

Page 26: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

16

nt là từ điển địa điểm

nd là tập địa điểm trong tin tức

Trọng số đo vị trí của địa điểm được tính bởi công thức:

( )

( ) 1

| |

d

d

pos nLoc n

d (2.19)

Với pos(nd) là vị trí câu chứa tên địa điểm tính từ 0, d là số lượng câu trong bản tin.

Ngoài ra, một trọng số đo mức phù hợp của địa điểm trong ngữ cảnh cũng được xét đến.

( ) (1 )d

d

d

n

coh n w w

N (2.20)

Trong đó:

∑ 𝑛𝑑 là số lần xuất hiện của một điểm trong bản tin sự kiện

∑ 𝑁𝑑 là số lần xuất hiện của tất cả cá địa điểm trong bản tin

w hằng số làm trơn. Chọn w = 0.5.

Kết hợp các đặc trưng trên ta sẽ tính được độ tương đồng về địa điểm của hai sự

kiện.

2.4. Nhận xét và đánh giá

Từ những nghiên cứu đã được công bố, chắc chắn không thể khẳng định cách tiếp

cận hay giải pháp nào là tốt nhất cho bài toán nhận dạng chuỗi sự kiện. Bởi mỗi loại ngôn

ngữ khác nhau, mỗi lĩnh vực tin tức khác nhau, mỗi mục tiêu khác nhau dẫn tới cách tiếp

cận và hiệu quả của các phương pháp cũng khác nhau. Mặt khác, chưa có phương pháp

ước lượng chính xác nào để có thể đánh giá được hiệu quả trích xuất chuỗi sự kiện. Trong

trường hợp tin tức chứa ít sự kiện, hay định nghĩa cụ thể về sự kiện không thật rõ ràng thì

những phương pháp áp dụng học máy k-NN, kNN-SVM tỏ ra hiệu quả hơn cả. Ngược lại,

phương pháp sử dụng độ tương đồng kết hợp các độ đo khác áp dụng cho miền tin tức

chứa nhiều sự kiện với định nghĩa rõ ràng đã mang lại kết quả khả quan.

2.5. Tóm tắt chương 2

Thông qua một số cách tiếp cận cơ bản khi giải quyết bài toán trích chọn chuỗi sự

kiện, chương 2 đã làm rõ hơn về bài toán. Trọng tâm chương này nêu lên 3 cách tiếp cận

được sử dụng phổ biến trong bài toán trích chọn chuỗi sự kiện, bao gồm hướng tiếp cận

học máy(k-NN, D-Tree, KNN-SVM), hướng tiếp cận sử dụng thống kê trọng số TF-IDF

và tiếp cận dựa trên thông tin sự kiện (thời gian, địa điểm). Chương 2 là cơ sở khoa học

Page 27: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

17

giúp đánh giá hiệu quả phương pháp và đề ra hướng tiếp cận hợp lý cho bài toán trên đối

với miền dữ liệu tin tức tiếng Việt.

Page 28: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

18

Chương 3

Phương pháp phân tích và trích chọn chuỗi sự kiện áp dụng

trên miền tin tức tiếng Việt

Chương 1 và chương 2 đã trình bày từ tổng quan đến chi tiết về bài toán phân tích

và trích chọn chuỗi sự kiện, các phương pháp nổi bật để giải quyết bài toán. Ở chương 3,

tác giả sẽ đi sâu vào phương pháp phân tích và trích chọn chuỗi sự kiện được áp dụng cụ

thể với miền dữ liệu tiếng Việt. Mục 2.1 sẽ trình bày cụ thể phương pháp tác giả đề xuất,

tiếp đó là mô hình giải quyết bài toán tại mục 2.2 và cuối cùng là phần tóm lược nội dung.

3.1 Mô tả bài toán

VnLoc là hệ thống theo dõi tin tức trực tuyến hướng sự kiện được xây dựng bởi

nhóm nghiên cứu tại phòng thì nghiệm tri thức KT-Lab, Trường Đại học Công nghệ [15].

Hệ thống có chức năng thu thập tin tức từ nhiều nguồn báo mạng khác nhau và trích xuất

được các sự kiện đã và đang diễn ra, sau đó được trực quan hóa trên bản đồ sự kiện

(Google Map API). Đây là một hệ thống mới, có tính ứng dụng cao trên miền tin tức

Tiếng Việt, giúp người dùng dễ dàng theo dõi các sự kiện thời sự trên các 6 lĩnh vực khác

nhau bao gồm: Hỏa hoạn, Tai nạn giao thông, Hình sự, Văn hóa, Dịch bệnh, Động đất.

Kết quả đạt trong pha trích chọn sự kiện có độ chính xác tới 92.85% và độ đo F1 xấp xỉ

91.61%. Đây là tiền đề rất tốt cho việc phân tích và trích chọn chuỗi sự kiện khi mà tác

giả được thừa kế tập dữ liệu rất giàu sự kiện từ hệ thống VnLoc.

Mục đích chính của khóa luận là trích chọn ra các chuỗi sự kiện, sau đó phân tích

thông tin để đưa vào công cụ trực quan hóa, do đó có thể phát biểu bài toán đầy đủ là:

“Nghiên cứu, đề xuất, thử nghiệm phương pháp trích chọn chuỗi sự kiện trên miền tin tức

tiếng Việt và trực quan hóa trên hệ thống phân tích sự kiện dạng Life Flow”.

Như vậy thì đầu vào và đầu ra của bài toán sẽ là:

Đầu vào: Tập các bài báo về sự kiện được thu thập, trích xuất bởi hệ thống VnLoc.

Đầu ra: Tập các bài báo sự kiện đã được xâu chuỗi.

3.2 Phương pháp đề xuất

Tương tự cách định nghĩa sự kiện của các nghiên cứu trước đây, sự kiện là một tập

các thuộc tính:

e = {a1, a2, a3, …, an} (3.1)

Trong hệ thống VnLoc, sự kiện được định nghĩa là tập

Page 29: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

19

e = {n, c, t, p, s, l, a}. Với

n: tên sự kiện.

c: loại sự kiện,

t: thời gian xảy ra sự kiện.

p: địa điểm xảy ra sự kiện.

s: nguồn đưa tin.

l: liên kết đến nguồn tin.

a: tóm tắt sự kiện.

Ví dụ mô tả một sự kiện trong VnLoc.

e = {Dập được “bà hỏa” nhờ ở gần cơ sở bán bình chữa cháy,

hỏa hoạn,

Tue Sep 11 11:00:00 GMT+07:00 2012,

quán café trên đường Nguyễn Thị Minh Khai- TP đà Nẵng,

Người Lao Động,

http://nld.com.vn/2012091103235648p0c1002/dap-duoc-ba-hoa-nho-o-gan-

co-so-ban-binh-chua-chay.htm

Một quán cà phê đang trong quá trình sửa chữa bị chập điện và suýt bị “bà

hỏa” thiêu trụi nếu không nhờ có cơ sở bán bình chữa cháy nằm bên cạnh}

Với định nghĩa về sự kiện như trên của nhóm thực hiện hệ thống VnLoc, thì chúng

tôi định nghĩa một chuỗi sự kiện là 1 bộ ba S = {s, ts, te }, trong đó s = {e1, e2, …, en} với e1

là sự kiện khởi đầu và en là sự kiện kết thúc tính tới thời điểm đang xét, ts là thời gian xảy

ra sự kiện khởi đầu e1, te là thời gian xảy ra sự kiện kết thúc en.

Như đã nói đến trong chương 1, mỗi phương pháp giải quyết bài toán nhận dạng

chuỗi sự kiện đều có những ưu nhược điểm riêng tùy thuộc vào đặc điểm của dữ liệu, đặc

trưng của ngôn ngữ, mục tiêu phát triển… Trên nền tảng hệ thống theo dõi tin tức trực

tuyến VnLoc, tin tức cập nhật đã được phát hiện và trích xuất với độ chính xác cao (trên

90%) và sự tham khảo ý kiến về đặc trưng của miền dữ liệu Tiếng Việt, nhóm chúng tôi

đã quyết định chọn phương pháp sử dụng độ đo tương đồng để tiến hành thực nghiệm.

Bước đầu đã mang lại kết quả tương đối khả quan.

Page 30: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

20

3.2.1 Đánh giá độ tương đồng nội dung

Cho hai vec-tơ e1 và e2là hai vec-tơ biểu diễn sự kiện. Mỗi sự kiện có tập đặc

trưng riêng K1, K2, ..., Kn. Gọi K = { K1, K2, …, Kn }, trong đó Ki = {ki1, ki2, …, kim} . Khi

đó độ tương đồng nội dung dựa trên trọng số TF-IDF giữa e1 và e2 sẽ được xác định

theo công thức.

im

ij ij ije e

i j

contentim n

ij ije e

j i

tf (k ) tf (k ) idf (k )

sim (e ,e )

tf (k ) tf (k )

1 2

1 2

1 2

2 2

1 1

(3.2)

Với,

ij

ije

freq(k )

tf (k )

max(freq(l))

(3.3)

Trong đó:

freq(kij) là số lần xuất hiện của đặc trưng kij trong sự kiện.

max(freq(l)) là số lần xuất hiện cực đại của tất cả các đặc trưng trong

sự kiện.

ij

ij

Nidf (k ) log

df (k )

(3.4)

Trong đó:

df(kij) là số tin tức chứa đặc trưng kij

N là tổng số tin tức được xét tới

3.2.2 Đánh giá độ tương đồng thời gian địa điểm

Qua khảo sát dữ liệu, một từ điển từ khóa tham chiếu thời gian đã được xây dựng.

Dựa vào đó, độ tương đồng thời gian giữa hai sự kiện , được tính bởi công thức.

Page 31: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

21

i i

time

ii ii i

x ysim (e ,e ) ( )

x y

1 22 2

(3.5)

Trong đó:

e1

= (x1, x2, …, xm)

e2

= (y1, y2, …, ym)

Độ tương đồng địa điểm được tính phức tạp hơn thông qua địa điểm trong tin tức

và tập từ điển địa điểm .

t d

t d

d t

h n n t d

n nn n

sim e n n

( , )

| |

neáu

( ) | |

0 neáu ngöôïc laïi

(3.6)

Trong đó:

nt là từ điển địa điểm đã được làm giàu

nd là tập địa điểm trong tin tức

d

d

n

pos nloc e

d

( )

( ) 1

| | (3.7)

Với pos(nd) là vị trí của câu chứa tên địa điểm tính từ 0, d là số câu trong bản tin sự

kiện.

t d t dplace h(n ,n ) h(n ,n ) nd nd

sim (e ,e ) | sim (e ) sim (e ) | | loc (e ) loc (e ) || 1 2 1 2 1 2

(3.8)

Như vậy độ tương đồng thời gian - địa điểm được tính theo công thức.

time place time place

sim (e ,e ) sim ( ) sim

1 2

1 với = 0.4 (3.9)

3.2.3 Đánh giá độ tương đồng sự kiện

Kết hợp 2 độ đo tương đồng ở trên, ta tính được độ tương đồng giữa sự kiện và

bởi công thức.

content time placesim(e ,e ) sim (e ,e ) ( ) sim (e ,e )

1 2 1 2 1 21

(3.10)

Page 32: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

22

Với = 0.6.

Công thức 3.10 Là công thức cuối cùng trong pha đánh giá độ tương đồng giữa hai

sự kiện

3.3 Mô hình giải quyết

Hệ thống phân tích và trực quan hóa chuỗi sự kiện được xây dựng bao gồm 7 pha

chính: lưu trữ dữ liệu, biểu diễn sự kiện, trích xuất đặc trưng, phát hiện sự kiện khởi đầu,

tính toán các độ đo tương đồng, quyết định chuỗi sự kiện, mô hình chuỗi sự kiện với

EventFlow.

3.3.1 Lưu trữ dữ liệu

Hệ thống theo dõi tin tức trực tuyến VnLoc được xây dựng hướng đến dữ liệu lớn

bởi mỗi ngày hệ thống nhận khoảng 1500 bài báo điện tử, tiếp đó là xử lý, lưu trữ một

lượng lớn dữ liệu liên quan. Vì vậy cần thiết một hệ cơ sở dữ liệu truy xuất nhanh, chịu

tải, chịu lỗi tốt và có khả năng mở rộng về sau. Khi xây dựng VnLoc, nhóm thực hiện hệ

thống VnLoc đã chọn hệ cơ sở dữ liệu không quan hệ (NoSQL) làm thành phần lưu trữ

của hệ thống. NoSQL là một hệ cơ sở dữ liệu hướng tài liệu, không tồn tại ràng buộc giữa

các bảng lưu trữ do đó rất tốt cho việc lưu trữ các văn bản không cấu trúc mà tốc độ truy

xuất lại vượt trội so với các hệ cơ sở dữ liệu quan hệ thông thường. Hơn nữa, NoSQL là

hệ cơ sở dữ liệu phân tán, có khả năng mở rộng theo chiều ngang nên có thể tăng dung

lượng, sức mạnh các yếu tố phần cứng như CPU, HDD, RAM bằng cách kết hợp nhiều

thành phần phần cứng với nhau.

Thừa kế hệ thống VnLoc, khóa luận tiếp tục sử dụng hệ quản trị cơ sở dữ liệu

MongoDB làm thành phần lưu trữ dữ liệu bởi khả năng truy vấn nhanh, tự động cân bằng

tải, dễ dàng phân tán mà vẫn rất ổn định.

Kho chứa dữ liệu gồm ba thành phần: cơ sở dữ liệu sự kiện, cơ sở dữ liệu chuỗi sự

kiện, bộ ngữ liệu từ điển.

Page 33: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

23

Hình 3.1: Mô hình đề xuất để giải quyết bài toán

Page 34: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

24

3.3.2 Trích chọn đặc trưng

Tập đặc trưng được trích xuất trên tập gồm hơn 20000 bài báo điện tử thu thập

được từ nhiều nguồn với ba lĩnh vực: Hỏa Hoạn, Tai Nạn Giao Thông, Hình Sự. Quá trình

trích chọn đặc trưng tiến hành thông qua loại bỏ từ dừng trong Tiếng Việt, sau đó áp dụng

phương pháp n-gram với n = 2 và n = 3 để làm giàu cụm từ trong tập đặc trưng. Pha Trích

chọn đặc trưng đã được nhóm VnLoc thực hiện từ trước nên khóa chỉ quan tâm đến đầu ra

là tập các đặc trưng.

3.3.3 Biểu diễn sự kiện

Mỗi sự kiện được vector hóa dựa trên trọng số TF-IDF và tập đặc trưng đã trích

xuất được từ pha trước. Với mỗi tin tức d, trọng số của từng đặc trưng được tính theo

công thức.

Trong đó:

) là trọng số của đặc trưng t trong tin tức d.

là số lần xuất hiện của đặc trưng t trong tin tức d.

log 𝑁𝑡

𝑛𝑡 là trọng số IDF.

Nt là số lần đặc trưng t xuất hiện trong tin tức d.

Nt là số tin tức mà đặc trưng t xuất hiện trong đó ít nhất 1 lần

3.3.4 Phát hiện sự kiện khởi đầu

Khi hệ thống đón nhận một sự kiện được cho là mới, nó sẽ đánh dấu là sự kiện

khởi đầu. Về sau, mỗi khi duyệt một sự kiện được cập nhật, sự kiện đó sẽ được cho là

khởi đầu nếu trọng số tương đồng của nó với các sự kiện khởi đầu đã có nhỏ hơn ngưỡng

w = 0.2. Ngưỡng này chỉ là tương đối bởi hiện nay bài toán phát hiện sự kiện khởi đầu

vẫn là một bài toán khó, chưa có lời giải thích đáng cho không chỉ riêng miền dữ liệu

Tiếng Việt mà còn trên nhiều ngôn ngữ khác. Việc xác định sự kiện khởi đầu cần có sự

giám sát của con người nên hiệu quả của hệ thống cũng chưa cao.

3.3.5 Tính độ tương đồng sự kiện

Sau khi có được tập sự kiện khởi đầu, pha tính toán độ tương đồng sẽ được thực

hiện với từng sự kiện đó. Phương pháp tính toán độ tương đồng sự kiện được mô tả chi

tiết ở mục 3.2. Pha này thực hiện ba bước tính toán: tính độ tương đồng nội dung, tính độ

Page 35: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

25

tương đồng thời gian - địa điểm và kết hợp 2 độ đo này để tính độ tương đồng giữa 2 sự

kiện.

3.3.6 Quyết định chuỗi sự kiện

Dựa trên tập sự kiện khởi đầu và tập độ đo tương đồng giữa chúng với các sự kiện

khác, pha quyết định chuỗi sự kiện làm nhiệm vụ tổng hợp, tính toán và đưa ra các chuỗi

sự kiện phù hợp. Quá trình thực nghiệm sẽ đưa ra một ngưỡng hợp lý cho độ đo tương

đồng sự kiện để xác định xem sự kiện nào là một trạng thái của sự kiện khởi đầu. Thông

tin về các chuỗi sự kiện này được lưu trữ trong cơ sở dữ liệu chuỗi sự kiện nằm tại kho

chứa dữ liệu.

3.3.7 Mô hình chuỗi sự kiện

Tập hợp các sự kiện đã được xâu chuỗi, khóa luận tiến hành phân tích các thuộc

tính của chuỗi như tên sự kiện, loại sự kiện, các mốc, khoảng thời gian, các sự biến đổi

trạng thái của sự kiện, đi kèm với nó có thể là các thuộc tính như: nguồn tin, tên bài báo…

nhằm chuyển dạng dữ liệu đầu vào cho hệ thống EventFlow.

Hình 3.2: Cấu trúc tệp dữ liệu sự kiện

Hình 3.3: Cấu trúc tệp thuộc tính sự kiện

3.4 Tóm tắt chương 3

Qua những phân tích ở chương 1 và chương 2, chương 3 tập trung vào phát biểu

bài toán mà khóa luận thực hiện đồng thời mô tả chi tiết về phương pháp được đề xuất để

Page 36: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

26

giải quyết vấn đề . Sự kết hợp độ đo tương đồng sự kiện với độ đo tương đồng về thời

gian- địa điểm được kỳ vọng sẽ là lời giải tốt cho bài toán đặt ra. Song song với nó, mô

hình hệ thống phát hiện chuỗi sự kiện cũng được đưa ra, trình bày chi tiết, rõ ràng. Đây là

hệ thống mà khóa luận xây dựng và công việc thực nghiệm trên hệ thống này sẽ được nói

rõ hơn ở chương tiếp theo, chương 4.

Page 37: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

27

Chương 4:

Thực nghiệm

Phương pháp giải quyết bài toán phân tích và trích chọn chuỗi sự kiện đã được đề

xuất và trình bày ở chương 3. Tiếp theo, chương này sẽ mô tả chi tiết quá trình thực

nghiệm phương pháp trên, đưa ra kết quả thực nghiệm trích chọn chuỗi sự kiện trên miền

tin tức tiếng Việt, cũng như cách làm chuẩn dữ liệu để trực quan hóa trên hệ thống

EventFlow. Phần cuối sẽ là thảo luận, đánh giá kết quả của phương pháp đối với bài toán

đã đặt ra.

4.1. Phương pháp thực nghiệm

4.1.1. Phương pháp đánh giá

Trong những chương trình như TDT hay ACE, một bộ ngữ liệu mẫu được xây

dựng để đánh gái hiệu quả phương pháp phát hiện chuỗi sự kiện. Cách tiếp cận này phụ

thuộc nhiều vào ngôn ngữ của tin tức, cần nhiều công sức xây dựng thủ công. Tuy nhiên

ưu điểm của nó là đưa ra được cơ sở đúng đắn hơn cả để ước lượng độ chính xác của

phương pháp đề xuất.

Tương ứng với mỗi sự kiện, ni là số trạng thái trong chuỗi mẫu, nie là số trạng thái

xâu chuỗi được, niec là số trạng thái xâu chuỗi đúng với mẫu tiến trình đã xây dựng. Việc

ước lượng độ chính xác được tính theo công thức 4.1, 4.2, 4.3.

iec

i

nR

n (4.1)

iec

ie

n

n

(4.2)

2R

FR

(4.3)

4.1.2. Chiến thuật thực nghiệm

Sau khi tiến hành khảo sát và tìm hiểu các hướng tiếp cận giải quyết bài toán, tác giả

đã quyết định sử dụng phương pháp như đã đề xuất trong phần để tiến hành thực nghiệm.

Page 38: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

28

Trên cơ sở thừa kế dữ liệu và kết quả của hệ thống theo dõi tin tức trực tuyến VnLoc,

tác giả tiến hành lấy toàn bộ dữ liệu đầu ra là tập các bài báo sự kiện, bộ từ điển địa điểm,

bộ ngữ liệu tham chiếu thời gian. Bộ từ điển địa điểm bao gồm danh sách 1647 tên địa

danh, 11665 tên các cấp địa phương như huyện quân, xã phường, thị trấn… sau khi loại

bỏ trùng lặp còn 8721 tên địa phương. Trước đây, bộ từ điển địa điểm được sử dụng trên

hệ thống VnLoc nhằm nhận dạng tên các thực thể địa danh, địa điểm, còn trong hệ thống

của khóa luân, nó được dùng để tính toán độ tương đồng về thông tin địa điểm giữa các sự

kiện.

Hình 4.1: Giao diện hệ thống VnLoc

Bởi ràng buộc thời gian và nhân lực nên khóa luận chọn ra 10 sự kiện từ tập dữ

liệu để xây dựng bộ ngữ liệu chuỗi sự kiện mẫu. Mỗi sự kiện i được lấy ra bằng tay , mẫu

tiến trình diễn biến sự kiện chứa ni trạng thái. Mô hình đề xuất ở chương 3 sử dụng dữ

liệu từ cơ sở dữ liệu sự kiện và thực hiện phát hiện chuỗi sự kiện. Quá trình đánh giá

phương pháp được tiến hành như mô tả ở mục 4.1.1.

Page 39: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

29

4.2. Môi trường thực nghiệm

4.2.1. Hệ thống phần cứng

Các thông số phần cứng của hệ thống được cài đặt phương pháp thực nghiệm được

nêu chi tiết tại bảng dưới đây.

Bảng 4.1: Thông số phần cứng của hệ thống thực nghiệm

Thành phần Thông số chi tiết

Bộ vi xử lý Intel(R) Core(TM) i5-2430M CPU @ 2.4GHz

Bộ nhớ trong 4GB

Bộ nhớ ngoài 320GB

Hệ điều hành Window 7 Professional 64bit

4.2.2. Công cụ phần mềm

Các công cụ phần mềm được dung để xây dựng hệ thống

Bảng 4.2: Các công cụ phần mềm

Tên Nguồn Mô tả

Eclipse Juno

(4.2)

Eclipse Foundation

http://www.eclipse.org/

Môi trường phát triển tích

hợp IDE

MongoDB 10gen, Inc

http://www.mongodb.org/

Hệ CSDL NoSQL được sử

dụng để lưu trữ toàn bộ dữ

liệu của hệ thống

Morphia http://code.google.com/p/morphia/ Thư viện hỗ trợ kết nối

CSDL MongoDB viết trên

Java

EventFlow Human-Computer Interaction Lab,

University of Maryland

http://www.cs.umd.edu/hcil/eventflow/

Công cụ trực quan hóa

chuỗi sự kiện

4.3. Kết quả thực nghiệm và đánh giá

Kết thúc quá trình phân tích và trích chọn chuỗi sự kieenjm kết quả thu được qua

10 sự kiện mẫu với độ chính xác trung bình 75.21% và độ đo F1 là 74.56%. Đây là một

kết quả khả quan, chứng tỏ phương pháp sử dụng độ đo tương đồng kết hợp thông tin thời

gian- địa điểm áp dụng trên miền tin tức tiếng Việt là đúng đắn. Kết quả cụ thể được mô

tả ở bảng 4.3 dưới đây.

Page 40: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

30

Bảng 4.3: Các độ đo khi tiến hành thực nghiệm với 10 sự kiện.

STT Tên Độ chính xác Độ hồi tưởng Độ đo F

1 Sự kiện 1 73.33%% 68.75% 71.04%

2 Sự kiện 2 80.95% 77.27% 79.11%

3 Sự kiện 3 75.00% 70.56% 72.78%

4 Sự kiện 4 78.57% 73.33% 75.95%

5 Sự kiện 5 72.73% 72.73% 72.73%

6 Sự kiện 6 70.83% 73.91% 72.42%

7 Sự kiện 7 76.31% 78.38% 77.34%

8 Sự kiện 8 78.79% 74.28% 76.53%

9 Sự kiện 9 76.19% 76.19% 76.19%

10 Sự kiện 10 69.44% 73.52% 71.48%

Trung Bình 75.21% 73.89% 74.56%

Page 41: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

31

Tổng kết

Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm có thể khẳng định rằng, bài

toán phân tích và trực quan hóa chuỗi sự kiện có vai trò quan trọng trong nhiều lĩnh vực

của cuộc sống. Việc phân tích chuỗi sự kiện đưa đến cho ta khai được các thông tin giá trị

từ nguồn dữ liệu to lớn, từ đó có thể trực quan hóa, đem lại cho người dung cái nhìn tổng

quát đối với các sự kiện, chuỗi sự kiện.

Sự đa dạng của các thuật toán phân lớp, phân cụm dữ liệu khiến cho việc lựa chọn

một thuật toán để giải quyết vấn đề trở nên khó khăn hơn. Khóa luận đã tiếp cận vấn đề

nói trên và nghiên cứu các thuật toán ở các góc độ khác nhau của bài toán để đưa ra một

phương pháp mà tác giả coi là tốt nhất để áp dụng vào phân tích trích chọn chuỗi sự kiện

trên miền tin tức tiếng Việt.

Về mặt nội dung, khóa luận đã đạt được những kết quả sau:

Nghiên cứu bài toán phân tích và trích chọn chuỗi sự kiện: các khái niệm,

các hướng tiếp cận bài toán, đánh giá các giải pháp đã được đưa ra trong các tài liệu tham

khảo. Khóa luận đã tập hợp và trình bày một số phương pháp phổ biến đã được áp dụng

để giải quyết bài toán phân tích và trích chọn sự kiện, chuỗi sự kiện. Tiếp đó trình bày ưu

nhược điểm của từng phương pháp, phân tích đánh giá để đưa ra phương án tốt nhất nhằm

áp dụng cho bài toán trên dữ liệu tiếng Việt.

Xây dựng chương trình phân tích, trích chọn chuỗi sự kiện được viết trên

ngôn ngữ Java kết hợp trực quan hóa các thông tin phân tích được trên công cụ

EventFlow

Bên cạnh đó, do thời gian có hạn và kiến thức chưa đầy đủ, khóa luận vẫn còn tồn

tại một vài hạn chế.

Việc nhận dạng sự kiện khởi đầu còn phải thực hiện bằng tay nên làm giảm

đáng kể hiệu xuất và chưa thể tự động hóa để áp dụng trên một hệ thống tự

động.

Hiệu suất trích chọn chuỗi sự kiện chưa thật sự tốt, kết quả này sẽ làm cho

quá trình phân tích, thống kê và trực quan hóa có những sai sót đáng kể.

Trong tương lai, người thực hiện khóa luận sẽ tiếp tục hoàn thiện các mặt còn hạn

chế, nghiên cứu và tìm tòi để có thể đưa ra được giải pháp tốt hơn cho bài toán phân tích

và trích chọn cũng như trực quan hóa chuỗi sự kiện áp dụng cho ngôn ngữ tiếng Việt.

Đồng thời mở rộng miền dữ liệu, không chỉ dữ liệu tin tức từ các báo mạng mà sẽ áp dụng

trên miền dữ liệu khác như mạng xã hội, bản ghi sự kiện trong lĩnh vực giao thông, y tế,

máy chủ phục vụ… Cùng với đó là xây dựng được các chương trình phân tích và trực

quan hóa sự kiện hiệu quả, chính xác và thân thiện với người dùng.

Page 42: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

32

Tài liệu tham khảo

[1] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "LifeFlow:

Visualizing an Overview of Event Sequences," Maryland, 2011.

[2] Cowie J., Lehnert W., "Information extraction," ACM, vol. 99, no. Special natural

language processing issu, pp. 80-91, 1996.

[3] H. Galhardas, "Information Extraction tasks: a survey" Instituto Superior Técnico,

INESC-ID, DMIR, L2F, 2006.

[4] S. Sunita, "Infomation extraction," Foundation and Trend in Databases, Vols. 1 -No

3, pp. 261-377, 2007.

[5] Ralph Grishman, Beth Sundheim, "Message understanding conference-6: a brief

history," Proceedings of the 16th conference on Computational linguistics, vol. 1, pp.

466-471, 1996.

[6] James Allan, Ron Papka, and Victor Lavrenko, "On-line new event detection and

tracking," in Proceedings of the 21st annual international ACM SIGIR conference on

Research and development in information retrieval, New York, NY, USA, 1998.

[7] Heikki Mannila, Hannu Toivonen, A. Inkeri Verkamo, "Discovery of frequent

episodes in event sequences," no. Data Min. Knowl. Discov., pp. 259-289, January

1997.

[8] R. Papka, Artist, On-line new event detection, clustering, and tracking. [Art].

Department of Computer Science, University of Massachusetts. AAI9950198, 1999.

[9] Yiming Yang, Tom Pierce, and Jaime Carbonell, "A study of retrospective and on-

line event detection," Proceedings of the 21st annual international ACM SIGIR

conference on Research and development in information retrieval, no. New York,

NY, USA, pp. 28-36, 1998.

[10] S. H. Wim De Pauw, Writer, Zinsight: A Visual and Analytic Environment for

Exploring Large Event Traces. [Performance]. IBM T.J. Watson Research Center,

Hawthorne, NY 10532, 2010.

Page 43: PHÂN TÍCH VÀ TRỰC QUAN HÓA CHU ỖI SỰ KI ỆN DẠNG HỆ TH …uet.vnu.edu.vn/~thuyhq/Student_Thesis/K54_Ngo_Quang_Hieu_Thesis.pdfbiệt là bố mẹ và em gái tôi, những

33

[11] Yiming Y., Jaime C., Ralf B., Tom P., Brain T. A., Xin L., "Learning approaches for

Detecting and Tracking news events," Language Technologies Institute, Carnegie

Mellon University, Pittsburgh, USA.

[12] Zhen Lei, Yanjie Jiang, Peng Zhao, and Jue Wang, "News event tracking using an

improved hybrid of knn and svm," Springer, vol. 56, no. Communications in

Computer and Information Science, pp. 431-438, 2009.

[13] Zhen Lei, Ling-da Wu, Ying Zhang, and Yu-chi Liu, "A system for detecting and

tracking internet news event," in Proceedings of the 6th Pacific-Rim conference on

Advances in Multimedia Information Processing - Volume Part I, vol. 1, Berlin,

Heidelberg, Springer-Verlag, 2005, pp. 754-764.

[14] J. M. Schultz, M. Liberman, "Topic detection and tracking using idf-weighted cosine

coefficient," Proceedings of the DARPA Broadcast News Workshop, pp. 189-192,

1999.

[15] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and

Xuan-Hieu Phan, in The Fourth International Conference on Knowledge and

Systems Engineering, KSE'12, Ha Noi, 2012.

[16] M. S. Heikki Mannila, "Finding Simple Intensity Descriptions from Event," in ACM,

University of Helsinki, Finland, 2001.

[17] N. K. J. C. M. Naughtonand, "Event Extraction from Heterogeneous News Sources,"

in AAAI, University College Dublin, Ireland, 2006.

[18] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C.,

"ANALYZING INCIDENT MANAGEMENT EVENT SEQUENCES WITH".