Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Ngô Quang Hiểu
PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN
DẠNG HỆ THỐNG LIFEFLOW
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
HÀ NỘI - 2013
HÀ NỘI 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Ngô Quang Hiểu
PHÂN TÍCH VÀ TRỰC QUAN HÓA CHUỖI SỰ KIỆN
DẠNG HỆ THỐNG LIFEFLOW
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công Nghệ Thông Tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Vũ Ngọc Trình
i
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến PGS.TS Hà
Quang Thụy, ThS. Vũ Tiến Trình, những người đã tận tình hướng dẫn, chỉ bảo tôi trong
suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin cảm ơn các thầy cô và cán bộ của trường Đại học Công Nghệ đã dạy bảo
cũng như tạo điều kiện cho tôi học tập và nghiên cứu tại đây.
Tôi cũng xin cảm ơn các anh chị, các bạn trong phòng thí nghiệm công nghệ tri
thức KT-Lab đã giúp đỡ tôi rất nhiều trong việc hỗ trợ các vấn đề chuyên môn trong học
tập và trong quá trình thực hiện khóa luận.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp K54CD đã ủng hộ, khích lệ, giúp đỡ
tôi rất nhiều trong quá trình học tập và rèn luyện tại trường.
Cuối cùng, tôi muốn gửi lời biết ơn vô hạn tới gia đình, bạn bè, người thân, đặc
biệt là bố mẹ và em gái tôi, những người luôn dành cho tôi sự yêu thương, tin tưởng, luôn
sát cánh bên tôi, hỗ trợ về mọi mặt, khuyến khích và ủng hộ để tôi có thể vượt qua những
khó khăn và đạt được những thành công trong học tập và cuộc sống.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 10 tháng 5 năm 2013
Sinh viên
Ngô Quang Hiểu
ii
TÓM TẮT NỘI DUNG
Phân tích và trích chọn chuỗi sự kiện là quá trình trích chọn thông tin trong các
văn bản có chứa sự kiện, nhóm các văn bản cùng nói về một sự kiện thành chuỗi theo thứ
tự thời gian. Đây là một bài toán có tính ứng dụng thực tiễn cao nên nó đã và đang nhận
được sự quan tâm nghiên cứu của nhiều nhà khoa học, chẳng hạn tại các hội nghị khoa
học quốc tế có uy tín như MUC (Message Understand Conference), chương trình TDT
(Topic Detection Tracking), chương trình ACE (Automatic Content Extraction), tại các
trung tâm nghiên cứu IBM, Microsoft…
Đi cùng với bài toán trích chọn chuỗi sự kiện là việc trực quan hóa các chuỗi sự
kiện trích chọn được. LifeFlow là một hệ thống trực quan hóa chuỗi sự kiện do Guerra-
Gómez J. và cộng sự (Đại học Maryland) nghiên cứu phát triển [1]. Hệ thống cho phép
biểu diễn theo thời gian, thống kê, và theo vết các chuỗi sự kiện rất hiệu quả.
Khóa luận tốt nghiệp với đề tài “Phân tích và trực quan hóa chuỗi sự kiện dạng hệ
thống LifeFlow” nghiên cứu các vấn đề liên quan đến phân tích và trích chọn chuỗi sự
kiện đồng thời thực hiện trực quan hóa các chuỗi sự kiện này. Khóa luận trình bày một
số hướng tiếp cận để giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, sau đó, đề
xuất một phương pháp nhằm trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng
Việt. Phần cuối của khóa luận mô tả quá trình thực nghiệm với phương pháp đánh giá độ
tương đồng kết hợp thông tin thời gian, địa điểm sau đó trực quan hóa bằng hệ thống
LifeFlow.
Từ khóa: chuỗi sự kiện, trích chọn chuỗi sự kiện, nhận dạng chuỗi sự kiện, phân tích
chuỗi sự kiện, trực quan hóa chuỗi sự kiện
iii
Lời cam đoan
Tôi xin cam đoan rằng, khóa luận tốt nghiệp với đề tài “Phân tích và trực quan
hóa chuỗi sự kiện dạng hệ thống LifeFlow” là công trình nghiên cứu của mình với sự
giúp đỡ của giảng viên hướng dẫn là PGS.TS. Hà Quang Thụy. Các nội dung và kết quả
trong khóa luận này hoàn toàn là trung thực, được viết lại theo cách hiểu của bản thân sau
quá trình nghiên cứu, thực nghiệm, không hề sao chép từ bất kì nguồn có sẵn nào. Tất cả
các tài liệu tham khảo liên quan đều được trích dẫn trong danh sách các tài liệu tham khảo
của khóa luận.
Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu trách nhiệm trước
hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình.
Hà Nội, ngày 10 tháng 5 năm 2013
Sinh viên
Ngô Quang Hiểu
iv
Nội Dung
Lời cảm ơn ................................................................................................................ i
TÓM TẮT NỘI DUNG .......................................................................................... ii
Lời cam đoan .......................................................................................................... iii
Danh sách hình vẽ và bảng biểu .......................................................................... vii
Danh sách thuật toán ........................................................................................... viii
LỜI MỞ ĐẦU ......................................................................................................... 1
Chương 1 ................................................................................................................. 3
Tổng quan về phân tích và trích chọn chuỗi sự kiện .......................................... 3
1.1. Trích chọn thông tin .................................................................................... 3
1.2. Trích chọn sự kiện....................................................................................... 3
1.2.1. Định nghĩa sự kiện ............................................................................ 4
1.2.2. Trích chọn sự kiện ............................................................................ 5
1.3. Phân tích và trích chọn chuỗi sự kiện ......................................................... 5
1.3.1. Phân tích chuỗi sự kiện và tính thời sự ............................................. 5
1.3.2. Định nghĩa chuỗi sự kiện .................................................................. 5
1.3.3. Phát hiện sự kiện khởi đầu và quyết định chuỗi ............................... 6
1.3.4. Trực quan hóa chuỗi sự kiện ............................................................. 7
1.4. Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự kiện .......... 7
1.4.1. Ý nghĩa khoa học .............................................................................. 7
1.4.2. Ứng dụng thực tiễn ........................................................................... 7
1.5. Khó khăn và thách thức .............................................................................. 7
1.6. Tóm tắt chương 1 ........................................................................................ 8
Chương 2 .................................................................................................................. 9
Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện .............................. 9
2.1. Hướng tiếp cận học máy ............................................................................. 9
2.1.1. Phương pháp k người láng giềng gần nhất k-NN .................................... 9
2.1.2. Phương pháp lai kNN-SVM ........................................................... 11
v
2.2. Hướng tiếp cận sử dụng trọng số TF-IDF ................................................. 13
2.3. Hướng tiếp cận sử dụng thông tin thời gian- địa điểm ............................. 14
2.3.1. Thông tin thời gian ......................................................................... 14
2.3.2. Thông tin địa điểm .......................................................................... 15
2.4. Nhận xét và đánh giá ................................................................................. 16
2.5. Tóm tắt chương 2 ...................................................................................... 16
Chương 3 ............................................................................................................... 18
Phương pháp phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức tiếng
Việt ......................................................................................................................... 18
3.1 Mô tả bài toán ........................................................................................... 18
3.2 Phương pháp đề xuất ................................................................................. 18
3.2.1 Đánh giá độ tương đồng nội dung ...................................................... 20
3.2.2 Đánh giá độ tương đồng thời gian địa điểm ....................................... 20
3.2.3 Đánh giá độ tương đồng sự kiện ........................................................ 21
3.3 Mô hình giải quyết .................................................................................... 22
3.3.1 Lưu trữ dữ liệu ................................................................................... 22
3.3.2 Trích chọn đặc trưng .......................................................................... 24
3.3.3 Biểu diễn sự kiện ................................................................................ 24
3.3.4 Phát hiện sự kiện khởi đầu ................................................................. 24
3.3.5 Tính độ tương đồng sự kiện ............................................................... 24
3.3.6 Quyết định chuỗi sự kiện ................................................................... 25
3.3.7 Mô hình chuỗi sự kiện ........................................................................ 25
3.4 Tóm tắt chương 3 ...................................................................................... 25
Chương 4: .............................................................................................................. 27
Thực nghiệm ......................................................................................................... 27
4.1. Phương pháp thực nghiệm ........................................................................ 27
4.1.1. Phương pháp đánh giá .................................................................... 27
4.1.2. Chiến thuật thực nghiệm ................................................................. 27
4.2. Môi trường thực nghiệm ........................................................................... 29
vi
4.2.1. Hệ thống phần cứng ........................................................................ 29
4.2.2. Công cụ phần mềm ......................................................................... 29
4.3. Kết quả thực nghiệm và đánh giá ............................................................. 29
Tổng kết ................................................................................................................. 31
Tài liệu tham khảo ................................................................................................ 32
vii
Danh sách hình vẽ và bảng biểu
Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy ………………… 10
Hình 2.2. Mô tả dữ liệu âm dương ………………………………………. 11
Hình 2.3. Sự nhập nhằng của học máy SVM …………………………….. 13
Hình 3.1. Mô hình đề xuất để giải quyết bài toán………………………… 24
Hình 3.2. Cấu trúc tệp dữ liệu sự kiện…………………………………..... 26
Hình 3.3. Cấu trúc tệp thuộc tính sự kiện ………………………………... 26
Hình 4.1. Giao diện hệ thống VnLoc …………………………………….. 29
viii
Danh sách thuật toán
Thuật toán 1. Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM……..14
1
LỜI MỞ ĐẦU
Hiện nay, sự phát triển mạnh mẽ của Internet dẫn đến sự bùng nổ thông tin về
nhiều mặt kể cả nội dung lẫn số lượng. Mặt khác, nhu cầu tiếp nhận, theo dõi, phân tích
thông tin, tìm kiếm tri thức của các cá nhân, tổ chức luôn là thiết yếu. Chính vì lý do đó,
bài toán trích chọn thông tin được coi là bài toán quan trọng trong vấn đề tìm kiếm thông
tin, tri thức từ nguồn Internet [2] [3] [4].
Là một lĩnh vực con của trích chọn thông tin, phân tích và trích chọn chuỗi sự kiện
được áp dụng trong rất nhiều hoạt động như theo dõi tin tức, chăm sóc sức khỏe, quảng
cáo, dự đoán, dự báo xu hướng… bên cạnh đó là nhiều lợi ích về khoa học và kinh tế
khác. Mục tiêu chính của khóa luận là tập trung vào khảo sát, nghiên cứu các phương
pháp giải quyết bài toán phân tích và trích chọn chuỗi sự kiện áp dụng trên miền tin tức
tiếng Việt với sự kế thừa kết quả từ hệ thống theo dõi sự kiện trực tuyến VnLoc. Phương
pháp chính được đề xuất là tính toán độ tương đồng nội dung giữa các sự kiện kết hợp sử
dụng các thông tin về thời gian, địa điểm. Kết quả của phương pháp này tương đối khả
quan, nó sẽ là tiền đề cho các nghiên cứu về sau của tác giả trong thời gian tới. Dữ liệu
đầu ra của hệ thống đã được hiển thị rất tốt với chương trình trực quan hóa sự kiện theo
dòng thời gian LifeFlow.
Khóa luận bao gồm 4 chương được mô tả như dưới đây.
Chương 1. Tổng quan về phân tích chuỗi sự kiện. Đưa ra cái nhìn tổng quát về
trích chọn thông tin trong kỷ nguyên dữ liệu lớn, bài toán phân tích và trích chọn chuỗi sự
kiện, tầm quan trọng và ứng dụng của nó trong khoa học cũng như thực tiễn.
Chương 2. Nền lý thuyết về trích chọn và phân tích chuỗi sự kiện. Trình bày một
số hướng tiếp cận giải quyết bài toán phân tích và trích chọn chuỗi sự kiện, đánh giá các
hướng tiếp cận này để lựa chọn giải pháp thử nghiệm cho vấn đề phân tích chuỗi sự kiện
trên miền dữ liệu tiếng Việt.
Chương 3. Phương pháp phân tích và trực quan hóa chuỗi sự kiện. Mô tả đặc
điểm của dữ liệu, phân tích các khía cạnh của bài toán và trình bày cụ thể mô hình giải
quyết bài toán.
Chương 4. Thực nghiệm và đánh giá. Chương này trình bày quá trình thực nghiệm
với mô hình đề xuất ở chương 3, đưa ra các kết quả thực nghiệm cùng với so sánh và
đánh giá.
2
Tổng kết là phần tóm tắt các công việc mà khóa luận đã thực hiện được, những kết
quả đạt được và những điểm còn hạn chế, đề ra phương hướng nghiên cứu trong thời gian
tới.
3
Chương 1
Tổng quan về phân tích và trích chọn chuỗi sự kiện
Chương đầu tiên của khóa luận sẽ giới thiệu tổng quan về lĩnh vực trích chọn
thông tin trong kỷ nguyên dữ liệu lớn. Bên cạnh đó trình bày sơ lược về bài toán phân
tích, trích chọn và trực quan hóa chuỗi sự kiện cùng sự cần thiết của nó trong nghiên cứu
khoa học cũng như thực tiễn. Cuối cùng, khóa luận sẽ đưa ra những khó khăn và thách
thức của cộng đồng khoa học cũng như bản thân tác giả khi giải quyết bài toán.
1.1. Trích chọn thông tin
Trích chọn thông tin là lĩnh vực nhận được sự quan tâm rất lớn từ các nhà khoa
học. Con người luôn có nhu cầu trích chọn thông tin để có một sự thấu hiểu, một cái nhìn
tổng quan về những dữ liệu mình có được, hơn cả là có được những tri thức mới để phục
vụ nhu cầu tìm tòi, hiểu biết của cá nhân hay áp dụng vào thực tiễn trong nghiên cứu khoa
học và giải quyết các bài toán kinh tế của các tổ chức.
Hiện nay, với sự gia tăng chóng mặt về số lượng cũng như sự phức tạp của thông
tin thì nhiệm vụ trích chọn thông tin lại càng trở lên quan trọng. Nó được áp dụng trong
nhiều lĩnh vực cuộc sống như theo dõi tin tức, làm sạch dữ liệu, chăm sóc khách hàng,
quảng cáo… Đáng tiếc, là dữ liệu mà chúng ta có hiện nay hầu hết là các văn bản dạng
phi cấu trúc và bán cấu trúc. Các công cụ phần mềm đơn thuần không thể tự động phân
tích các văn bản này, nó đòi hỏi con người phải mất rất nhiều thời gian, công sức để thực
hiện công việc phân tích và chọn lọc. Trích chọn thông tin chính là giải pháp cho vấn đề
này. Theo Cowie & Lehnert [2] trích chọn thông tin là lựa chọn các mảnh thông tin rời
rạc có giá trị trong văn bản sau đó đưa chúng vào các dạng dữ liệu có cấu trúc nhằm nâng
cao khả năng phân tích, biểu diễn, trực quan dữ liệu.
Trích chọn thông tin có nhiều mức độ như nhận dạng thực thể (Entity
Recognition), xác định thuộc tính đặc trưng (Attribute Recognition), xác định quan hệ
giữa các thực thể (Ralation Extraction), nhận dạng đồng tham chiếu (Co-reference
Resolution) [4]. Bởi tính đa dạng về lĩnh vực, ngôn ngữ, rất nhiều phương pháp đã được
đề xuất và áp dụng để trích chọn thông tin: các phương pháp dựa trên luật, các mô hình
thống kế, các mô hình học máy. Mỗi phương pháp có ưu nhược điểm khác nhau và phù
hợp với những kiểu dữ liệu nhất định.
1.2. Trích chọn sự kiện
Trích chọn sự kiện là bài toán nhận được sự quan tâm từ cộng đồng nghiên cứu
khoa học từ rất sớm. Các vấn đề liên quan đến trích chọn sự kiện được đề cập đến nhiều
nhiều trong hội nghị nổi tiếng như MUC (Message Understand Conference) với đóng góp
4
quan trọng là đưa ra phương pháp trích xuất sự kiện theo khung mẫu (scenario template).
Phương pháp này có thể trích chọn được ác sự kiện cùng các thông tin liên quan như tổ
chức, các đối tượng tham gia (tác nhân, sự kiện) với độ chính xác và độ hồi tưởng nằm
trong khoảng 50% tới 60% [5]. Bên cạnh đó, chương trình Phát hiện và theo dõi chủ đề
(TDT-Topic Detection and Tracking) được Viện công nghệ và chuẩn quốc gia Hoa Kỳ
(NIST) cùng DARPA tổ chức thường niên từ năm 1997 tập trung giải quyết bài toán phát
hiện sự kiện mới và theo dõi, xâu chuỗi sự kiện. Chương trình đã thu hút được sự quan
tâm của nhiều nhóm nghiên cứu nổi tiếng về trích chọn thông tin trên toàn thế giới. Tại
các hội nghị và chương trình danh giá khác về Xử lý ngôn ngữ tự nhiên và trích chọn
thông tin, vấn đề trích xuất sự kiện cũng được rất nhiều nhóm nghiên cứu có uy tín tham
luận, công bố và chia sẻ công trình nghiên cứu của mình với những kết quả ngày càng
tích cực
1.2.1. Định nghĩa sự kiện
Theo Allan và cộng sự thì tin tức được coi là phản ánh một sự kiện nếu nó có đủ
bốn yếu tố: hành vi, chủ thể, thời gian, địa điểm [6]. Hành vi là các hoạt động/hành động
gây ra sự kiện. Chủ thể là con người, sự vật hoặc sự việc. Thời gian là thời gian xảy ra sự
kiện. Địa điểm là nơi diễn ra sự kiện. Ví dụ: “Sáng ngày 28/8/2012 đã xảy ra một vụ tai
nạn trên đường Quốc lộ 1A khiến cho 2 người chết và 1 người bị thương.”. Cũng theo
nhóm nghiên cứu này, việc định nghĩa rõ ràng thế nào là một sự kiện rất khó bởi sự đa
dạng của ngôn ngữ, tính nhập nhằng liên quan tới ngữ cảnh và sự phức tạp về văn hóa của
mỗi cộng đồng. Ví dụ sau đây có đủ bốn yếu tố nhưng vẫn không phải là sự kiện: “Theo
thống kê, trong 6 tháng đầu năm nay, số người tử vong do hỏa hoạn trên địa bàn
TP.HCM đã tăng lên con số 23. ”. Trong phạm vi giải quyết bài toán trích xuất sự kiện,
việc định nghĩa rõ ràng sự kiện mà nghiên cứu quan tâm là yêu cầu trước tiên.
Chương trình ACE đã định nghĩa sự kiện như là một sự việc xảy ra rõ ràng có liên
quan đến người tham gia. Sự kiện được đề cập đến được mô tả bởi một cụm từ hoặc một
câu, nó bao gồm nguyên nhân xảy ra sự kiện và thành phần liên quan. Mỗi sự kiện chỉ có
một và chỉ một nguyên nhân và có thể có số lượng tùy ý các thành phần liên quan. Các
thành phần liên quan ở đây có thể là các thực thể được đề cập đến có quan hệ với sự kiện,
và mối quan hệ của các thực thể với nhau trong sự kiện. Ví dụ, sự kiện “sự tấn công” thì
phải có người tham gia là “người tấn công” hoặc “mục tiêu”, còn các thành phần liên
quan có thể là “thời gian diễn ra” và “địa điểm diễn ra”.
Trên thực tế, các nhóm nghiên cứu khác nhau quan tâm đến các lĩnh vực khác nhau
vì vậy việc định nghĩa thế nào là sự kiện cũng được xem xét, quyết định bởi mỗi lĩnh vực
thì sự kiện được định nghĩa bởi các thuộc tính có thể khác nhau, sự ưu tiên của các thuộc
tính này cũng khác nhau. Một sự kiện khi được đề cập đến không nhất thiết phải có đầy
đủ các thuộc tính như trong định nghĩa.
5
1.2.2. Trích chọn sự kiện
Trích chọn sự kiện là lĩnh vực con của trích chọn thông tin, nhiệm vụ của nó là tự
động phân tích và trích chọn các đặc trưng về sự kiện trong các tài liệu phi cấu trúc hoặc
bán cấu trúc. Cụ thể hơn, trích chọn sự kiện tập trung vào nhận dạng các sự kiện thuộc
một miền lĩnh vực biết trước đồng thời đưa ra các đặc trưng (tham số) của sự kiện như:
tên, tác nhân, thời gian, địa điểm…
1.3. Phân tích và trích chọn chuỗi sự kiện
1.3.1. Phân tích chuỗi sự kiện và tính thời sự
Phân tích chuỗi sự kiện là một nhiệm vụ quan trọng trong nhiều lĩnh vực. Cụ schất
lượng chăm sóc sức khỏe cho bệnh nhân; phân tích các chuỗi hành vi người dùng để tìm
ra các mẫu sử dụng cho quảng cáo và nâng cao chất lượng dịch vụ … Trong mỗi lĩnh vực
đều có những phần mềm chuyên dụng để phân tích các, trực quan hóa các chuỗi sự kiện
để nhà quản lý có thể dễ dàng đánh giá được dữ liệu của mình. Với một yêu cầu, các dữ
liệu đầu vào phải ở dạng có cấu trúc được phân tích từ các bản ghi sự kiện giao dịch, các
phiên làm việc của người dùng… Tuy nhiên, như đã nói ở phần 1.1, lượng dữ liệu có cấu
trúc nàylà rất nhỏ so với lượng dữ liệu phi cấu trúc vô cùng lớn và có giá trị như các loại
nội dung số trên các trang báo mạng, mạng xã hội. Đây là động lực chính để tác giả tìm
hiểu và nghiên cứu giải pháp cho vấn đề phân tích và trực quan hóa chuỗi sự kiện áp dụng
trên miền tin tức tiếng Việt.
Phân tích chuỗi sự kiện là việc trích chọn các đặc trưng của sự kiện, tính toán sự
tương đồng của các sự kiện riêng biệt để liên kết chúng nhằm mô tả diễn biến của sự kiện
đó. Đây là bài toán được đặt ra cho nhiều hội nghị và chương trình chuyên nghiên cứu về
trích chọn thông tin, cụ thế nó là một trong năm nội dung của chương trình TDT-1 (1997).
Chương trình này quan tân đến hai dạng dữ liệu: tin tức dưới dạng văn bản và tin tức
thông qua phát thanh, truyền hình.
1.3.2. Định nghĩa chuỗi sự kiện
Trong công bố của Hekki Mannila và cộng sự [7], một sự kiện được định nghĩa bởi
cặp (A,t) với A ϵ E là tập sự kiện (A bao gồm tên sự kiện, loại sự kiện và các thuộc tính), t
là thời gian xảy ra sự kiện đó. Mỗi loại sư kiện có thể chứa đựng môt vài thuộc tính,
nhưng để đơn giản chúng ta coi như mỗi loại sự kiện chỉ có một giá trị duy nhất. Chuỗi sự
kiện S trên tập sự kiện E là một bộ ba giá trị (s, Ts, Te) với:
s = { (A1, t1), (A2, t2),…, (An, tn) }
là dãy có thứ tự của các sự kiện ở đó
Ai ϵ E với i = 1, …, n
ti ≤ ti + 1 với i = 1, …,n-1
Ts là thời gian bắt đầu dãy sự kiện
6
Te là thời gian kết thúc dãy sự kiện
Ts, Te ϵ N
Ts ≤ ti < Te với i = 1,…, n.
Ví dụ: Hình dưới đây biểu diễn chuỗi sự kiện S = (s, 29, 68), ở đó
...,( ,31),( ,32),( ,33),( ,35),( ,37),...,( ,67),...s E D F A B D
Hình 1.1: Mô tả của một chuỗi sự kiện
Theo TDT, nhận dạng chuỗi sự kiện gồm 2 bước. Ở bước thứ nhất, sự kiện khởi
đầu được đánh dấu - bài toán phát hiện sự kiện đầu (First Story Detection) trong TDT-
1,2; bài toán phát hiện sự kiện mới (New Event Detection ) trong TDT-3,4,5. Bước thứ
hai, từ tập sự kiện đã được trích xuất, cần có những phương pháp đánh giá liên kết giữa
các sự kiện để quyết định chuỗi.
1.3.3. Phát hiện sự kiện khởi đầu và quyết định chuỗi
Chương trình TDT định nghĩa sự kiện khởi đầu là một sự kiện chưa từng xảy ra
hoặc chưa từng được nhắc đến tính tới thời điểm hiện tại [8]. Hình 1.2 minh họa sự kiện
khởi đầu trong luồng thông tin cập nhật. Hai sự kiện được biểu diễn bởi hình thoi và hình
tròn trong luồng thông tin hỗn tạp được sắp xếp theo thời gian. Hình vẽ chỉ ra hai sự kiện
khởi đầu cùng các sự kiện kéo theo chúng. Kết quả nhóm nghiên cứu tại đại học Carnegie
Mellong do Yiming Yang điều hành cho rằng việc phát hiện sự kiện khởi đầu có thể tiến
hành theo hai khía cạnh. Thứ nhất, dựa trên các sự kiện đã xảy ra trước đó, những sự kiện
được khởi đầu được đánh dấu, nghĩa là việc phát hiện sự kiện ngoại tuyến. Thứ hai, giám
sát luồng thông tin cập nhật và phát hiện sự khởi đầu qua từng sự kiện, tức ra thực hiện
trực tuyến [9].
Trong luồng thông tin cập nhật liên tục, chúng ta phải quan tâm đến sự kiện trùng
lặp và sự kiện tương đồng. Đối với sự kiện trùng lặp, nhiều nguồn tin đưa ra cùng một sự
kiện, tức là chúng có cùng tên và các thuộc tính. Trong khi đó, sự kiện tương đồng là
những sự kiện phản ánh sự thay đổi về trạng thái của sự kiện khởi đầu. Khi một sự kiện
xuất hiện trong luồng thông tin, nó sẽ được xác định xem có phải là sự kiện mới không
dựa trên độ tương đồng, đây cũng là cơ sở để quyết định chuỗi. Bài toán khử trùng lặp sẽ
được thực hiện trong pha trích xuất sự kiện, còn ở bài toán nhận dạng chuỗi sự kiện ta chỉ
quan tâm tới các sự kiện tương đồng.
7
1.3.4. Trực quan hóa chuỗi sự kiện
LifeFlow là dạng các hệ thống có khả năng trực quan hóa chuỗi sự kiện theo thời
gian, biểu diễn các mốc sự kiện và khoảng thời gian giữa các mốc này. Hiện nay có khá
nhiều hệ thống có khả năng như trên, đơn cử là hệ thống Event Flow, một bản nâng cấp
của LifeFlow được phát triển bởi nhóm nghiên cứu tại trường Đại học Maryland, Mỹ.
EventFlow cho phép thống kê số lượng các chuỗi sự kiện, tìm kiếm chúng dựa trên các
đặc trưng [1].Một công cụ trực quan hóa rất tốt khác phải kể đến đó là Zinsight, phát
triển bởi trung tâm nghiên cứu của IBM và được công bố vào năm 2010 [10]. Ngoài khả
năng thống kê, Zinsight còn có thể theo dấu sự kiện, vẽ biểu đồ chuỗi sự kiện cùng một số
chức năng phân tích khác. Đặc biệt, Zinsight được phát triển như các plug-in cho phép
tích hợp vào những môi trường phát triển tích hợp như Eclipse tạo thuận lợi cho các nhà
phát triển phần mềm và phân tích dữ liệu làm việc hiệu quả hơn. Tuy nhiên, Zinsight vẫn
còn gặp một số lỗi khi tích hợp với eclipse, gây bất tiện khi thực nghiệm, do đó khóa luận
quyết định sử dụng hệ thống EventFlow để tiến hành trực quan hóa sự kiện.
1.4. Ý nghĩa và ứng dụng của phân tích và trực quan hóa chuỗi sự
kiện
1.4.1. Ý nghĩa khoa học
Trong lĩnh vực khoa học, phân tích và trích chọn chuỗi sự kiện là một trong những
bài toán cơ bản của trích chọn thông tin hướng sự kiện. Đưa ra được phương pháp tốt để
giải quyết các khía cạnh của bài toán là cần thiết và là tiền đề cho các nghiên cứu khác
như theo dõi xu hướng quan tâm của cộng đồng, dự đoán xu hướng sự kiện hay các bài
toán về giám sát, quản lý xã hội. Mặt khác, hiện nay trên miền dữ liệu Tiếng Việt có rất ít
nghiên cứu được công bố chính thức về trích chọn cũng như trực quan hóa sự kiện và
chuỗi sự kiện, do đó có một phương pháp trích xuất sự kiện và chuỗi sự kiện tốt sẽ là
bước đệm cơ sở cho các nghiên cứu sau này
1.4.2. Ứng dụng thực tiễn
Như đã nói ở trên, nhu cầu tất yếu của con người là tiếp nhận thông tin, theo dõi
các tin tức về lĩnh vực mà mình quan tâm. Người dùng sẽ dễ dàng hơn trong việc theo dõi
một sự kiện, tin tức nếu nó đã được sắp xếp có tuần tự. Ngoài ra, trên các lĩnh vực khác
nhau, việc xâu chuỗi các sự kiện là vô cùng cần thiết đối với các hệ thống phân tích, theo
dõi, dự đoán về thời tiết, sức khỏe, bệnh dịch, xu hướng dịch vụ,… Do vậy, phát triển các
phương pháp về trích xuất chuỗi sự kiện là cần thiết và đúng đắn.
1.5. Khó khăn và thách thức
Mặc dù được các nhà khoa học quan tâm nghiên cứu khá sớm, phân tích và trích
chọn chuỗi sự kiện vẫn còn tồn tại nhiều khó khăn với những thách thức trong việc nâng
cao hiệu quả bài toán trong dữ liệu ngày càng lớn và phức tạp.
8
Độ chính xác của trích chọn chuỗi sự kiện phụ thuộc rất lớn vào quá trình trích
xuất sự kiện. Trong khi đó, trích xuất sự kiện là một bài toán khó, liên quan mật thiết đến
các vấn đề ngôn ngữ học. Lĩnh vực xử lý ngôn ngữ tự nhiên nói chung và xử lý tiếng Việt
nói riêng tương đối rộng và tồn tại bài toán chưa được giải quyết triệt để mà trong đó có
xử lý nhập nhằng ngữ nghĩa (Word Sense Disambiguation), bài toán đồng tham chiếu
(Co-references) hay việc nhận dạng tính đa hình của cấu trúc ngữ pháp trong tiêu đề tin
tức.
Vấn đề mấu chốt trong trích chọn chuỗi sự kiện là sự đúng đắn trong tính tuần tự
của các tin tức sự kiện. Trong nhiều trường hợp, giả sử rằng hai tin tức đều nói về một sự
kiện, tin tức T1 được xuất bản trước tin tức T2 nhưng T1 lại phản ánh trạng thái sự kiện xảy
ra sau tin tức T2 khi mà khoảng thời gian chuyển trạng thái của sự kiện không có cách biệt
lớn và sự mập mờ trong thông tin về thời gian. Có thể đó là một sự kiện nóng được cập
nhật liên tục. Như vậy, rất khó để có thể đưa ra một chuỗi trạng thía sự kiện hợp lý. Điều
này đòi hỏi nhiều thống kê, khảo sát dữ liệu, phân tích xu hướng xuất bản tin tức và
những kỹ thuật giám sát mức cao khác.
Ngoài ra, tính tới thời điểm thực hiện khóa luận, theo khảo sát của tác giả thì ở
Việt Nam có rất ít nghiên cứu về trích xuất sự kiện, phân tích và trích chọn chuỗi sự kiện.
Bởi vậy, khóa luận rất thiếu những nguồn tham khảo về kỹ thuật cũng như kinh nghiệm
trong việc xử lý bài toán với dữ liệu tiếng Việt. Điều này đòi hỏi nhiều thời gian hơn để
thử nghiệm và đánh giá phương pháp nào là tốt, phù hợp với mục tiêu đề ra.
1.6. Tóm tắt chương 1
Chương 1 đã nêu một số vấn đề về trích chọn thông tin trong thời đại dữ liệu lớn
và có xu hướng tang mạnh trong tương lai. Trọng tâm của chương này là làm rõ ràng bài
toán phân tích và trích chọn chuỗi sự kiện với các định nghĩa sự kiện, trích xuất sự kiện,
chuỗi sự kiện, các bước tiếp cận vấn đề đồng thời giới thiệu một số công cụ phân tích và
trực quan hóa chuỗi sự kiện. Bên cạnh đó, nội dung của chương 1 cũng nêu bật ý nghĩa
của việc giải quyết bài toán phân tích chuỗi sự kiện bao gồm ý nghĩa về mặt lý luận khoa
học và ứng dụng thực tiễn. Chương này cũng nêu lên những khó khăn, thách thức mà
người giải quyết bài toán gặp phải khi nghiên cứu và triển khai các phương pháp trích
chọn, chi tiết về các phương pháp phân tích, trích chọn chuỗi sự kiện sẽ được đề cập trong
chương
9
Chương 2
Các hướng tiếp cận bài toán phân trích chọn chuỗi sự kiện
Trong chương 1, tác giả đã mô tả những hiểu biết cơ bản về bài toán phân tích,
trích chọn sự kiện và chuỗi sự kiên. Ở chương này, khóa luận sẽ trình bày một số phương
pháp giải quyết, trong phần 2.1 là các phương pháp học máy như k người láng giềng gần
nhất k-NN, cây quyết định D-tree và một phương pháp lai kết hợp giữa k-NN và máy hỗ
trợ vec-tơ SVM. Tiếp đó, phần 2.2 sẽ đưa đến phương pháp trích xuất chuỗi sự kiện dựa
trên độ tương đồng về nội dung, phần 2.3 nói về hướng giải quyết bài toán dựa trên việc
sử dụng các thông tin về thời gian địa điểm. Kết thúc chương sẽ là phần nhận xét, đánh
giá các thuật toán dẫn đến quyết định phương pháp đề xuất của tác giả sẽ được trình bày ở
chương 3.
2.1. Hướng tiếp cận học máy
Ở góc độ học máy, bài toán phân tích và trích chọn chuỗi sự kiện được coi là một
bài toán phân lớp. Bộ phân lớp sẽ học dựa trên tập huấn luyện và đưa ra kết quả phân lớp
các chuỗi sự kiện. Một hệ thống như vậy được mô tả như hình dưới đây.
Hình 2.1. Hệ thống trích chọn sự kiện áp dụng học máy
2.1.1.Phương pháp k người láng giềng gần nhất k-NN
Có rất nhiều phương pháp học máy được áp dụng vào bài toán nhận dạng và trích
chọn chuỗi sự kiện, trong đó k-NN là một trong những thuật toán được sử dụng sớm nhất.
Với học máy giám sát, k-NN được biết đến là một phương pháp phân lớp rất tốt trong
việc nhận dạng các mẫu, phân loại văn bản. Trong công bố của Yiming Yang và các cộng
sự [11], nhóm đã tiến hành áp dụng k-NN vào bài toán theo dõi chuỗi sự kiện, ưu điểm
của phương pháp này là kết quả rất tốt mà lại cần ít nhất số giả thiết về các về các sự
kiện. Mỗi chuỗi sự kiện sẽ được trích chọn một cách độc lập mà không cần biết về các sự
kiện khác. Các sự kiện trong tập dữ liệu huấn luyện sẽ được gán một trong ba nhãn YES,
NO hoặc Brief (tóm tắt sự kiện hoặc thông báo). Bộ phân lớp sẽ tiến hành học trên từng
10
sự kiện riêng biệt, khi một sự kiện mới được đưa vào, hệ thống sẽ mã hóa nó bằng một
vec-tơ đặc trưng và so sánh với các sự kiện đã có trong tập huấn luyện. Việc lựa chọn k sự
kiện gần với sự kiện mới nhất dựa trên độ tương đồng cô-sin. Độ tin cậy khi gán nhãn
YES cho một sự kiện mới được tính theo công thức 2.1.
d P(x,k) d P(x,k)
s1(YES | x )= cos( d ,x ) cos( d ,x )
(2.1)
Trong đó
x là sự kiện mới.
(x,k)P là tập dữ liệu huấn luyện dương trong số k láng giềng.
(x,k)N là tập dữ liệu huấn luyện dương trong số k láng giềng.
Hình 2.2. Mô tả dữ liệu âm dương
Một vấn đề nảy sinh là dữ liệu huấn luyện dương quá ít so với dữ liệu huấn luyện
âm. Bởi vậy, hầu như cụm nào cũng có chứa dữ liệu âm (Hình 2.2), dẫn tới không thể gán
nhãn cho tin tức mới. Giải pháp cho vấn đề này là sự hạn chế sự ảnh hưởng của các dữ
liệu huấn luyện âm bằng cách lấy một số nhỏ mẫu trong k láng giềng gần nhất, bỏ qua số
còn lại. Thuật toán k-NN có sự thay đổi theo tư tưởng vừa nêu ra. Lấy tập 1 1( )k k k láng
giềng gần nhất được gán nhãn dương 1
( , )P x k và tập 2 2( )k k k láng giềng gần nhất được
gán nhãn âm 2
N(x,k ) . Theo đó độ tin cậy của nhãn YES đối với dữ liệu tin tức mới được
tính lại bởi biểu thức 2.2.
11
1 2
2
d P(x,k ) d P(x,k )1 2
1 1s (YES | x )= cos( d ,x ) cos( d ,x )
k k
(2.2.)
Gọi tN là số mẫu huấn luyện dương đối với từng sự kiện. Thông thường giá trị
của tN là 1, 2, 4, 8, 16. Theo [11], qua quá trình thực nghiệm k ,
1k , k
2 được quyết định
bởi:
t
k=min(N ,5) (2.3)
1 tk =min(P(x,100),N ) (2.4)
k =min(P(x,100), )2
16 (2.5)
2.1.2. Phương pháp lai kNN-SVM
Máy hỗ trợ vec-tơ SVM (Support Vector Machine) được đánh giá là một thuật toán
có hiệu năng rất cao trong bài toán phân lớp văn bản, đặc biệt là những bài toán với dữ
liệu có số chiều lớn như vec-tơ biểu diễn văn bản [12]. Để tận dụng điều này, Zhen Lei và
cộng sự đã đưa ra hướng giải quyết bài toán trích chọn chuỗi sự kiện dựa trên ý tưởng kết
hợp hai thuật toán SVM và k-NN [13]. Độ chính xác siêu phẳng quyết định bởi mô hình
SVM trong nhiều trường hợp này vẫn có sự nhập nhằng, không chính xác (Hình 2.3).
Khắc phục điều này, phương pháp k-NN được áp dụng bằng cách tìm một mẫu trung tâm
rồi xét các mẫu gần nó nhất nằm xung quanh siêu phẳng, nhằm đưa ra nhãn đúng nhất cho
những mẫu bị nhập nhằng này. Mẫu trung tâm được quyết định bởi công thức 2.6.
n
(0)
i 2
k=1 i k
1D =
1+ fd || x - x || (2.6)
Với ix là dữ liệu mẫu thứ i và:
d 2
d
4f =
r (2.7)
12
Hình 2.3: Sự nhập nhằng của học máy SVM
dr là khoảng cách tối đa giữa các láng giềng, có thể một trong hai giá trị ở công
thức 2.8 và 2.9.
f i k
1r = min{max{|| x - x ||,i =1,...,n},k =1,...,n}
2 (2.8)
n n
m i k
k i
r || x x ||
n(n )
2
1 1
1 1
2 1 (2.9)
* ( )
iD max {D ,i ,...,n} 0
11 , tương ứng với
*
x1
là dữ liệu trọng tâm của cụm khởi
đầu. Các cụm về sau được tính theo công thức 2.10.
(k) (k ) *
i i k *
d i k
D D D
f ||x x ||
1
2
1
1 (2.10)
Trong đó:
k ,...,c 1 1
* (k )
k iD max{D ,i ,...,n}
1
1
Phương pháp kết hợp k-NN và SVM sẽ được trình bày ở thuật toán 1.
13
____________________________________________________________
Thuật toán 1: Thuật toán trích chọn chuỗi sự kiện sử dụng KNN-SVM
Bước 1: Tìm dữ liệu trung tập trong tập mẫu Z gồm K cụm CenterSetN =
{O1, O2, …, Ok}.
Bước 2: TrainingSet CenterSetN P+ với TrainingSet là tập dữ liệu huấn luyện.
Bước 3: Tính khoảng cách giữa tin tức mới với các dữ liệu mẫu trong tập
TrainingSet, lấy ra K mẫu gần nhất với nó. Tin tức đó được gán nhãn khi K láng
giềng có cùng nhãn. Ngược lại, tới bước 4.
Bước 4: Xác định hàm xác định siêu phẳng ( ) ( )k
i i ii=1f e sgn y a (e×e ) b
Bước 5: Nếu f(e) =1 thì dữ liệu cần kiểm tra e DE. Trong đó DE là tập sự kiện đã
được xác định.
___________________________________________________________
2.2. Hướng tiếp cận sử dụng trọng số TF-IDF
Bên cạnh phương pháp sử dụng trọng số TF-IDF cũng là một trong những phương
pháp sử dụng trong thời kỳ đầu bài toán được đặt ra. Các sự kiện thuộc cùng một chuỗi
thường có một số đặc trưng tương tự (thậm trí trùng nhau). Do đó, một số độ đo tương
đồng có thể sử dụng để tiến hành nhận biết chuỗi sự kiện. Nghiên cứu của J.Micheal
Schultz, Mark Liberman biểu diễn sự kiện dưới dạng 1 vector và tính toán độ tương
đồng giữa chúng [14]. K = {k1, k2, …, kn} là tập đặc trưng. Đối với mỗi tài liệu chứa sự
kiện, độ đo TF và IDF được tính lần lượt theo công thức.
tfi = 𝑓𝑟𝑒𝑞(𝑖)
𝑚𝑎𝑥(𝑓𝑟𝑒𝑞(𝑙)) (2.11)
Trong đó:
freq(i) là số lần xuất hiện của từ khóa ki trong văn bản.
max(freq(l)) là số lần xuất hiện cực đại của tất cả từ khóa trong văn
bản.
idf = log(𝑁
𝑑𝑓(𝑖)) (2.12)
Trong đó:
df(i) là số tin tức chứa đặc trưng i
N là tổng số tin tức được xét tới.
Cuối cùng độ tương đồng giữa hai sự kiện (ở đây ta xét hai sự kiện a và b) được
quyết định bởi công thức:
14
1
2 2
1 1
* *
,
*
n
a b
i
n n
a b
i i
tf i tf i idf i
sim a b
tf i tf i
(2.13)
Trong một số nghiên cứu được công bố sau này, phương pháp sử dụng trọng số
TF-IDF đã được cải tiến để nâng cao hiệu quả trích suất chuỗi sự kiện. Kết quả cho thấy,
trong trường hợp sự kiện đã được trích xuất thì phương pháp sử dụng độ tương đồng nội
dung của sự kiện có kết quả tốt hơn
2.3. Hướng tiếp cận sử dụng thông tin thời gian- địa điểm
Trong bài toán phân tích sự kiện, các thông tin thời gian và địa điểm luôn là thuộc
tính chính để biểu diễn một sự kiện do vậy sử dụng các thuộc tính này vào việc trích xuất
chuỗi sự kiện là một điều đúng đắn. Trên thế giới cũng đã có nhiều công bố liên quan đến
vấn đề này.
2.3.1. Thông tin thời gian
Thông tin về thời gian được sử dụng vào hai việc. Thứ nhất, xâu chuỗi các sự kiện
xảy ra. Thứ hai, xâu chuỗi các sự kiện xảy ra vào chuỗi đã có trước. Thông tin thời gian
thường có ba dạng:
Dạng rõ ràng: ngày 02 tháng 9 năm 2012
Dạng không rõ ràng: sáng nay
Dạng ước lượng: cách đây chừng 1 năm
Trong [9], khái niệm tham chiếu sự kiện được đưa ra để chỉ những cụm từ mang
nghĩa tham chiếu từ tin tức này qua tin tức khác để thể hiện tính chuỗi của sự kiện. Ví dụ,
“ ngay sau đó, ngày 02/9 “ là một cụm tham chiếu sự kiện. Đây là cơ sở để tính độ tương
đồng giữa các tin tức chứa cụm tham chiếu sự kiện với các tin tức chứa sự kiện đã xảy ra.
Tin tức chứa cụm tham chiếu sự kiện sẽ được quyết định sự kiện có thuộc chuỗi nào trong
số những chuỗi đã tồn tại hay không.
Một số phương pháp tính độ tương đồng đã được đưa ra. Điển hình là:
'
x t t t t tsim (X,Y)= cover (X ,Y )* RWS (X ,Y ) (2.14)
Với Xt, Yt là các cụm tham chiếu sự kiện tương ứng của sự kiện X, Y và RWS’(Xt,
Yt ) là trọng số xếp hạng.
15
|X Y|
k
k=1t t |X| |X|
j
j=1 l=1
rs(t )
RWS(X ,Y )=
rs(t )+ rs(tl)
(2.15)
ln1
1(t)
2 k
m
tk
rs
(2.16)
n m
1,i 2, j
i=1 j=1
t 1 2
v + v
cover (T ,T )=n+m
(2.17)
2.3.2. Thông tin địa điểm
Cũng giống như đặc trưng thời gian, địa điểm là một thuộc tính quan trọng đối với
sự kiện. Tuy nhiên, trong rất nhiều trường hợp, thông tin thời gian có thể được trích xuất
chuẩn xác thì địa điểm lại gặp nhiều khó khăn bởi tính nhập nhằng tên người và tên địa
danh, hay sự trùng lặp giữa nhiều địa danh với nhau. Hơn thế, thông tin địa điểm mang
nhiều cấp, như trong “đường Cầu Giấy, quận Cầu Giấy, thành phố Hà Nội” chứa 3 cấp
địa danh và trùng lặp. Như vậy để tính toán độ tương đồng của yếu tố địa điểm phức tạp
hơn so với yếu tố thời gian.
Các đặc tính thường thấy của thông tin địa điểm:
Thông tin địa điểm thường có nhiều mức
Thông tin về địa điểm thường xuất hiện ở đầu bản tin (thường là ở ngay
phần tóm tắt sự kiện hoặc ngay trong phần đầu nội dung bài báo)
Thông tin sự kiện ít được nhắc đến trong bản tin thông báo sự kiện. Nếu
một thông tin sự kiện được nhắc đến nhiều lần thì có thể đó là bản tin thống
kê sự kiện.
Để giải quyết sự đa mức của thông tin địa điểm, ta dựa trên bộ ngữ liệu từ điển địa
điểm và thực hiện phép tính:
| |
neáu
( , ) | |
0 neáu ngöôïc laïi
t d
d t
h t d t d
n nn n
sim n n n n (2.18)
Trong đó:
16
nt là từ điển địa điểm
nd là tập địa điểm trong tin tức
Trọng số đo vị trí của địa điểm được tính bởi công thức:
( )
( ) 1
| |
d
d
pos nLoc n
d (2.19)
Với pos(nd) là vị trí câu chứa tên địa điểm tính từ 0, d là số lượng câu trong bản tin.
Ngoài ra, một trọng số đo mức phù hợp của địa điểm trong ngữ cảnh cũng được xét đến.
( ) (1 )d
d
d
n
coh n w w
N (2.20)
Trong đó:
∑ 𝑛𝑑 là số lần xuất hiện của một điểm trong bản tin sự kiện
∑ 𝑁𝑑 là số lần xuất hiện của tất cả cá địa điểm trong bản tin
w hằng số làm trơn. Chọn w = 0.5.
Kết hợp các đặc trưng trên ta sẽ tính được độ tương đồng về địa điểm của hai sự
kiện.
2.4. Nhận xét và đánh giá
Từ những nghiên cứu đã được công bố, chắc chắn không thể khẳng định cách tiếp
cận hay giải pháp nào là tốt nhất cho bài toán nhận dạng chuỗi sự kiện. Bởi mỗi loại ngôn
ngữ khác nhau, mỗi lĩnh vực tin tức khác nhau, mỗi mục tiêu khác nhau dẫn tới cách tiếp
cận và hiệu quả của các phương pháp cũng khác nhau. Mặt khác, chưa có phương pháp
ước lượng chính xác nào để có thể đánh giá được hiệu quả trích xuất chuỗi sự kiện. Trong
trường hợp tin tức chứa ít sự kiện, hay định nghĩa cụ thể về sự kiện không thật rõ ràng thì
những phương pháp áp dụng học máy k-NN, kNN-SVM tỏ ra hiệu quả hơn cả. Ngược lại,
phương pháp sử dụng độ tương đồng kết hợp các độ đo khác áp dụng cho miền tin tức
chứa nhiều sự kiện với định nghĩa rõ ràng đã mang lại kết quả khả quan.
2.5. Tóm tắt chương 2
Thông qua một số cách tiếp cận cơ bản khi giải quyết bài toán trích chọn chuỗi sự
kiện, chương 2 đã làm rõ hơn về bài toán. Trọng tâm chương này nêu lên 3 cách tiếp cận
được sử dụng phổ biến trong bài toán trích chọn chuỗi sự kiện, bao gồm hướng tiếp cận
học máy(k-NN, D-Tree, KNN-SVM), hướng tiếp cận sử dụng thống kê trọng số TF-IDF
và tiếp cận dựa trên thông tin sự kiện (thời gian, địa điểm). Chương 2 là cơ sở khoa học
17
giúp đánh giá hiệu quả phương pháp và đề ra hướng tiếp cận hợp lý cho bài toán trên đối
với miền dữ liệu tin tức tiếng Việt.
18
Chương 3
Phương pháp phân tích và trích chọn chuỗi sự kiện áp dụng
trên miền tin tức tiếng Việt
Chương 1 và chương 2 đã trình bày từ tổng quan đến chi tiết về bài toán phân tích
và trích chọn chuỗi sự kiện, các phương pháp nổi bật để giải quyết bài toán. Ở chương 3,
tác giả sẽ đi sâu vào phương pháp phân tích và trích chọn chuỗi sự kiện được áp dụng cụ
thể với miền dữ liệu tiếng Việt. Mục 2.1 sẽ trình bày cụ thể phương pháp tác giả đề xuất,
tiếp đó là mô hình giải quyết bài toán tại mục 2.2 và cuối cùng là phần tóm lược nội dung.
3.1 Mô tả bài toán
VnLoc là hệ thống theo dõi tin tức trực tuyến hướng sự kiện được xây dựng bởi
nhóm nghiên cứu tại phòng thì nghiệm tri thức KT-Lab, Trường Đại học Công nghệ [15].
Hệ thống có chức năng thu thập tin tức từ nhiều nguồn báo mạng khác nhau và trích xuất
được các sự kiện đã và đang diễn ra, sau đó được trực quan hóa trên bản đồ sự kiện
(Google Map API). Đây là một hệ thống mới, có tính ứng dụng cao trên miền tin tức
Tiếng Việt, giúp người dùng dễ dàng theo dõi các sự kiện thời sự trên các 6 lĩnh vực khác
nhau bao gồm: Hỏa hoạn, Tai nạn giao thông, Hình sự, Văn hóa, Dịch bệnh, Động đất.
Kết quả đạt trong pha trích chọn sự kiện có độ chính xác tới 92.85% và độ đo F1 xấp xỉ
91.61%. Đây là tiền đề rất tốt cho việc phân tích và trích chọn chuỗi sự kiện khi mà tác
giả được thừa kế tập dữ liệu rất giàu sự kiện từ hệ thống VnLoc.
Mục đích chính của khóa luận là trích chọn ra các chuỗi sự kiện, sau đó phân tích
thông tin để đưa vào công cụ trực quan hóa, do đó có thể phát biểu bài toán đầy đủ là:
“Nghiên cứu, đề xuất, thử nghiệm phương pháp trích chọn chuỗi sự kiện trên miền tin tức
tiếng Việt và trực quan hóa trên hệ thống phân tích sự kiện dạng Life Flow”.
Như vậy thì đầu vào và đầu ra của bài toán sẽ là:
Đầu vào: Tập các bài báo về sự kiện được thu thập, trích xuất bởi hệ thống VnLoc.
Đầu ra: Tập các bài báo sự kiện đã được xâu chuỗi.
3.2 Phương pháp đề xuất
Tương tự cách định nghĩa sự kiện của các nghiên cứu trước đây, sự kiện là một tập
các thuộc tính:
e = {a1, a2, a3, …, an} (3.1)
Trong hệ thống VnLoc, sự kiện được định nghĩa là tập
19
e = {n, c, t, p, s, l, a}. Với
n: tên sự kiện.
c: loại sự kiện,
t: thời gian xảy ra sự kiện.
p: địa điểm xảy ra sự kiện.
s: nguồn đưa tin.
l: liên kết đến nguồn tin.
a: tóm tắt sự kiện.
Ví dụ mô tả một sự kiện trong VnLoc.
e = {Dập được “bà hỏa” nhờ ở gần cơ sở bán bình chữa cháy,
hỏa hoạn,
Tue Sep 11 11:00:00 GMT+07:00 2012,
quán café trên đường Nguyễn Thị Minh Khai- TP đà Nẵng,
Người Lao Động,
http://nld.com.vn/2012091103235648p0c1002/dap-duoc-ba-hoa-nho-o-gan-
co-so-ban-binh-chua-chay.htm
Một quán cà phê đang trong quá trình sửa chữa bị chập điện và suýt bị “bà
hỏa” thiêu trụi nếu không nhờ có cơ sở bán bình chữa cháy nằm bên cạnh}
Với định nghĩa về sự kiện như trên của nhóm thực hiện hệ thống VnLoc, thì chúng
tôi định nghĩa một chuỗi sự kiện là 1 bộ ba S = {s, ts, te }, trong đó s = {e1, e2, …, en} với e1
là sự kiện khởi đầu và en là sự kiện kết thúc tính tới thời điểm đang xét, ts là thời gian xảy
ra sự kiện khởi đầu e1, te là thời gian xảy ra sự kiện kết thúc en.
Như đã nói đến trong chương 1, mỗi phương pháp giải quyết bài toán nhận dạng
chuỗi sự kiện đều có những ưu nhược điểm riêng tùy thuộc vào đặc điểm của dữ liệu, đặc
trưng của ngôn ngữ, mục tiêu phát triển… Trên nền tảng hệ thống theo dõi tin tức trực
tuyến VnLoc, tin tức cập nhật đã được phát hiện và trích xuất với độ chính xác cao (trên
90%) và sự tham khảo ý kiến về đặc trưng của miền dữ liệu Tiếng Việt, nhóm chúng tôi
đã quyết định chọn phương pháp sử dụng độ đo tương đồng để tiến hành thực nghiệm.
Bước đầu đã mang lại kết quả tương đối khả quan.
20
3.2.1 Đánh giá độ tương đồng nội dung
Cho hai vec-tơ e1 và e2là hai vec-tơ biểu diễn sự kiện. Mỗi sự kiện có tập đặc
trưng riêng K1, K2, ..., Kn. Gọi K = { K1, K2, …, Kn }, trong đó Ki = {ki1, ki2, …, kim} . Khi
đó độ tương đồng nội dung dựa trên trọng số TF-IDF giữa e1 và e2 sẽ được xác định
theo công thức.
im
ij ij ije e
i j
contentim n
ij ije e
j i
tf (k ) tf (k ) idf (k )
sim (e ,e )
tf (k ) tf (k )
1 2
1 2
1 2
2 2
1 1
(3.2)
Với,
ij
ije
freq(k )
tf (k )
max(freq(l))
(3.3)
Trong đó:
freq(kij) là số lần xuất hiện của đặc trưng kij trong sự kiện.
max(freq(l)) là số lần xuất hiện cực đại của tất cả các đặc trưng trong
sự kiện.
ij
ij
Nidf (k ) log
df (k )
(3.4)
Trong đó:
df(kij) là số tin tức chứa đặc trưng kij
N là tổng số tin tức được xét tới
3.2.2 Đánh giá độ tương đồng thời gian địa điểm
Qua khảo sát dữ liệu, một từ điển từ khóa tham chiếu thời gian đã được xây dựng.
Dựa vào đó, độ tương đồng thời gian giữa hai sự kiện , được tính bởi công thức.
21
i i
time
ii ii i
x ysim (e ,e ) ( )
x y
1 22 2
(3.5)
Trong đó:
e1
= (x1, x2, …, xm)
e2
= (y1, y2, …, ym)
Độ tương đồng địa điểm được tính phức tạp hơn thông qua địa điểm trong tin tức
và tập từ điển địa điểm .
t d
t d
d t
h n n t d
n nn n
sim e n n
( , )
| |
neáu
( ) | |
0 neáu ngöôïc laïi
(3.6)
Trong đó:
nt là từ điển địa điểm đã được làm giàu
nd là tập địa điểm trong tin tức
d
d
n
pos nloc e
d
( )
( ) 1
| | (3.7)
Với pos(nd) là vị trí của câu chứa tên địa điểm tính từ 0, d là số câu trong bản tin sự
kiện.
t d t dplace h(n ,n ) h(n ,n ) nd nd
sim (e ,e ) | sim (e ) sim (e ) | | loc (e ) loc (e ) || 1 2 1 2 1 2
(3.8)
Như vậy độ tương đồng thời gian - địa điểm được tính theo công thức.
time place time place
sim (e ,e ) sim ( ) sim
1 2
1 với = 0.4 (3.9)
3.2.3 Đánh giá độ tương đồng sự kiện
Kết hợp 2 độ đo tương đồng ở trên, ta tính được độ tương đồng giữa sự kiện và
bởi công thức.
content time placesim(e ,e ) sim (e ,e ) ( ) sim (e ,e )
1 2 1 2 1 21
(3.10)
22
Với = 0.6.
Công thức 3.10 Là công thức cuối cùng trong pha đánh giá độ tương đồng giữa hai
sự kiện
3.3 Mô hình giải quyết
Hệ thống phân tích và trực quan hóa chuỗi sự kiện được xây dựng bao gồm 7 pha
chính: lưu trữ dữ liệu, biểu diễn sự kiện, trích xuất đặc trưng, phát hiện sự kiện khởi đầu,
tính toán các độ đo tương đồng, quyết định chuỗi sự kiện, mô hình chuỗi sự kiện với
EventFlow.
3.3.1 Lưu trữ dữ liệu
Hệ thống theo dõi tin tức trực tuyến VnLoc được xây dựng hướng đến dữ liệu lớn
bởi mỗi ngày hệ thống nhận khoảng 1500 bài báo điện tử, tiếp đó là xử lý, lưu trữ một
lượng lớn dữ liệu liên quan. Vì vậy cần thiết một hệ cơ sở dữ liệu truy xuất nhanh, chịu
tải, chịu lỗi tốt và có khả năng mở rộng về sau. Khi xây dựng VnLoc, nhóm thực hiện hệ
thống VnLoc đã chọn hệ cơ sở dữ liệu không quan hệ (NoSQL) làm thành phần lưu trữ
của hệ thống. NoSQL là một hệ cơ sở dữ liệu hướng tài liệu, không tồn tại ràng buộc giữa
các bảng lưu trữ do đó rất tốt cho việc lưu trữ các văn bản không cấu trúc mà tốc độ truy
xuất lại vượt trội so với các hệ cơ sở dữ liệu quan hệ thông thường. Hơn nữa, NoSQL là
hệ cơ sở dữ liệu phân tán, có khả năng mở rộng theo chiều ngang nên có thể tăng dung
lượng, sức mạnh các yếu tố phần cứng như CPU, HDD, RAM bằng cách kết hợp nhiều
thành phần phần cứng với nhau.
Thừa kế hệ thống VnLoc, khóa luận tiếp tục sử dụng hệ quản trị cơ sở dữ liệu
MongoDB làm thành phần lưu trữ dữ liệu bởi khả năng truy vấn nhanh, tự động cân bằng
tải, dễ dàng phân tán mà vẫn rất ổn định.
Kho chứa dữ liệu gồm ba thành phần: cơ sở dữ liệu sự kiện, cơ sở dữ liệu chuỗi sự
kiện, bộ ngữ liệu từ điển.
23
Hình 3.1: Mô hình đề xuất để giải quyết bài toán
24
3.3.2 Trích chọn đặc trưng
Tập đặc trưng được trích xuất trên tập gồm hơn 20000 bài báo điện tử thu thập
được từ nhiều nguồn với ba lĩnh vực: Hỏa Hoạn, Tai Nạn Giao Thông, Hình Sự. Quá trình
trích chọn đặc trưng tiến hành thông qua loại bỏ từ dừng trong Tiếng Việt, sau đó áp dụng
phương pháp n-gram với n = 2 và n = 3 để làm giàu cụm từ trong tập đặc trưng. Pha Trích
chọn đặc trưng đã được nhóm VnLoc thực hiện từ trước nên khóa chỉ quan tâm đến đầu ra
là tập các đặc trưng.
3.3.3 Biểu diễn sự kiện
Mỗi sự kiện được vector hóa dựa trên trọng số TF-IDF và tập đặc trưng đã trích
xuất được từ pha trước. Với mỗi tin tức d, trọng số của từng đặc trưng được tính theo
công thức.
Trong đó:
) là trọng số của đặc trưng t trong tin tức d.
là số lần xuất hiện của đặc trưng t trong tin tức d.
log 𝑁𝑡
𝑛𝑡 là trọng số IDF.
Nt là số lần đặc trưng t xuất hiện trong tin tức d.
Nt là số tin tức mà đặc trưng t xuất hiện trong đó ít nhất 1 lần
3.3.4 Phát hiện sự kiện khởi đầu
Khi hệ thống đón nhận một sự kiện được cho là mới, nó sẽ đánh dấu là sự kiện
khởi đầu. Về sau, mỗi khi duyệt một sự kiện được cập nhật, sự kiện đó sẽ được cho là
khởi đầu nếu trọng số tương đồng của nó với các sự kiện khởi đầu đã có nhỏ hơn ngưỡng
w = 0.2. Ngưỡng này chỉ là tương đối bởi hiện nay bài toán phát hiện sự kiện khởi đầu
vẫn là một bài toán khó, chưa có lời giải thích đáng cho không chỉ riêng miền dữ liệu
Tiếng Việt mà còn trên nhiều ngôn ngữ khác. Việc xác định sự kiện khởi đầu cần có sự
giám sát của con người nên hiệu quả của hệ thống cũng chưa cao.
3.3.5 Tính độ tương đồng sự kiện
Sau khi có được tập sự kiện khởi đầu, pha tính toán độ tương đồng sẽ được thực
hiện với từng sự kiện đó. Phương pháp tính toán độ tương đồng sự kiện được mô tả chi
tiết ở mục 3.2. Pha này thực hiện ba bước tính toán: tính độ tương đồng nội dung, tính độ
25
tương đồng thời gian - địa điểm và kết hợp 2 độ đo này để tính độ tương đồng giữa 2 sự
kiện.
3.3.6 Quyết định chuỗi sự kiện
Dựa trên tập sự kiện khởi đầu và tập độ đo tương đồng giữa chúng với các sự kiện
khác, pha quyết định chuỗi sự kiện làm nhiệm vụ tổng hợp, tính toán và đưa ra các chuỗi
sự kiện phù hợp. Quá trình thực nghiệm sẽ đưa ra một ngưỡng hợp lý cho độ đo tương
đồng sự kiện để xác định xem sự kiện nào là một trạng thái của sự kiện khởi đầu. Thông
tin về các chuỗi sự kiện này được lưu trữ trong cơ sở dữ liệu chuỗi sự kiện nằm tại kho
chứa dữ liệu.
3.3.7 Mô hình chuỗi sự kiện
Tập hợp các sự kiện đã được xâu chuỗi, khóa luận tiến hành phân tích các thuộc
tính của chuỗi như tên sự kiện, loại sự kiện, các mốc, khoảng thời gian, các sự biến đổi
trạng thái của sự kiện, đi kèm với nó có thể là các thuộc tính như: nguồn tin, tên bài báo…
nhằm chuyển dạng dữ liệu đầu vào cho hệ thống EventFlow.
Hình 3.2: Cấu trúc tệp dữ liệu sự kiện
Hình 3.3: Cấu trúc tệp thuộc tính sự kiện
3.4 Tóm tắt chương 3
Qua những phân tích ở chương 1 và chương 2, chương 3 tập trung vào phát biểu
bài toán mà khóa luận thực hiện đồng thời mô tả chi tiết về phương pháp được đề xuất để
26
giải quyết vấn đề . Sự kết hợp độ đo tương đồng sự kiện với độ đo tương đồng về thời
gian- địa điểm được kỳ vọng sẽ là lời giải tốt cho bài toán đặt ra. Song song với nó, mô
hình hệ thống phát hiện chuỗi sự kiện cũng được đưa ra, trình bày chi tiết, rõ ràng. Đây là
hệ thống mà khóa luận xây dựng và công việc thực nghiệm trên hệ thống này sẽ được nói
rõ hơn ở chương tiếp theo, chương 4.
27
Chương 4:
Thực nghiệm
Phương pháp giải quyết bài toán phân tích và trích chọn chuỗi sự kiện đã được đề
xuất và trình bày ở chương 3. Tiếp theo, chương này sẽ mô tả chi tiết quá trình thực
nghiệm phương pháp trên, đưa ra kết quả thực nghiệm trích chọn chuỗi sự kiện trên miền
tin tức tiếng Việt, cũng như cách làm chuẩn dữ liệu để trực quan hóa trên hệ thống
EventFlow. Phần cuối sẽ là thảo luận, đánh giá kết quả của phương pháp đối với bài toán
đã đặt ra.
4.1. Phương pháp thực nghiệm
4.1.1. Phương pháp đánh giá
Trong những chương trình như TDT hay ACE, một bộ ngữ liệu mẫu được xây
dựng để đánh gái hiệu quả phương pháp phát hiện chuỗi sự kiện. Cách tiếp cận này phụ
thuộc nhiều vào ngôn ngữ của tin tức, cần nhiều công sức xây dựng thủ công. Tuy nhiên
ưu điểm của nó là đưa ra được cơ sở đúng đắn hơn cả để ước lượng độ chính xác của
phương pháp đề xuất.
Tương ứng với mỗi sự kiện, ni là số trạng thái trong chuỗi mẫu, nie là số trạng thái
xâu chuỗi được, niec là số trạng thái xâu chuỗi đúng với mẫu tiến trình đã xây dựng. Việc
ước lượng độ chính xác được tính theo công thức 4.1, 4.2, 4.3.
iec
i
nR
n (4.1)
iec
ie
n
n
(4.2)
2R
FR
(4.3)
4.1.2. Chiến thuật thực nghiệm
Sau khi tiến hành khảo sát và tìm hiểu các hướng tiếp cận giải quyết bài toán, tác giả
đã quyết định sử dụng phương pháp như đã đề xuất trong phần để tiến hành thực nghiệm.
28
Trên cơ sở thừa kế dữ liệu và kết quả của hệ thống theo dõi tin tức trực tuyến VnLoc,
tác giả tiến hành lấy toàn bộ dữ liệu đầu ra là tập các bài báo sự kiện, bộ từ điển địa điểm,
bộ ngữ liệu tham chiếu thời gian. Bộ từ điển địa điểm bao gồm danh sách 1647 tên địa
danh, 11665 tên các cấp địa phương như huyện quân, xã phường, thị trấn… sau khi loại
bỏ trùng lặp còn 8721 tên địa phương. Trước đây, bộ từ điển địa điểm được sử dụng trên
hệ thống VnLoc nhằm nhận dạng tên các thực thể địa danh, địa điểm, còn trong hệ thống
của khóa luân, nó được dùng để tính toán độ tương đồng về thông tin địa điểm giữa các sự
kiện.
Hình 4.1: Giao diện hệ thống VnLoc
Bởi ràng buộc thời gian và nhân lực nên khóa luận chọn ra 10 sự kiện từ tập dữ
liệu để xây dựng bộ ngữ liệu chuỗi sự kiện mẫu. Mỗi sự kiện i được lấy ra bằng tay , mẫu
tiến trình diễn biến sự kiện chứa ni trạng thái. Mô hình đề xuất ở chương 3 sử dụng dữ
liệu từ cơ sở dữ liệu sự kiện và thực hiện phát hiện chuỗi sự kiện. Quá trình đánh giá
phương pháp được tiến hành như mô tả ở mục 4.1.1.
29
4.2. Môi trường thực nghiệm
4.2.1. Hệ thống phần cứng
Các thông số phần cứng của hệ thống được cài đặt phương pháp thực nghiệm được
nêu chi tiết tại bảng dưới đây.
Bảng 4.1: Thông số phần cứng của hệ thống thực nghiệm
Thành phần Thông số chi tiết
Bộ vi xử lý Intel(R) Core(TM) i5-2430M CPU @ 2.4GHz
Bộ nhớ trong 4GB
Bộ nhớ ngoài 320GB
Hệ điều hành Window 7 Professional 64bit
4.2.2. Công cụ phần mềm
Các công cụ phần mềm được dung để xây dựng hệ thống
Bảng 4.2: Các công cụ phần mềm
Tên Nguồn Mô tả
Eclipse Juno
(4.2)
Eclipse Foundation
http://www.eclipse.org/
Môi trường phát triển tích
hợp IDE
MongoDB 10gen, Inc
http://www.mongodb.org/
Hệ CSDL NoSQL được sử
dụng để lưu trữ toàn bộ dữ
liệu của hệ thống
Morphia http://code.google.com/p/morphia/ Thư viện hỗ trợ kết nối
CSDL MongoDB viết trên
Java
EventFlow Human-Computer Interaction Lab,
University of Maryland
http://www.cs.umd.edu/hcil/eventflow/
Công cụ trực quan hóa
chuỗi sự kiện
4.3. Kết quả thực nghiệm và đánh giá
Kết thúc quá trình phân tích và trích chọn chuỗi sự kieenjm kết quả thu được qua
10 sự kiện mẫu với độ chính xác trung bình 75.21% và độ đo F1 là 74.56%. Đây là một
kết quả khả quan, chứng tỏ phương pháp sử dụng độ đo tương đồng kết hợp thông tin thời
gian- địa điểm áp dụng trên miền tin tức tiếng Việt là đúng đắn. Kết quả cụ thể được mô
tả ở bảng 4.3 dưới đây.
30
Bảng 4.3: Các độ đo khi tiến hành thực nghiệm với 10 sự kiện.
STT Tên Độ chính xác Độ hồi tưởng Độ đo F
1 Sự kiện 1 73.33%% 68.75% 71.04%
2 Sự kiện 2 80.95% 77.27% 79.11%
3 Sự kiện 3 75.00% 70.56% 72.78%
4 Sự kiện 4 78.57% 73.33% 75.95%
5 Sự kiện 5 72.73% 72.73% 72.73%
6 Sự kiện 6 70.83% 73.91% 72.42%
7 Sự kiện 7 76.31% 78.38% 77.34%
8 Sự kiện 8 78.79% 74.28% 76.53%
9 Sự kiện 9 76.19% 76.19% 76.19%
10 Sự kiện 10 69.44% 73.52% 71.48%
Trung Bình 75.21% 73.89% 74.56%
31
Tổng kết
Từ việc nghiên cứu lý thuyết và kết quả thực nghiệm có thể khẳng định rằng, bài
toán phân tích và trực quan hóa chuỗi sự kiện có vai trò quan trọng trong nhiều lĩnh vực
của cuộc sống. Việc phân tích chuỗi sự kiện đưa đến cho ta khai được các thông tin giá trị
từ nguồn dữ liệu to lớn, từ đó có thể trực quan hóa, đem lại cho người dung cái nhìn tổng
quát đối với các sự kiện, chuỗi sự kiện.
Sự đa dạng của các thuật toán phân lớp, phân cụm dữ liệu khiến cho việc lựa chọn
một thuật toán để giải quyết vấn đề trở nên khó khăn hơn. Khóa luận đã tiếp cận vấn đề
nói trên và nghiên cứu các thuật toán ở các góc độ khác nhau của bài toán để đưa ra một
phương pháp mà tác giả coi là tốt nhất để áp dụng vào phân tích trích chọn chuỗi sự kiện
trên miền tin tức tiếng Việt.
Về mặt nội dung, khóa luận đã đạt được những kết quả sau:
Nghiên cứu bài toán phân tích và trích chọn chuỗi sự kiện: các khái niệm,
các hướng tiếp cận bài toán, đánh giá các giải pháp đã được đưa ra trong các tài liệu tham
khảo. Khóa luận đã tập hợp và trình bày một số phương pháp phổ biến đã được áp dụng
để giải quyết bài toán phân tích và trích chọn sự kiện, chuỗi sự kiện. Tiếp đó trình bày ưu
nhược điểm của từng phương pháp, phân tích đánh giá để đưa ra phương án tốt nhất nhằm
áp dụng cho bài toán trên dữ liệu tiếng Việt.
Xây dựng chương trình phân tích, trích chọn chuỗi sự kiện được viết trên
ngôn ngữ Java kết hợp trực quan hóa các thông tin phân tích được trên công cụ
EventFlow
Bên cạnh đó, do thời gian có hạn và kiến thức chưa đầy đủ, khóa luận vẫn còn tồn
tại một vài hạn chế.
Việc nhận dạng sự kiện khởi đầu còn phải thực hiện bằng tay nên làm giảm
đáng kể hiệu xuất và chưa thể tự động hóa để áp dụng trên một hệ thống tự
động.
Hiệu suất trích chọn chuỗi sự kiện chưa thật sự tốt, kết quả này sẽ làm cho
quá trình phân tích, thống kê và trực quan hóa có những sai sót đáng kể.
Trong tương lai, người thực hiện khóa luận sẽ tiếp tục hoàn thiện các mặt còn hạn
chế, nghiên cứu và tìm tòi để có thể đưa ra được giải pháp tốt hơn cho bài toán phân tích
và trích chọn cũng như trực quan hóa chuỗi sự kiện áp dụng cho ngôn ngữ tiếng Việt.
Đồng thời mở rộng miền dữ liệu, không chỉ dữ liệu tin tức từ các báo mạng mà sẽ áp dụng
trên miền dữ liệu khác như mạng xã hội, bản ghi sự kiện trong lĩnh vực giao thông, y tế,
máy chủ phục vụ… Cùng với đó là xây dựng được các chương trình phân tích và trực
quan hóa sự kiện hiệu quả, chính xác và thân thiện với người dùng.
32
Tài liệu tham khảo
[1] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C., "LifeFlow:
Visualizing an Overview of Event Sequences," Maryland, 2011.
[2] Cowie J., Lehnert W., "Information extraction," ACM, vol. 99, no. Special natural
language processing issu, pp. 80-91, 1996.
[3] H. Galhardas, "Information Extraction tasks: a survey" Instituto Superior Técnico,
INESC-ID, DMIR, L2F, 2006.
[4] S. Sunita, "Infomation extraction," Foundation and Trend in Databases, Vols. 1 -No
3, pp. 261-377, 2007.
[5] Ralph Grishman, Beth Sundheim, "Message understanding conference-6: a brief
history," Proceedings of the 16th conference on Computational linguistics, vol. 1, pp.
466-471, 1996.
[6] James Allan, Ron Papka, and Victor Lavrenko, "On-line new event detection and
tracking," in Proceedings of the 21st annual international ACM SIGIR conference on
Research and development in information retrieval, New York, NY, USA, 1998.
[7] Heikki Mannila, Hannu Toivonen, A. Inkeri Verkamo, "Discovery of frequent
episodes in event sequences," no. Data Min. Knowl. Discov., pp. 259-289, January
1997.
[8] R. Papka, Artist, On-line new event detection, clustering, and tracking. [Art].
Department of Computer Science, University of Massachusetts. AAI9950198, 1999.
[9] Yiming Yang, Tom Pierce, and Jaime Carbonell, "A study of retrospective and on-
line event detection," Proceedings of the 21st annual international ACM SIGIR
conference on Research and development in information retrieval, no. New York,
NY, USA, pp. 28-36, 1998.
[10] S. H. Wim De Pauw, Writer, Zinsight: A Visual and Analytic Environment for
Exploring Large Event Traces. [Performance]. IBM T.J. Watson Research Center,
Hawthorne, NY 10532, 2010.
33
[11] Yiming Y., Jaime C., Ralf B., Tom P., Brain T. A., Xin L., "Learning approaches for
Detecting and Tracking news events," Language Technologies Institute, Carnegie
Mellon University, Pittsburgh, USA.
[12] Zhen Lei, Yanjie Jiang, Peng Zhao, and Jue Wang, "News event tracking using an
improved hybrid of knn and svm," Springer, vol. 56, no. Communications in
Computer and Information Science, pp. 431-438, 2009.
[13] Zhen Lei, Ling-da Wu, Ying Zhang, and Yu-chi Liu, "A system for detecting and
tracking internet news event," in Proceedings of the 6th Pacific-Rim conference on
Advances in Multimedia Information Processing - Volume Part I, vol. 1, Berlin,
Heidelberg, Springer-Verlag, 2005, pp. 754-764.
[14] J. M. Schultz, M. Liberman, "Topic detection and tracking using idf-weighted cosine
coefficient," Proceedings of the DARPA Broadcast News Workshop, pp. 189-192,
1999.
[15] Mai-Vu Tran, Minh-Hoang Nguyen, Sy-Quan Nguyen, Minh-Tien Nguyen, and
Xuan-Hieu Phan, in The Fourth International Conference on Knowledge and
Systems Engineering, KSE'12, Ha Noi, 2012.
[16] M. S. Heikki Mannila, "Finding Simple Intensity Descriptions from Event," in ACM,
University of Helsinki, Finland, 2001.
[17] N. K. J. C. M. Naughtonand, "Event Extraction from Heterogeneous News Sources,"
in AAAI, University College Dublin, Ireland, 2006.
[18] Guerra- Gómez J., Wongsuphasawat K., Wang T., Pack M., Plaisant C.,
"ANALYZING INCIDENT MANAGEMENT EVENT SEQUENCES WITH".