23
Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng Việt Người thực hiện: Hoàng Minh Hiền Phạm Thị Thu Uyên Người hướng dẫn: PGS.TS Hà Quang Thụy Cử nhân Trần Mai Vũ 1

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

Độ tương đồng ngữ nghĩa giữa

hai câu và ứng dụng trong

tóm tắt văn bản tiếng Việt

Người thực hiện:

Hoàng Minh Hiền

Phạm Thị Thu Uyên

Người hướng dẫn:

PGS.TS Hà Quang Thụy

Cử nhân Trần Mai Vũ

1

Page 2: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

2

Nội dung báo cáo

1. Giới thiệu

2. Độ tương đồng câu

3. Phương pháp tính độ tương đồng câu

4. Áp dụng và kết quả thực nghiệm

5. Kết luận và hướng nghiên cứu tiếp

Page 3: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

3

1. Giới thiệu

Vai trò độ tương đồng ngữ nghĩa giữa các

câu

• Sự quan tâm đặc biệt trong các hội nghị

quốc tế như: DUC…

• Áp dụng tốt độ đo này sẽ làm các ứng dụng

trở nên “thông minh” hơn.

Tính cấp thiết của độ tương đồng ngữ nghĩa

trong tiếng Việt

• Được nêu ra trong đề tài cấp nhà nước

KC.01.01.06-102

Page 4: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

4

2. Độ tương đồng câu

Độ tương đồng câu là gì?

Ví dụ: Xét hai câu sau:

“Tôi là nam sinh” và “Tôi là nữ sinh”

ta thấy hai câu trên có sự tương đồng cao.

Một tài liệu d gồm có n câu: d = s1, s2,... , sn.

Mục tiêu của bài toán là tìm ra một giá trị

của hàm S(si, sj) với S (0,1), và i, j = 1,...,n.

Hàm S(si, sj) được gọi là độ đo tương đồng

giữa hai câu si và sj.

Page 5: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

5

2. Độ tương đồng câu

Các phương pháp tính độ tương đồng câu

Phương pháp sử dụng thống kê

Độ đo cosine

Phương pháp sử dụng xử lý ngôn ngữ tự nhiên

Sử dụng phân tích cấu trúc ngữ pháp

Sử dụng mạng ngữ nghĩa đối với từ

• Wordnet corpus

• Brown corpus

Page 6: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

6

3. Phương pháp tính độ tương đồng câu

Mô hình của phương pháp [LLB06]

Page 7: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

7

3. Phương pháp tính độ tương đồng câu

Thực hiện qua 5 bước :

a. Tiền xử lý

b. Tính độ tương tự từ dựa trên Wordnet

c. Độ tương đồng về ngữ nghĩa giữa hai câu

d. Độ tương đồng về thứ tự của các từ trong câu

e. Tính độ tương đồng cho toàn bộ câu

Page 8: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

8

3a. Tính độ tương tự từ dựa trên wordnet

Ví dụ: Teacher -educator -professional - adult - person - male -male child - boy[LLB06]

Vì sao sử dụng độ tương tự từ?

Page 9: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

9

3a. Tính độ tương tự từ dựa trên Wordnet

Kết quả thực nghiệm

trên 7 độ đo về độ

tương tự từ dựa trên

Wordnet cho thấy độ

đo JCN có độ chính

xác cao nhất. [Pad03]

Measure Nouns

Only

All

POS

Jiang-Conrath(JCN) 0.46 n/a

Ex. Gloss Overlaps 0.43 0.34

Lin 0.39 n/a

Vector 0.33 0.29

Hirst-St.Onge 0.33 0.23

Resnik 0.29 n/a

Leacock Chodorow 0.28 n/a

Page 10: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

10

Độ đo JCN

JCN sử dụng nội dung thông tin (Information Content) của

các khái niệm (concept)

IC(concept) = –log(P(concept))

với: P(concept) = freq(concept)/N

Công thức tính khoảng cách ngữ nghĩa giữa hai từ:

distance = IC(c1) + IC(c2) – 2. IC(lcs(c1, c2))

Mối quan hệ giữa hai từ c1 và c2 như sau:

Relatedness(c1, c2) = 1 / distance

Page 11: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

11

3b. Độ tương đồng về ngữ nghĩa giữa hai câu

Gọi si là vector ngữ nghĩa của mỗi câu.

Sự giống nhau về ngữ nghĩa giữa hai

câu là hệ số cosin giữa hai vector:

||||.||||

.

21

21

ss

ssSs

Page 12: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

12

3c.Độ tương đồng về thứ tự các từ trong câu

Ví dụ:

T1: A quick brown dog jumps over the lazy fox.

T2: A quick brown fox jumps over the lazy dog.

Gọi r là vector thứ tự từ trong câu. Công thức để

tính độ tương đồng về thứ tự của từ trong câu

như sau:

||||

||||1

21

21

rr

rrS r

Page 13: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

13

3d. Độ tương đồng về toàn bộ câu

Sự giống nhau về toàn bộ câu là sự kết hơp

giữa độ tương tự về mặt ngữ nghĩa và thứ tự

của từ trong câu

Với 10

Page 14: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

14

4. Áp dụng độ tương đồng câu cho

tóm tắt văn bản tiếng Việt

Tóm tắt văn bản tiếng Việt dựa vào câu truy

vấn của người dùng.

Page 15: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

15

Quy trình tóm tắt văn bản

Quá trình tiền xử lý Lọc nội dung chính, tách câu, loại bỏ câu ngắn. Tách từ dựa vào

công cụ JvnSegmenter. Gán nhãn từ loại dựa vào công cụ VnQtag, chọn các từ có nhãn phù hợp

Quá trình tính toán độ tượng tự ngữ nghĩa giữa các cặp câu Áp dụng phương pháp nêu đã nêu để tính độ tương đồng giữa

các câu với câu truy vấn với bộ Wordnet tiếng Việt thô. Từ thực nghiệm cho thấy = 0,85 thì đưa ra được kết quả về độ tương đồng câu là cao nhất

Quá trình tóm tắt văn bản Xếp hạng kết quả

Chọn ra các câu với tỷ lệ xác định trước

Page 16: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

16

Kết quả thực nghiệm

Câu truy vấn:

“Thị trường

chứng khoán

trong nước”

Đoạn văn bản

Page 17: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

17

Kết quả thực nghiệm

Câu Độ đo

[1] 0.54

[2] 0.65

[3] 0.87

[4] 0.74

[5] 0.27

[6] 0.23

Page 18: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

18

Kết quả thực nghiệm

Kết quả tóm tắt Google trả về:

Kết quả:

Page 19: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

19

5. Kết luận và hướng phát triển tiếp

Nghiên cứu và áp dụng độ đo tương đồng

câu vào trong xử lý ngôn ngữ tiếng Việt.

Thử nghiệm thành công độ đo này trong bài

toán tóm tắt trang web tiếng Việt trên máy tìm

kiếm.

Cải thiện kết quả tính toán các độ đo bằng

việc xây dựng bộ corpus tiếng Việt (kiểu

WordNet) đầy đủ hơn.

Page 20: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

20

Tài liệu tham khảo [LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị

Phương Thu (2006) Kết hợp các phương pháp chọn câu quan trọng xây

dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của

công nghệ thông tin, 2006, 413-421

[MB06] Lương Chi Mai, Hồ Tú Bảo (2006). Về xử lý tiếng Việt trong

công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát

triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt",

Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam,

2006.

[PT05] Đỗ Phúc, Hồ Anh Thư (2005). Rút trích và tóm tắt nội dung trang

web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22

[BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C.

(2007). UNC-CH at DUC 2007: Query Expansion, Lexical Simplification,

and Sentence Selection Strategies for Multi-Document Summarization,

Document Understanding Conference 2007 (DUC 2007), Rochester,

NY, April 26-27, 2007

[Bre99] Darin Brezeale (1999). The Organization of Internet Web pages

Using WordNet and Self-Organizing maps, MSc Thesis, The University

of Texas at Arlington, USA,1999

Page 21: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

21

Tài liệu tham khảo

[LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea,

Keeley A. Crockett (2006). Sentence Similarity Based on Semantic

Nets and Corpus Statistics. IEEE Trans. Knowl. Data Eng. 18(8):

1138-1150

[MR06] A. A. Mohamed, S. Rajasekaran, (2006). Query-Based

Summarization Based on Document Graphs, Document

Understanding Workshop, June 8-9, 2006 (DUC2006),New York

Marriott, Brooklyn, New York USA

[NNP06] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan,

Le-Minh Nguyen and Quang-Thuy Ha (2006). Vietnamese Word

Segmentation with CRFs and SVMs: An Investigation. The 20th

Pacific Asia Conference on Language, Information and Computation

(PACLIC20), November 1-3, 2006, Wuhan, China, 215-222

[Pad03] Siddharth Patwardhan (2003). Incorporating Dictionary and

Corpus Information into a Context Vector Measure of Semantic

Relatedness. MSc. Thesis, University of Minnesota, Duluth, MN

[RFF05] Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares

Ferro (2005). Semantic Similarity Between Sentences Through

Approximate Tree Matching. IbPRIA (2) 2005: 638-646

Page 22: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

22

Tài liệu tham khảo [SB08] P. Senellart and V. D. Blondel (2008). Automatic discovery of

similar words, Survey of Text Mining II: Clustering, Classification and

Retrieval (M. W. Berry and M. Castellanos, editors): 25–44. Springer-

Verlag, January 2008.

[Sen07] Pierre Senellart (2007). Understanding the Hidden Web, PhD

thesis in Computer science, Université Paris-Sud, Orsay, France,

December 2007.

[STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey

(2006). Efficient Information Retrieval Using Measures of Semantic

Similarity, Conference on Software, Knowledge, Information

Management and Applications, Chiang Mai, Thailand, December 2006,

94-98.

[1] Nguyễn Cẩm Tú, Phan Xuân Hiếu. JvnSegmenter.

http://jvnsegmenter.sourceforge.net , Đại học Công nghệ - Đại học

Quốc gia Hà Nội.

[2] Nguyễn Thị Minh Huyền. vnQTAG.

http://www.loria.fr/~lehong/projects.phps , Đại học Khoa học Tự nhiên –

Đại học Quốc Gia Hà Nội

Page 23: Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm ...vnlp.net/wp-content/uploads/2008/03/uyen_hien_nckh.pdf · câu vào trong xử lý ngôn ngữ tiếng

Thanks for your listening

23