32
BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI CHƯƠNG 4. KHAI PHÁ QUAN ĐiỂM MỨC KHÍA CẠNH PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1

PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

  • Upload
    minowa

  • View
    54

  • Download
    1

Embed Size (px)

DESCRIPTION

BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI CHƯƠNG 4. KHAI PHÁ QUAN ĐiỂM MỨC KHÍA CẠNH. PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI. Nội dung. Giới thiệu Phân lớp quan điểm khía cạnh Quy tắc cơ sở quan điểm và ngữ nghĩa hợp thành - PowerPoint PPT Presentation

Citation preview

Page 1: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

BÀI GIẢNG KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ PHƯƠNG TIỆN XÃ HỘI

CHƯƠNG 4. KHAI PHÁ QUAN ĐiỂM MỨC KHÍA CẠNH

PGS. TS. HÀ QUANG THỤY

HÀ NỘI 09-2013

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐẠI HỌC QUỐC GIA HÀ NỘI

1

Page 2: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Nội dung1. Giới thiệu

2. Phân lớp quan điểm khía cạnh3. Quy tắc cơ sở quan điểm và ngữ nghĩa hợp thành

4. Trích xuất khía cạnh5. Nhận dạng khía cạnh sử dụng tài nguyên

6. Thi hành đồng thời mở rộng từ điển quan điểm và trích xuất khía cạnh

7. Gom nhóm các khía cạnh8. Trích xuất thực thể, chủ quan điểm và thời gian

9. Giải pháp đồng tham chiếu và định hướng nghĩa từ

2

Page 3: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

1. Giới thiệu Đặt vấn đề

Mức tài liệu, mức câu Chưa rõ đối tượng Ngầm định đối tượng: phân cực rất cực đoan Không đủ cho ứng dụng

Nhu cầu KPQĐ mức khía cạnh (dựa trên đặc trưng) Mô hình thực thể khía cạnh CHUNG và các khía cạnh khác Sáu bài toán mọi bộ năm (ei, aij, sijkl, hk, tl) T/trung hai bài toán: T/xuất k/cạnh và P/lớp quan điểm k/cạnh

Hai bài toán cơ bản Trích xuất khía cạnh {cụm từ/từ thể hiện khía cạnh của e}"Chất lượng âm thanh của điện thoại này là tuyệt vời“ “Chất lượng âm thanh”; "Tôi yêu thích điện thoại này“ CHUNG Phân lớp quan điểm khía cạnh tích cực/tiêu cực/trung tính Chất_lượng_âm_thanh tích cựcCHUNG tích cực

Lưu ý trường hợp đích cho sẵn: không trích xuất khía cạnh3

Page 4: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

2. Phân lớp quan điểm khía cạnh Giới thiệu

Bài toán thứ hai Phát biểu bài toán

Input: Cho 1 câu s và một khía cạnh a trong câu Output: Quan điểm về khía cạnh a trong câu

Hai tiếp cận chính: (i) Học có giám sát; (ii) Dựa trên từ vựng Tiếp cận dựa trên học máy giám sát

Áp dụng phương pháp như mức câu và mức mệnh đề. Vấn đề chính: Đặc trưng phân lớp, biểu diễn quan điểm P/T cú pháp phụ thuộc tập đặc trưng phụ thuộc khía cạnh Có thể đưa thêm trọng số phụ thuộc Khác biệt miền ứng dụng: mẫu khó mở rộng, xây dựng ví dụ

học: nhiều công sức Một số ví dụ

Wei và Gulla, 2010 [WG10]: HL-SOT Jiang và cộng sự, 2011 [JYZLZ11]: PT cú pháp phụ thuộc Boiy và Moens, 2009 [BM09]: trọng số các từ liên quan trong

cây cú pháp

4

Page 5: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Dùng cây bản thể quan điểm [WG10]

5

[WG10] Wei, Wei and Jon Atle Gulla (2010). Sentiment learning on product reviews via sentiment ontology tree. in Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2010).

“...I am very impressed with this camera except for its a bit heavy weight especially with extra lenses attached. It has many buttons and two main dials. The first dial is thumb dial, located near shutter button. The second one is the big round dial located at the back of the camera...”.Ví dụ: Một phần cây bản thể quan điểm (Sentiment Ontology Tree: SOT)T(v, v+, v-, T), v: gốc thành phần/khía cạnh, v+, v-,: nút lá dương (âm), T : tập cây con.Học cây SOT từ một tập ví dụ mẫu. Thực nghiệm, đánh giá chép 5-folds cross.

Page 6: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Tiếp cận dựa trên từ vựng Tiếp cận dựa trên từ vựng (học không giám sát)

Tránh được hạn chế của tiếp cận dựa trên học máy Phổ miền ứng dụng rộng lớn Tồn tại một số phương pháp

Hu, Minqing và Bing Liu, 2004 [HL04] Xiaowen Ding và cộng sự, 2008 [DLY08] …

Phương pháp của X. Ding và cộng sự Giả định: Thực thể và các khía cạnh đã được trích xuất Phương pháp gồm bốn bước

Đánh dấu từ/cụm từ quan điểm Dùng bộ chuyển hướng quan điểm Xử lý mệnh đề “nhưng” Tổng hợp quan điểm

6

[DLY08] Xiaowen Ding, Bing Liu, Philip S. Yu (2008). A holistic lexicon-based approach to opinion mining. WSDM 2008: 231-240

Page 7: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Phương pháp của X. Ding và cộng sự Đánh dấu từ/cụm từ quan điểm

Đánh dấu mọi từ/cụm từ quan điểm trong câu. Tích cực/tiêu cực: 1/-1 “Chất lượng âm thanh của điện thoại này là không tốt nhưng

độ dài pin là dài” “Chất lượng âm thanh của điện thoại này là không tốt [1]

nhưng độ dài pin là dài”. “tốt” là từ quan điểm, “dài” là từ quan điểm theo ngữ cảnh.

Dùng bộ chuyển hướng quan điểm Chuyển hướng quan điểm: tích cực tiêu cực Tiếng Anh: not, never, none, nobody, nowhere, neither, và

cannot. Tiếng Việt: không, không bao giờ, không ai… “Chất lượng âm thanh của điện thoại này là không tốt [-1]

nhưng độ dài pin là dài“. Các bộ chuyển hướng quan điểm

7

Page 8: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Phương pháp của X. Ding và cộng sự Xử lý mệnh đề “nhưng”

Từ/cụm từ chỉ dẫn tính ngược: có thể đổi hướng quan điểm. Tiếng Anh điển hình là “but” (“nhưng”) Luật xử lý: hướng quan điểm trước từ ngược (ví dụ, “nhưng”) và hướng

sau khi từ ngược là đối nghịch nhau nếu quan điểm ở một bên chưa được xác định.

Ví dụ, “Chất lượng âm thanh của điện thoại này là không tốt [-1] nhưng độ dài pin là dài“ [1].

Một số từ ngược: "ngoại trừ” (“with the exception of,” “except that,” và “except for”)

Lưu ý: “Xe x là rất tốt, nhưng xe y là tốt hơn“, tiếng Anh “not only … but also …”

Tổng hợp quan điểm Định hướng quan điểm cho khía cạnh: swj: từ/cụm từ quan điểm trong s, dist (swj, ai): khoảng cách ai swj,

swj.so: trọng số quan điểm của swj. Ngưỡng định hướng tích cực/tiêu cực

Cải tiến thuật toán Luật quan điểm và ngữ nghĩa từ

8

Page 9: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

3. Quy tắc cơ sở của quan điểm và ngữ nghĩa thành phần

Quy tắc quan điểm Biểu diễn ngụ ý một quan điểm tích cực/tiêu cực Từ/cụm từ hoặc hợp thành Hợp thành: cần tri thức chung/tri thức miền ứng dụng Ý nghĩa hợp thành: hàm (ý nghĩa thành phần, quy tắc cú

pháp hợp thành) Quy tắc: kiểu chuẩn BNF

9

[Liu10] Liu, Bing (2010). Sentiment Analysis and Subjectivity, in Handbook of Natural Language Processing, Second Edition, N. Indurkhya and F.J. Damerau, Editors. 2010.

Page 10: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Quy tắc cơ bản: 8 quy tắc đầu tiên

Một số quy tắc tiếng Anh1. Positive ::= P Tích cực :: P2. | PO | PO3. | đổi_hướng N4. | đổi_hướng NE5. Negative ::= N Tiêu cực :: N6. | NE | NE7. | đổi_hướng P8. | đổi_hướng POP/PO: hai biểu diễn quan điểm tích cực. P biểu diễn quan điểm

tích cực nguyên tử (từ/cụm từ quan điểm tích cực), PO biểu diễn hợp thành của quan điểm tích cực.

N/NE: tương tự nhưng đối ngẫu (tiêu cực)Positive và Negative: biểu diễn quan điểm kết thúc xác đinh

quan điểm cho đối tượng/khía cạnh

10

Page 11: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Đổi_hướng quan điểm (Sentiment_shifters)

Một số lưu ý Không là biểu diễn BNF thực sự song ích lợi hiểu khái niệm Đổi-hướng: hình thức khác nhau Vị trí sau-trước N|NE|P|PO hoặc ở giữa đổi-hướng với N|NE|P|

PO có từ trung gian Trong tiếng Anh: “valence shifters”

Từ phủ định: not, never, none, nobody, nowhere, neither, và cannot

Trợ động từ chỉ phương thức: would, should, could, might, must, và ought. "phanh có thể được cải thiện“ tiêu cực

Tiền-giả định: Works, fail, omit, neglect. “Nó hoạt động” tích cực <> “nó khó hoạt động” tiêu cực

Các từ thất bại (Fails), bỏ qua (omit, neglec) “Máy ảnh này thất bại khi gây ấn tượng với tôi” tiêu cực.

Châm biếm cũng là một dạng đổi hướng “Chiếc xe này tuyệt vời, nó không khởi động ngay ngày đầu tiên” tiêu cực

Thủ công: dễ dàng <> tự động nhận biết và xử lý: thách thức

11

Page 12: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Biểu diễn quan điểm không đổi hướng Bao gồm 6 loại biểu diễn 1/Từ/cụm từ quan điểm

Loại biểu diễn đơn giản nhất: từ/cụm từ ; từ/cụm từ tự chúng biểu diễn quan điểm tích cực/tiêu cực.

9. P ::= một từ/cụm từ quan điểm tích cực10. N ::= một từ/cụm từ quan điểm tiêu cực“Âm thanh của điện thoại này tốt”

2/Tăng/giảm lượng quan điểmTương tự các quy tắc 3,4 và 7,8: thể hiện tăng lượng|giảm lượng|đổi-

hướng một mục quan điểm (danh từ/cụm danh từ). 11. PO ::= giảm/giảm_đi N12. | tăng/tăng_thêm P13. NE ::= giảm/giảm_đi P12. | tăng/tăng_thêm N"Thuốc này làm giảm đáng kể đau đớn của tôi“: “đau đớn” tiêu cực,

“giảm đau đớn” tích cực“"nỗi đau của tôi biến mất sau khi dùng thuốc“Vị trí: trước|sau|có_trung_gian giữa quan_điểm và tăng|giảm

12

Page 13: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Tiềm năng quan điểm

3/ Cao|thấp|tăng/giảm lượng từ tiềm năng quan điểm<Tiềm_năng_tích_cực>: giá trị|lượng nhỏ tiêu cực, giá trị|lượng lớn tích

cực. "Tuổi thọ pin ngắn“<> "Tuổi thọ pin dài“. Tuổi thọ pin là tiềm năng tích cực (Positive potential items: PPI)

<Tiềm_năng_tiêu_cực>: giá trị|lượng nhỏ tích cực, giá trị|lượng lớn tiêu cực. “Chi phí mua máy ảnh cao“<>” “Chi phí mua máy ảnh thấp“, “Sony giảm giá máy ảnh”. Chi phi muc, Giá là tiềm năng tiêu cực (Negative potential items: NPI).

Tiềm_năng_tiêu_cực, Tiềm_năng_tích_cực không hàm ý quan điểm, nhưng tính từ số lượng, từ/cụm từ thay đổi số lượng quan điểm.

15. PO :: = no_low_less_or_decreased_quantity_of NPI

16. | Large_larger_or_increased_quantity_of PPI

17. NE :: = no_low_less_or_decreased_quantity_of PPI

18. | Large_larger_or_increased_quantity_of NPI

19. NPI :: = a_negative_potential_item

20. PPI :: = a_positive_potential_item

13

Page 14: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Sự kiện mong muốn, chuẩn

4/ Sự kiện mong muốn/không mong muốnCâu chủ quan biểu diễn sự kiện mong muốn/không mong muốn. “Sau khi hai người nằm trên đệm hai tuần, một ngọn núi xuất hiện ở giữa” tiêu cực chất lượng đệm

21. P ::= sự_kiện_mong_muốn

22. N ::= sự_kiện_không_mong_muốn

5/ Trong/lệch chuẩn hoặc phạm vi giá trị mong muốnMột số tình huống, mục có quy định phạm vi: lệch là tiêu cực. “Sau khi dùng thuốc, huyết áp của tôi lên tới 410” Tiêu cực

23. P ::= trong_vùng_mong_muốn

24. N ::= ngoài_vùng_mong_muốn

14

Page 15: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Tài nguyên/chất thải 6/Sản xuất/tiêu thụ tài nguyên/chất thải

Sản xuất (tiêu thụ) lượng lớn tài nguyên tích cực (tiêu cực)

"máy tính này dùng rất nhiều điện"

Sản xuất (tiêu thụ) lượng lớn chất thải tiêu cực (tích cực)

25. P :: = sản_xuất_lượng_lớn_nhiều_hơn_tài_nguyên

26. | sản_xuất _không_ít_ít_hơn_chất_thải

27. | tiêu_thụ_không_ít_ít_hơn_tài_nguyên

28. | tiêu_thụ_lượng_lớn_nhiều_hơn_chất_thải

29. N :: = sản_xuất_ không_ít_ít_hơn_tài_nguyên

30. | sản_xuất_lượng_lớn_nhiều_hơn_chất_thải

31. | tiêu_thụ_lượng_lớn_nhiều_hơn_tài_nguyên

32. | tiêu_thụ_không_ít_ít_hơn_chất_thải

15

Page 16: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

4. Trích xuất khía cạnh Giới thiệu

Input: Cho một câu chủ quan s về một đối tượng e Output: Mọi khía cạnh a của e có trong s Trích xuất thông tin Thuận lợi: Quan điểm liên quan tới đối tượng. Lưu ý: “Chiếc xe này đắt tiền” ẩn Phương pháp: 4 phương pháp chính

Phương pháp 4 phương pháp chính, căn cứ vào:

Danh từ/cụm danh từ thường xuyên Mối quan hệ “từ quan điểm” với từ/cụm từ “khía cạnh” Sử dụng học có giám sát Sử dụng mô hình chủ đề

16

Page 17: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Trích xuất khía cạnh từ web Giới thiệu

Khai phá quan điểm chủ yếu từ đánh giá trực tuyến trên web

Căn cứ vào định dạng nhận xét trên web Hai định dạng chính

Dạng có cấu trúc ƯU (Pros), KHUYẾT (Cons) và đánh giá chi tiết: (i) Nêu ngắn gọn ưu điểm hình,(ii) Nêu ngặn gọn khuyết điểm điển hình; (iii) Đánh giá chi tiếtLợi thế cho trích xuất khía cạnh

Dạng đánh giá tự do: Không có mô tả ngắn gọn ưu, khuyết

Hình vẽ trang sau

17

Page 18: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Trích xuất khía cạnh từ web Nhận xét dạng 1

Trích xuất khía cạnh từ ƯU và KHUYẾT khá dễ dàng Đặc trưng: Ngắn gọn, cụm từ ngắn|phân đoạn câu. Thông thường, mỗi đoạn chỉ gồm một khía cạnh Phân đoạn câu: dấy phảy, chấm phảy, gạch nối, &, “và”, “nhưng”…

Nhận xét dạng 2

18

Page 19: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Quan sát quan điểm Opinion Observer Giới thiệu

Bing Liu, Minqing Hu, Junsheng Cheng (2005). Opinion observer: analyzing and comparing opinions on the Web. WWW 2005: 342-351.

Trích xuất khía cạnh, phân lớp quan điểm, trực quan hóa so sánh hai sản phẩm,

Ba dạng đánh giá Chỉ có ƯU và KHUYẾT (C|net.com) ƯU và KHUYẾT và chi tiết (Epinions.com) Dạng tự do (Amazon.com)

19

Page 20: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Opinion Observer Bài toán

Input: Tập sản phẩm cùng/khác thương hiệu Tập trang web chứa đánh giá về các sản phẩm

Output Trực quan hóa kết quả như hình bên

Quá trình Hai giai đoạn Trích xuất và phân tích đánh giá

Hai bước B1. Tải đánh giá, tiền xử lý, lưu vào CSDL B2. Phân tích đánh giá, trích xuất khía cạnh và định hướng nhậ

xét. Sử dụng học máy giám sát So sánh kết quả

Lựa chọn hai sản phẩm để trực quan hóa

20

Page 21: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Tìm từ/cụm từ thường xuyên Giới thiệu

Lập luận: Khi có nhiều đánh giá, các biểu diễn khía cạnh được dùng chung.

Cho tập gồm rất nhiều văn bản đánh giá về một lĩnh vực. Phân loại từ cho mọi văn bản đánh giá Chỉ những từ/cụm từ có tần suất vượt quá ngưỡng được

giữ lại. Ngưỡng : từ thực nghiệm. Danh từ/cụm danh từ không thường xuyên: không là khía

cạnh / khía cạnh không quan trọng Đánh giá

Đơn giản song rất hiệu quả. Được sử dụng trong sản phẩm thương mại. Tồn tại nhiều phiên bản cải tiến

21

Page 22: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Khai thác quan hệ quan điểm-khía cạnh

Giới thiệu Lập luận: Quan điểm hướng đích quan điểm – khía cạnh

có liên quan. Biết quan điểm biết khía cạnh ở lân cận Nếu một câu không chứa danh từ/cụm danh từ thường

xuyên thì chọn từ/cụm từ gần nhất từ quan điểm “Phần mềm này tuyệt vời”. “Tuyệt với” từ quan điểm

“phần mềm” có thể được trích chọn như khía cạnh Cải tiến

Nhiều công trình công bố Tồn tại nhiều phiên bản cải tiến

22

Page 23: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Dùng học giám sát

Giới thiệu Lập luận: Trích xuất khía cạnh là bài toán con của trích xuất

thông tin sử dụng các phương pháp trích xuất thông tin Phương pháp điển hình là học dãy: HMM, CRF, .. Cần có ví dụ mẫu làm bằng tay

Họ các thuật toán Họ thuật toán CRF được sử dụng nhiều Một lớp sử dụng SVM Có thể khai thác không gian web

23

Page 24: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Học giám sát và mô hình chủ đề

Học giám sát Lập luận: Trích xuất khía cạnh là bài toán con của trích xuất

thông tin sử dụng các phương pháp trích xuất thông tin Phương pháp điển hình là học dãy: HMM, CRF, .. Cần có ví dụ mẫu làm bằng tay Họ thuật toán CRF được sử dụng nhiều Một lớp sử dụng SVM Có thể khai thác không gian web

Mô hình chủ đề mô hình chủ đề thống kê phát hiện ra các chủ đề Phương pháp không giám sát LSA, LDA và … Phối hợp mô hình chủ đề với các kỹ thuật khác.

Lập ánh xạ khía cạnh ẩn Tồn tại khía cạnh hiện và khía cạnh ẩn

24

Page 25: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

5. Nhận dạng khía cạnh dùng tài nguyên Nhận xét

Thường giải quyết theo hình dạng, Một số trường hợp có cái nhìn đơn giản Trích xuất khía cạnh và phân lớp quan điểm khía cạnh: thực tế rất phức

tạp, từ quan điểm+cụm từ khía cạnh không luôn luôn là quan trọng Sử dụng tài nguyên là một dấu hiệu nhận biết quan điểm tốt

Nội dung Dãy quy tắc 25-32 cho biết sử dụng tài nguyên/chất thải

27. P ::= tiêu_thụ_không_ít_ít_hơn_tài_nguyên

31. N ::= tiêu_thụ_lượng_lớn_nhiều_hơn_tài_nguyên Ví dụ, “Máy gặt này sử dụng rất nhiều nước”. Zhang, Lei and Bing Liu (2011). Extracting Resource Terms for Sentiment

Analysis. IJCNLP-2011 “Tình cảm/quan điểm thể hiện trong một câu sử dụng tài nguyên thường được xác định theo bộ ba (động từ, lượng hóa, cụm_danh từ), cụm_danh từ là một danh từ hoặc cụm danh từ”.

“Lượng hóa” là một dấu hiệu nhận biết

25

Page 26: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Danh sách lượng hóa và quá trìnhZhang, Lei and Bing Liu (2011). Extracting Resource Terms for Sentiment Analysis. IJCNLP-2011: Đồ thị hai phíaMột danh sách các lượng hóa tiếng Anh

several, numerous, many, much, more, most, less, least a large/huge/small/tiny number of a large/huge/small/tiny quantity/amount of lot/lots/tons/ton/plenty/deal/load/loads of [a] few/little

Một vài định nghĩa Thuật ngữ “tài nguyên” biểu diễn một thực thể thực/ảo được tiêu thụ

hoặc thu được để hưởng lợi từ nó. “Cái ti vi này hút nhiều tiền của tôi”, “Điện thoại này xài nhiều bộ nhớ tích hợp”.

Một động từ dùng tài nguyên (động từ tài nguyên) là một động từ có thể diễn tả sử dụng tài nguyên

GĐ1. Nhận dạng động từ tài nguyên tổng quát GĐ2. Phát hiện từ tài nguyên trong một kho ngữ liệu miền Thuật toán MRE (Q, G) xây dựng đồ thị hai phía

26

Page 27: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

6. Làm đồng thời mở rộng từ điển quan điểm và trích xuất khía cạnh

Quan sát Quan điểm luôn đi với đối tượng: quan hệ Đồng thời trích xuất khía cạnh với phân lớp quan điểm OA: quan hệ quan điểm – khía cạnh OO: quan hệ giữa các quan điểm AA: quan hệ khía cạnh – khía cạnh

Nội dung (OA) trích xuất khía cạnh sử dụng từ quan điểm (AA) trích xuất khía cạnh sử dụng các khía cạnh đã được

chiết xuất (OA) chiết xuất từ quan điểm bằng cách sử dụng các khía

cạnh đã được chiết xuất (OO) chiết xuất từ quan điểm bằng cách sử dụng cả từ quan

điểm và từ quan điểm đã trích xuất Bảng trang sau

27

Page 28: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Bảng quan hệ OA, OO, AA

28

Page 29: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

7. Gom nhóm các biểu thị khía cạnh Nhận xét

Biểu thị đa dạng, phi chuẩn của người dùng về khía cạnh Biểu thị khía cạnh: “giọng nói”, “âm thanh”, “chất lượng cuộc gọi”… Biểu thị quan điểm: “Chiếc điện thoại này đắt”, “Máy tính này rẻ”… Cần thiết phải gom nhóm các biểu thị khía cạnh Từ đồng nghĩa (synonym)

Một số phương pháp Carenini, Giuseppe, Raymond Ng, and Ed Zwart (2005). Extracting

knowledge from evaluative text. K-CAP-05: dựa trên độ đo tương tự tích hợp từ tương tự xâu, từ đồng nghĩa, khoảng cách từ vựng theo WordNet

Yu, Jianxing, Zheng-Jun Zha, Meng Wang, Kai Wang, and Tat-Seng Chua (2011). Domain-Assisted Product Aspect Hierarchy Generation: Towards Hierarchical Organization of Unstructured Consumer Reviews. EMNLP-2011.

Zhai, Zhongwu và cộng sự (4 bài báo)

29

Page 30: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

Gom nhóm các biểu thị khía cạnh Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Quang-Thuy Ha

(2011). A Solution for Grouping Vietnamese Synonym Feature Words in Product Reviews, APSCC’2011: 503-508, Jeju, Korea, DOI: http://doi.ieeecomputersociety.org/10.1109/APSCC.2011.48

30

Page 31: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

8. Trích xuất thực thể, chủ quan điểm và thời gian

Giới thiệu Trích xuất thực thể, chủ sở hữu quan điểm và thời gian: bài

toán nhận dạng thực thể định danh điển hình (named entity recognition: NER).

Bài toán chung “trích xuất thông tin” của truy hồi thông tin, khai phá văn bản, khai phá dữ liệu, học máy và xử lý ngôn ngữ tự nhiên.

Phương pháp Rất nhiều công trình nghiên cứu liên quan Hai hướng tiếp cận chính: dựa theo luật và thống kê Dựa trên luật được thi hành sớm Học thống kê: HMM, CRF

31

Page 32: PGS. TS. HÀ QUANG THỤY HÀ NỘI 09-2013 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI

9. Giải pháp đồng tham chiếu và định hướng nghĩa từ

Giới thiệu Mở rộng hơn là sử dụng công cụ của NLP trong khai phá quan

điểm. Giải quyết vấn đề ám chỉ: một đối tượng thực tế nhưng được biểu

diễn bằng những phương án khác nhau "Tôi mua một chiếc iPhone hai ngày trước. Nó trông rất đẹp. Tôi

đã thực hiện nhiều cuộc gọi trong hai ngày qua. Chúng là tuyệt vời "

Nội dung Ding, Xiaowen and Bing Liu (2010). Resolving Object and Attribute

Coreference in Opinion Mining. COLING-2010: Thiết kế và đánh giá hai bộ học mới các đặc trưng liên quan tới quan điểm (không so sánh và so sánh).

Akkaya, Cem, Janyce Wiebe, and Rada Mihalcea (2009). Subjectivity word sense disambiguation. EMNLP-2009: định hướng chủ quan ý nghĩa từ (subjectivity word sense Disambiguation: SWSD)

32