NGHIÊN CỨU RÚT TRÍCH THÔNG TIN DỰA TRÊN CƠ SỞ ...ªn...CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chủ nhiệm đề t ài: ThS.Nguyễn Tấn Lộc Bình Dương, 08/01/2018

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

KHOA KỸ THUẬT CÔNG NGHỆ

BÁO CÁO KHOA HỌC TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

NGHIÊN CỨU RÚT TRÍCH THÔNG TIN DỰA TRÊN

CƠ SỞ PHÂN TÍCH CẢM XÚC

Mã số:

Chủ nhiệm đề tài: ThS.Nguyễn Tấn Lộc

Bình Dương, 08/01/2018


KHOA KỸ THUẬT CÔNG NGHỆ

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

NGHIÊN CỨU RÚT TRÍCH THÔNG TIN TRÊN CƠ SỞ

PHÂN TÍCH CẢM XÚC

Mã số:

Xác nhận của đơn vị chủ trì đề tài Chủ nhiệm đề tài

(chữ ký, họ và tên) (chữ ký, họ và tên)

Bình Dương, 08/01/2018

Danh sách thành viên

Chủ nhiệm: ThS.Nguyễn Tấn Lộc

Email: [email protected]

ĐTDD: 0914290456

Đơn vị chủ trì: Khoa Kỹ thuật Công nghệ

Địa chỉ: 06 Trần văn Ơn, P.Phú Hòa, tp.Thủ Dầu Một, Bình Dương.

mailto:[email protected]

Mục lục

Danh mục hình ................................................................................................................................ 1

Danh mục bảng ............................................................................................................................... 2

Danh mục chữ viết tắt ..................................................................................................................... 3

Thông tin kết quả nghiên cứu ......................................................................................................... 4

Chương Mở đầu .............................................................................................................................. 6

Chương 1: Tổng quan về phân tích cảm xúc .................................................................................. 8

1.1 Phân tích cảm xúc là gì? ....................................................................................................... 8

1.2 Mục tiêu nghiên cứu ........................................................................................................... 10

1.3 Các mức độ phân tích cảm xúc........................................................................................... 11

1.4 Các vấn đề thách thức khó khăn ......................................................................................... 13

Chương 2 : Lược sử nghiên cứu ................................................................................................... 15

2.1 Các phương pháp phân tích cảm xúc.................................................................................. 15

2.2 Các Phương pháp rút trích thông tin .................................................................................. 19

2.2.1 Rút trích cụm từ .......................................................................................................... 20

2.2.2 Rút trích dựa trên nhận dạng thực thể ......................................................................... 20

2.3 Các phương pháp phân loại cảm xúc dựa trên máy học ..................................................... 21

2.3.1 Học có giám sát (Supervised Learning) ...................................................................... 21

2.3.2 Học không giám sát .................................................................................................... 22

Chương 3: Xây dựng mô hình phân tích cảm xúc ........................................................................ 24

3.1 Kiến trúc hệ thống .............................................................................................................. 24

3.2 Thu thập dữ liệu.................................................................................................................. 25

3.3 Tiền xử lý dữ liệu ............................................................................................................... 25

3.4 Phương pháp phân tích văn bản ......................................................................................... 26

3.4.1 Mô hình N-gram ......................................................................................................... 27

3.4.2 Phương pháp thống kê TF-IDF ................................................................................... 28

3.4.3 Xây dựng mô hình huấn luyện với hồi quy logistic .................................................... 29

3.4.4 Phương pháp đánh giá hiệu suất phân loại cảm xúc ................................................... 30

3.4.5 Tối ưu tham số cho mô hình ....................................................................................... 31

3.5 Rút trích thông tin .............................................................................................................. 32

Chương 4: Đánh giá thực nghiệm ............................................................................................. 34

4.1 Kết quả thực nghiệm phân loại cảm xúc ............................................................................ 34

4.2 Kết quả thực nghiệm rút trích thông tin ............................................................................. 35

Kết luận ......................................................................................................................................... 37

Tài liệu tham khảo ........................................................................................................................ 38

Phụ lục .......................................................................................................................................... 40

1

Danh mục hình

Hình 1. Các trạng thái cảm xúc ........................................................................................... 9

Hình 2. Mô hình tính toán trọng số từ, cụm từ ................................................................. 10

Hình 3. Các vấn đề thách thức .......................................................................................... 13

Hình 4. Các hướng tiếp cận phân tích cảm xúc ................................................................ 15

Hình 5. Kiến trúc hệ thống ................................................................................................ 24

Hình 6. Thống kê nhà hàng từng quốc gia ........................................................................ 25

Hình 7. Mô hình hồi quy logistic ...................................................................................... 30

Hình 8. Đánh giá mô hỉnh huấn luyện và kiểm thử dữ liệu .............................................. 34

Hình 9. Phân phối các từ có tần suất cao của ẩm thực Việt Nam ..................................... 35

Hình 10.Các từ ảnh hưởng mạnh ẩm thực Việt ................................................................ 36

Hình 11.Phân phối các từ có tần suất cao của ẩm thực Nhật ............................................ 36

Hình 12.Các từ ảnh hưởng mạnh ẩm thực Nhật bản ......................................................... 36

Hình 13.Các từ khóa có tần suất cao nhất ẩm thực Pháp .................................................. 40

Hình 14.Các từ khóa có tần suất cao nhất ẩm thực Trung Quốc ...................................... 41

Hình 15.Các từ khóa có tần suất cao nhất ẩm thực Ấn độ ................................................ 42

2

Danh mục bảng

Bảng 1.So sánh các hướng tiếp cận phân tích cảm xúc .................................................... 18

Bảng 2.Tài liệu văn bản .................................................................................................... 26

Bảng 3. Ma trận tần số các từ, cụm từ document term word ............................................ 26

Bảng 4.Ma trân đánh giá hệ thống phân loại .................................................................... 30

Bảng 5. Các bình luận tích cực nhất cho các doanh nghiệp ............................................. 32

Bảng 6.Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp Việt Nam ............... 33

Bảng 7.Nhóm bình luận cảm xúc tiêu cực nhất cho doanh nghiệp Việt Nam .................. 33

Bảng 8. Ma trân đánh giá phân loại cảm xúc .................................................................... 34

Bảng 9. Nhóm 10 từ quan trọng cảm xúc rút ra từ kết quả phân tích ............................... 35

Bảng 10.Nhóm bình luận tích cực ẩm thực Pháp ............................................................. 40

Bảng 11.Nhóm bình luận tích cực ẩm thực Trung Quốc .................................................. 41

Bảng 12.Nhóm bình luận tích cực ẩm thực Ấn độ............................................................ 42

3

Danh mục chữ viết tắt

TF: term frequency

IDF: inverse document frequency

TF.IDF: term frequency. inverse document frequency

DTM: document term matrix

Logistic: hồi quy logistic.

P(A): Xác xuất sự kiện A

NER: Named Entity Recognition

SoA: Sentiment analysis – Phân tích cảm xúc

4


Đơn vị: Khoa Kỹ thuật Công nghệ

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1. Thông tin chung:

- Tên đề tài: Nghiên cứu rút trích thông tin trên cơ sở phân tích cảm xúc

- Mã số:

- Chủ nhiệm: Ths.Nguyễn Tấn Lộc

- Đơn vị chủ trì: Khoa Kỹ thuật Công nghệ

- Thời gian thực hiện: 11/2016-11/2017

2. Mục tiêu:

- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực

trong đời sống và thực nghiện phân tích cảm xúc với các mô hình học máy.

- Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm xúc

của công chúng về một vấn đề nào đó cần quan tâm.

3. Tính mới và sáng tạo:

- Đề xuất xây dựng mô hình học máy tự động phân loại cảm xúc dựa vào nội dung

bình luận phi cấu trúc nhằm tăng tốc sự hiểu biết về dữ liệu.

- Tiếp cận các phương pháp rút trích thông tin nhằm trích xuất nhóm bình luận tích

cực, tiêu cực nhất và nắm bắt quan điểm, cảm xúc dựa trên kết quả phân loại cảm xúc

nhằm ra quyết định chiến lược kinh doanh phù hợp cho doanh nghiệp.

4. Kết quả nghiên cứu:

- Kết quả thực nghiệm dữ liệu với mô hình logistic cho độ chính xác 90%,

recall=89.8%, precision=96.9% và hệ số tối ưu chuẩn hóa cho mô hình C=0.2154.

5

- Trích xuất các cụm tử quan trọng cho các doanh nghiệp nhà hàng Việt Nam, Trung

Quốc, Nhật Bản…

- Trích xuất các doanh nghiệp nhà hàng được bình luận tốt nhất và tiêu cực nhất.

5. Sản phẩm: bài báo khoa học

6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:

Ứng dụng kết quả nghiên cứu để phát triển mô hình phân tích dữ liệu và nắm bắt các

quan điểm, cảm xúc cho các trang website Việt Nam: Tripadvisor, Lazada…

Ngày tháng 11 năm 2017

Đơn vị chủ trì

(chữ ký, họ và tên)

Chủ nhiệm đề tài

(chữ ký, họ và tên)

XÁC NHẬN CỦA CƠ QUAN

6

Mở đầu

1. Tính cấp thiết

- Ngôn ngữ của con người rất phức tạp. Vì vậy, diễn giải ngôn ngữ cho máy tính

hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng

và lỗi chính là một quá trình khó khăn.

- Nghiên cứu phân tích cảm xúc không chỉ tác động quan trọng trong lĩnh vực

xử lý ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa

học chính trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh

hưởng bởi ý kiến các chủ thể.

2. Mục tiêu

Nghiên cứu phân loại cảm xúc và rút trích thông tin hữu ích nắm bắt các quan

điểm, nâng ao sự hiểu biết cho các doanh nghiệp nhà hàng Yelp từ đó hỗ trợ ra

quyết định.

3. Cách tiếp cận

- Thu thập dữ liệu từ trang website Yelp.

- Xử lý và lưu trữ vào kho dữ liệu.

- Xây dựng mô hình dựa trên các thuật toán học máy và đánh giá hiệu suất

- Thu thập các bài báo khoa học thuộc lĩnh vực nghiên cứu.

4. Phương pháp nghiên cứu

- Thu thập tài liệu của các tác giả trong, ngoài nước có liên quan đến đề tài.

- Nghiên cứu và phát triển lý thuyết phục vụ đề tài.

- Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp thống kê

5. Đối tượng và phạm vi nghiên cứu

- Trích xuất nội dung phi cấu trúc của trang web và lưu trữ kho dữ liệu tập trung.

- Các bộ từ điển cảm xúc.

- Tài liệu văn bản, câu, từ, cụm từ tiếng Anh.

7

- Đánh giá cảm xúc các về dịch vụ nhà hàng, các sản phẩm.

- Ngôn ngữ tiếng Anh

6. Nội dung nghiên cứu

Chương 1: Tổng quan về phân tích cảm xúc

1.1 Phân tích cảm xúc là gì?

1.2 Ứng dụng

1.3 Mục tiêu nghiên cứu

Chương 2 : Lược sử nghiên cứu và các phương pháp rút trích thông tin

2.1 Rút trích thông tin là gì?

2.2 Một số phương pháp phân tích cảm xúc

2.3 Môt số phương pháp rút trích ý kiến

Chương 3: Xây dựng các mô hình phân loại cảm xúc, rút trích thông tin

3.1 Thu thập dữ liệu

3.2 Tiền xử lý dữ liệu

3.3 Phân loại cảm xúc

3.4 Thực hiện rút trích thông tin

Chương 4: Thực nghiệm và đánh giá

4.1 Kết quả thực nghiệm phân loại cảm xúc

4.2 Kết quả thực nghiệm rút trích thông tin

8

Chương 1: Tổng quan về phân tích cảm xúc

1.1 Phân tích cảm xúc là gì?

Phân tích cảm xúc được ứng dụng trong nhiều ngành để trích xuất tri thức,

cảm xúc và quan điểm của khách hàng. Rút trích cảm xúc khách hàng có vai trò

quan trọng trong quá trình ra quyết, đưa ra chiến lược kinh doanh hợp lý.. Những

quyết định này có thể từ việc mua sản phẩm trực tuyến hoặc dịch vụ ăn uống, tất

cả các cảm xúc, quan điểm ảnh hưởng rất lớn đến cuộc sống hàng ngày. Rút trích

thông tin quan điểm và cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ

tự nhiên. Nhiệm vụ trích xuất thông tin từ các dòng tin bình luận, trích dẫn để

xác định ý kiến, cảm xúc của người dùng về một một chủ đề cụ thể, thường cố

gắng trích cảm xúc có trong toàn bộ tài liệu là tích cực hay tiêu cực. Do đó,

nghiên cứu phân tích cảm xúc không chỉ tác động quan trọng trong lĩnh vực xử lý

ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính

trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hưởng bởi ý kiến

các chủ thể.

Ngôn ngữ của con người rất phức tạp. Vì vậy, diễn giải ngôn ngữ cho máy tính

hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng và

lỗi chính là một quá trình khó khăn.

Ngữ điệu ngôn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm

chí mô tả nó còn khó khăn hơn.

9

Hình 1.các trạng thái cảm xúc

Ví dụ: “My flight was delayed. Brilliant!”

Con người khá trực quan khi giải thích giai điệu của một bài viết. Hầu hết mọi

người giải thích rằng người bình luận cảm xúc mỉa mai, châm biếm. Chúng ta biết

rằng đối với hầu hết những người có chuyến bay trễ không phải là một trải

nghiệm tốt . Bằng cách áp dụng ngữ cảnh này cho câu này, có thể dễ dàng xác

định cảm xúc là tiêu cực.

Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ

"Brilliant" và nó phân loại là tích cực.

Giả sử bạn muốn biết mọi người trên Yelp nghĩ rằng thực phẩm nhà hàng Việt

Nam là tốt hay xấu, món ăn nào là phổ biến nhất.

Phân tích cảm xúc bộ dữ liệu nhà hàng Yelp sẽ giúp chúng ta trả lời câu hỏi này.

Doanh nghiệp thậm chí có thể tìm hiểu lý do tại sao mọi người nghĩ rằng thực

phẩm là tốt hay xấu, bằng cách trích xuất các từ chính xác cho thấy lý do tại sao

người ta hoặc không thích thức ăn. Trích xuất món ăn phổ biến và các chủ đề xuất

hiện nhiều nhất. Doanh nghiệp ngay lập tức có một ý tưởng tốt hơn về lý do tại

sao người tiêu dùng không hài lòng.

10

Doanh nghiệp muốn đạt được tầm nhìn sâu sắc về khảo sát và tìm kiếm thông qua

nghiên cứu thị trường, thay vì phải dành rất nhiều ngân sách và thời gian để tiến

hành các cuộc điều tra và gọi điện thoại khách hàng? Thông qua các công cụ khai

thác văn bản, bạn sẽ nhận được câu trả lời trong vài giây và kết quả rất khách

quan từ mạng xã hội.

Phân tích cảm xúc có thể được xác định trên nhiều cấp độ. Cấp mức tài liệu (Một

cách nhìn tổng thể tiêu cực hoặc tích cực chung) và cảm xúc của từng từ hoặc

cụm từ trong tài liệu.

Hình 2. Mô hình tính toán trọng số từ, cụm từ

1.2 Mục tiêu nghiên cứu

- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh

vực trong đời sống.

- Thực nghiện phân tích cảm xúc dựa trên các mô hình học máy.

- Trích xuất các bình luận tích cực và tiêu cực nhất.

- Trên cơ sở phân tích cảm xúc, chúng tôi tiến hành rút trích tri thức các đặc

trừng và các khía cạnh của các thực thể đang được quan tâm nhằm nắm bắt

11

khuynh hướng cảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ dịch

vụ, tóm tắt ẩm thực từng quốc gia, các món ăn phổ biến.

- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của công

chúng về một vấn đề nào đó cần quan tâm.

1.3 Các mức độ phân tích cảm xúc

Phân tích cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiện và

được nghiên cứu ở 3 mức độ:

Mức tài liệu (Document level): Nhiệm vụ phân tích ở mức độ này là phân loại

xem nội dung chính của một tài liệu văn bản thể hiện ý kiến tích cực hay tiêu

cực. Ví dụ, đưa ra đánh giá tổng thể một sản phẩm hay hệ thống là tích cực

hay tiêu cực. Nhiệm vụ này thường được gọi là phân loại cảm xúc cấp tài liệu.

Mức độ phân tích giả định rằng mỗi tài liệu thể hiện ý kiến về một thực thể duy

nhất (một sản phẩm). Do đó, không thể áp dụng với các tài liệu so sánh và

đánh giá nhiều thực thể.

Phân loại cảm xúc ở mức tài liệu cung cấp một ý kiến tổng thể về một thực thể,

chủ đề hoặc sự kiện. Tuy nhiên, mức độ phân loại này có một số hạn chế thiếu

sót đối với các miền ứng dụng:

• Trong nhiều ứng dụng, người dùng cần biết thêm nhiều chi tiết bổ sung,

chẳng hạn : khía cạnh của các thực thể được yêu thích và không thích bởi

người tiêu dùng. Khám phá các chi tiết rất thú vị, tuy nhiên phân tích ở mức

tài liệu không trích xuất các thông tin hữu ích này.

• Việc phân loại tình cảm mức tài liệu không dễ áp dụng chẳng hạn như các

cuộc thảo luận trên diễn đàn, blog và các bài báo. Các bài đăng có thể chứa

nhiều cảm xúc của nhiều thực thể .

Mức câu (Sentence level): Nhiệm vụ ở cấp độ này đi vào các câu và xác định

xem mỗi câu thể hiện một ý kiến tích cực, tiêu cực hoặc trung tính. Trung tính

12

nghĩa là không có ý kiến. Mức độ phân tích có liên quan chặt chẽ với phân loại

tính chủ quan.

Mức thực thể và khía cạnh (Entity and Aspect level): Cả 2 mức tài liệu và mức

câu không phát hiện chính xác những gì mọi người thích và không thích. Mức độ

khía cạnh ban đầu còn có tên gọi là mức đặc trưng (feature level) [5] thực hiện

phân tích chi tiết hơn. Thay vì nhìn vào cấu trúc ngôn ngữ (câu, mệnh đề hoặc

cụm từ), Mức khía cạnh trực tiếp xem xét bản chất ý kiến. Dựa trên ý tưởng một ý

kiến bao gồm một mục tiêu nhất định và một cảm xúc (tích cực hoặc tiêu cực).

Phân tích mức thực thể và khía cạnh đầu vào là một tập hợp các mô tả đặc trưng

khía cạnh và nội dung thảo luận về một chủ thể cụ thể (ví dụ, một mẫu điện thoại

di động mới, dịch vụ ăn uống). Các hệ thống khám phá các khía cạnh chính của

thực thể (món ăn tươi ngon, sạch, giá cả, phục vụ tốt hay thô lỗ hoặc sản phẩm

điện thoại 'pin', 'màn hình', giá cả…) và để ước tính chỉ số cảm xúc tổng thể của

bình luận trên các khía cạnh (ví dụ, tính tích cực hay tiêu cực là những ý kiến có

chỉ số trên hoặc dưới trung bình cho mỗi khía cạnh). Có 04 hướng tiếp cận chính:

- Rút trích dựa trên danh từ và cụm danh từ thường xuyên.

- Rút trích bằng cách khai thác ý kiến và quan hệ mục tiêu.

- Rút trích sử dụng phương pháp học có giám sát.

- Rút trích sử dụng chủ đề mô hình.

Các phương pháp phân tích cảm xúc dựa trên khía cạnh xuất hiện thì chủ yếu được

dùm cho mục đích là đánh giá các sản phẩm trực tuyến.

13

1.4 Các vấn đề thách thức khó khăn

Hình 3. các vấn đề thách thức

- Đảo ngược cảm xúc: à một vấn đề quan trọng nhất cần được giải quyết trong

phân tích cảm xúc. Vấn đề này phát sinh do sự dịch chuyển trạng thái phân cực

như phủ định (ví dụ: "Tôi không thích phở") và tương phản (ví dụ "phở thì

ngon, nhưng không phải sở thích của tôi"). Câu “Tôi không thích phở” rất

giống với

câu “Tôi thích phở”. Vì vậy phát hiện đảo ngược phân cực có ý nghĩa rất quan

trọng cho trích xuất quan điểm và cảm xúc.

- Phân loại cảm xúc: các thuật toán học máy chưa phân loại được độ mạnh cảm

xúc, chỉ dừng lại tích cực hay tiêu cực. Trong khi đó, cảm xúc từ các bình luận

phản ánh đa dạng và mức độ ảnh hưởng cảm xúc là khác nhau. "Tích cực",

"tích cực hơn", "Tiêu cực", “ rất tiêu cực " và "trung tính". Bằng cách tăng

hạng phân loại chính xác cải thiện độ chính xác làm cơ sở cho trích xuất cảm

xúc.

- Dữ liệu thưa: dữ liệu phát sinh từ một số nguồn giới hạn ký tự giới hạn trong

vi blog / các trang web truyền thông xã hội. Chẳn hạn, giới hạn bình luận trong

twitter là 140 ký tự. Chủ thể sẽ không diễn đạt ý kiến của họ một cách rõ ràng.

- Tóm lại, Tất cả ba các vấn đề liên quan chặt chẽ đến tính chính xác cảm xúc và

trong một bài viết thường tồn tại các phát biểu mâu thuẫn nhau, đối với những

Vấn đề

Đảo ngược cảm xúc

Phân loại

tích cực và tiêu cực

Dữ liệu thưa

14

câu văn nói ngắn gọn hoặc không theo quy tắc, thì người nói thường lồng

nhiều ý kiến vào trong một câu.

15

Chương 2 : Lược sử nghiên cứu

2.1 Các phương pháp phân tích cảm xúc

Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp cận

phân tích cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con

người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và cảm

xúc trải qua. Mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham khảo

đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet. Các công cụ khai phá

quan điểm thực hiện một cách tự động và hệ thống trích xuất các khía cạnh liên

quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta đưa ra các quyết

định hành động hợp lý.

Hình 4. Các hướng tiếp cận phân tích cảm xúc

Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía cạnh,

các thực thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ hơn về

khách hàng, sản phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự động hóa

trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên

xử lý ngôn ngữ tự nhiên từ nguồn các bình luận.

Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm xúc

diễn giải trong văn bản. Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia

Phân tích cảm xúc

Học máy Từ điển Ontology

16

et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh

đặc trưng đối tượng (Haochen et.al.,2015)[6].

Trong nghiên cứu này, chúng tôi phân tích cảm xúc dựa vào nguồn dữ liệu thu

thập từ dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào

2004 nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng

và đánh giá xếp hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp một

khối dữ liệu khổng lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu

dùng. Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch

vụ ẩm thực. Những năm gần đây, nhiều công trình nghiên cứu tiếp cận khai thác dữ liệu

nhằm rút trích cảm xúc và diễn giải ý nghĩa.

Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn

ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mô hình PSDEE để phát hiện

cảm xúc không nhất quán trong văn bản. Nghiên cứu này trình bày mô hình ba giai

đoạn để phân loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực

trong các phủ định, và (3) chuyển đổi phân cực theo mô hình tổ hợp. (Haochen Zhou et

al.,2015)[6] xây dựng mô hình POSLDA lựa chọn các đặc trưng văn bản. Nó thực hiện

tách các lớp ngữ nghĩa (danh từ, động từ, tính từ và trạng từ) và các lớp cú pháp ( giới

từ, và từ liên kết), xác định các từ có ý nghĩa và bổ sung thông tin các thực thể cụ thể.

(James Huang et al,.2014.) Nhóm tác giả áp dụng Latent Dirichlet Allocation (LDA)

khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề ẩn đồng thời liên hệ thông

tin thời gian cao điểm của nhà hàng, rút trích thông tin chi tiết thú vị và chắc chắn hữu

ích cho chủ nhà hàng.

(Ruhui Shen, et al,2016) xây dựng các mô hình hồi quy tuyến tính, hồi quy LASSO ,

hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình

luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ

biến và khác các tính năng định tính được trích từ người dùng, doanh nghiệp.

17

Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng

mô hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thông tin các bình luận quan

trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.

TT Tiêu đề Giải quyết vấn

đề

Phương pháp Bộ

dữ liệu

Độ chính

xác

Hạn chế

1 RuiXia,

FengXu et

al (2016)

Dịch chuyển

phân cực cảm

xúc

Các quy tắc

PSDEE và

phương pháp

thống kê

Movie Reivew 87.1% Độ chính xác

chưa cao

2 V.K

Singh,

R.Piryani

et al

Dịch chuyển

phân cực cảm

xúc và độ

chính xác

Từ điển cảm

xúc

Movie Reivew SWN(AC

C)

=77.6%

SWN(AA

AVC)-

78.7%

Alchemy=

77.4%

Khó mở rộng

từ điển,

không xác

định được

ngữ cảnh.

3 Y. Ainur,

Y. Yisong

et al (2010)

Kết hợp trích

xuất các câu

hữu ích làm cơ

sở phân loại

cảm xúc ở

mức tài liệu

SVM Movie Reviews 92.2% Không phản

ánh mức độ

cảm xúc chỉ

có tích cực

và tiêu cực

4 A. Basant,

M. Namita

dựa trên các

thông tin phổ

biến và ngữ

Ontology,

ConcepNet

restaurant

review

80.1% Khó mở rộng

ontology cho

các domain

http://people.csail.mit.edu/bsnyder/naacl07/data/unformatted/

http://people.csail.mit.edu/bsnyder/naacl07/data/unformatted/

18

cảnh

5 Hao chen

Zhou and

Fei Song

Topic

modelling,

Lựa chọn các

đặc trưng, chia

tách ngữ nghĩa

và cú pháp câu

POSLDA,

Maximum

Entropy

classifier

TripAdvisor 95% Chỉ mới thực

hiện cho

unigram

6 Huang, J.,

Rogers, S.,

& Joo

Phát hiện chủ

đề phụ - Topic

modelling

Latent

Dirichlet

Allocation

(LDA)

Yelp Không đề

cập

Chỉ thực

hiện unigram

7 Ruhui

Shen,

Jialiang

Shen,

Yuhong Li

(2016)

Dự đoán và

trích lọc các

bình luận hữu

ích cho các

nhà hàng địa

phương

Mô hình

tuyến tính

Locally

Weighted

Regression

(LOESS)

Yelp RMSLE of

0.47769

Không phát

hiện ngữ

cảnh bình

luận

8 Yan

Zhao,Hong

lei, et al

(2015)

Các vấn đề

chuyển đổi cú

pháp câu

Kỹ thuật

cộng hưởng

cảm xúc

trước khi

thực hiện

phân tích

cảm xúc

Chinese blog No_comp

_ssc=

88.78%

Manual_c

omp_ssc=

88.5%

Kỹ thuật

cộng hưởng

cảm xúc

chưa đạt độ

chính xác

cao

Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc

19

Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15]

thực hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa trên 22

mẫu phân tích trên mẫu cơ sở cú pháp (syntax-based patterns). Phương pháp phân

tích của các tác giả [15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu

văn bản và sử dụng mẫu cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ

động từ, động từ và cụm động từ; danh từ và cụm danh trên cơ sở cú pháp mà các

tác giả đề xuất để thực hiện trích xuất.

2.2 Phương pháp rút trích thông tin

Trích xuất thông tin là tìm ra các thông tin cấu trúc, thông tin cần thiết từ

một tài liệu, trong khi truy vấn thông tin là tìm ra các tài liệu liên quan, hoặc một

phần tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu online để

phản hồi cho người dùng tùy vào một truy vấn cụ thể.

Các công trình nghiên cứu truy vấn và rút trích thông tin hiện nay hướng tới các

phương pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng với

nhu cầu người dùng và tập trung vào các hướng sau.

Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật

ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập

các tài liệu.

Rút trích các thực thể (named entity recognition): việc rút trích ra các

thực thể tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên

người, tên công ty, tên tổ chức, một địa danh, nơi chốn.

Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ

giữa các thực thể đã nhận biết từ tài liệu.

20

2.2.1 Trích rút cụm từ

Turney (2000) được xem là người đầu tiên giải quyết bài toán rút trích các

keyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên cứu khác

dùng heuristic, kỹ thuật phân tích n-gram, phương pháp như mạng Neural. KEA

[14] là một thuật toán trích xuất các cụm từ khóa (keyphrases) từ dữ liệu văn bản.

KEA xác định danh sách các cụm ứng viên dùng các phương pháp từ vựng học,

sau đó tiến hành tính toán giá trị đặc trưng cho mỗi ứng viên, tiếp đến dùng thuật

toán học máy để tiên đoán xem các cụm ứng viên nào là các cụm từ khóa. Hiện

nay KEA được xem là một thuật toán đơn giản và hiệu quả nhất để rút các

keyphrases. KEA dùng phương pháp học máy Naïve Bayes để huấn luyện và rút

trích các keyphrase.

2.2.2 Rút trích dựa trên nhận dạng thực thể

Nhận diện thực thể có tên (NER-Named Entity Recognition) là một công việc

thuộc lĩnh vực trích xuất thông tin nhằm tìm kiếm, xác định và phân lớp các thành

tố trong văn bản không cấu trúc thuộc vào các nhóm thực thể được xác định trước

như tên người, tổ chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần

trăm, v.v. Thực thể có tên (Named Entity) có rất nhiều ứng dụng, đặc biệt trong

các lĩnh vực như hiểu văn bản, dịch máy, truy vấn thông tin, và hỏi đáp tự động.

Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.

• Nhận diện thực thể có tên trong văn bản đầu vào.

• Gán nhãn cho các thực thể có tên đã nhận diện được .

Nhận diện thực thể đơn ngữ

Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa dạng

nhất tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều ngôn ngữ

đặc biệt là các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa... Trong khi đó,

với các ngôn ngữ như tiếng Anh, việc nhận diện thực thể có tên đã đạt được độ

21

chính xác rất cao. Một số ứng dụng nhận diện thực thể được công bố như: Standford

NER, OpenNLP, NETTagger, GATE..

Gán nhãn thực thể

Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn cho

thực thể. loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích ứng dụng.

Nhãn thực thể gồm các loại :

• Con người : tên người và họ, bí danh, nghệ danh, ...

• Tổ chức: tên tổ chức, cơ quan, chính phủ, công ty, các thực thể

mang tính tổ chức ...

• Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ đạo,

cấu trúc địa điểm, các loại công trình ...

• Thời gian: biểu thức về thời gian trong ngày

▪ Tiền tệ: biểu thức tiền tệ

▪ Phần trăm: phần trăm

Tuy nhiên, một số công trình nghiên cứu chỉ tập trung vào việc xác định và

gán nhãn 3 loại nhãn: con người, tổ chức, địa điểm bởi vì các nhãn còn lại tương

đối dễ nhận dạng dựa vào từ điển, đặc trưng ngôn ngữ.

2.3 Phương pháp phân loại cảm xúc dựa trên học máy

2.3.1 Học có giám sát (Supervised Learning)

Phương pháp học có giám sát là một kỹ thuật của ngành Khoa học

máy tính để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện

bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra

mong muốn. Đầu ra của một hàm là dự đoán một nhãn cho một đối tượng.

Các bước thực hiện một bài toán:

22

- Để thực hiện phân lớp, phải chuẩn bị một tập dữ liệu huấn luyện, để có tập

dữ liệu huấn luyện được gán nhãn cho dữ liệu ban đầu, đây được gọi là

bước thu thập tập dữ liệu huấn luyện.

- Lựa chọn một thuật toán phân lớp, xây dựng mô hình để học tập dữ liệu

huấn luyện. Hay nói cách khác, dùng tập dữ liệu huấn luyện để huấn luyện

chương trình phân lớp. Thuật ngữ học có giám sát được hiểu là học với dữ

liệu đã được gán nhãn trước (các dữ liệu kèm theo nhãn tương ứng này coi

như đã được giám sát).

- Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra tính

đúng đắn mô hình. Sau đó, có thể dùng mô hình để phân lớp cho dữ liệu

mới.

Một vài thuật toán học giám sát:

• Thuật toán hồi quy logistic, Naïve Bayes.

• Thuật toán Máy vector hỗ trợ (Support Vector Machine).

• Phương pháp K láng giềng gần nhất (K Nearest Neighbours – KNN).

2.3.2 Học không giám sát

Học không có giám sát là một phương pháp của ngành học máy tìm ra một

mô hình phù hợp với các quan sát. Trong học không có giám sát, một tập

dữ liệu đầu vào được thu thập. Học không có giám sát thường xử lý với các

đối tượng đầu vào như là một tập các biến ngẫu nhiên. Sau đó, một mô hình

kết hợp sẽ được xây dựng cho tập dữ liệu đó. Có thể hiểu đơn giản như sau

Học không giám sát là học với tập dữ liệu huấn luyện ban đầu hoàn toàn

chưa được gán nhãn thường sử dụng cho lớp bài toán gom cụm, phân cụm

(Clustering).

Các bước để giải quyết một bài toán học không giám sát:

- Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện (training

dataset) – là một tập các ví dụ học (training examples/instances). Trong đó,

mỗi ví dụ học chỉ chứa thông tin biểu diễn (ví dụ: một vector các giá trị

23

thuộc tính), mà không có bất kỳ thông tin gì về nhãn lớp hoặc giá trị đầu ra

mong muốn (expected output).

- Áp dụng một thuật toán học không có giám sát (ví dụ k-Means) để học

hàm/mô hình mục tiêu (trong trường hợp này là hàm phân cụm ứng với

thuật toán được chọn).

- Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ liệu

có gán nhãn) để đánh giá hiệu năng, chất lượng của hàm mục tiêu học

được.

Một số thuật toán học không giám sát:

Có rất nhiều thuật toán học không giám sát được ra đời và phát triển nhằm

khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa

chọn sử dụng thuật toán nào mục đích của từng bài toán. K-means, HAC

(Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map)…

24

Chương 3: Xây dựng mô hình phân tích cảm xúc

3.1 Kiến trúc hệ thống

Kiến trúc hệ thống rút trích thông tin được đề xuất như hình 5 gồm 02 giai đoạn.

Giai đoạn 1: thực hiện phân loại mức độ cảm xúc tích cực hay tiêu cực.

Giai đoạn 2: Công việc trích xuất thông tin được thực hiện sau khi phân loại cảm

xúc. Các bình luận không chứa quan điểm và cảm xúc hoặc trung tính được loại bỏ.

Hình 5. Kiến trúc hệ thống

Yelp

25

3.2 Thu thập dữ liệu

Bộ dữ liệu Yelp gồm có 05 phần: cung cấp 566.000 thông tin cơ bản về kinh doanh

và 2,2 triệu đánh giá bình luận của khách hàng với kích thước hơn 2GB. Đối với

phân tích này, chúng tôi tập trung vào các bài đánh giá khía cạnh ẩm thực cho các

nhà hàng từ các bình luận.Sau khi trích lọc theo danh mục quốc gia, chúng tôi thu

được 80.266 dòng bình luận.

Hình 6. Thống kê nhà hàng từng quốc gia

3.3 Tiền xử lý dữ liệu

Tập dữ liệu doanh nghiệp kết hợp với tập dữ liệu bình luận và được sắp xếp tổ

chức theo từng quốc gia. Các từ trong dòng bình luận được tách ra và được gỡ bỏ

ký hiệu chấm câu, ký hiệu đặc biệt, các từ stop word, chuẩn hóa chữ thường và

xây dựng ma trận mô tả tần suất các từ trong tài liệu (document term matrix).

Trong thực nghiệm này, bộ dữ liệu được chia thành 02 phần: dữ liệu huấn luyện

mô hình với tỉ lệ 70% và dữ liệu kiểm tra mô hình là 30%.

26

3.4 Phương pháp phân tích văn bản

Dữ liệu bình luận thu thập ở dạng văn bản không cấu trúc, để áp dụng các giải

thuật học máy ở giai đoạn tiếp theo chỉ xử lý được dữ liệu dạng bảng. Để giải

quyết vấn đề này, mô hình túi từ (Harris, 1954), (Salton et al., 1975) cho phép tổ

chức tập văn bản dạng cấu trúc bảng - vector tài liệu (Term Document Matrix).

STT Nôi dung Phân loại

1 The Pho is so good 1

2 The Services was bad -1

….

n I like Pho 1

Bảng 2.Tài liệu văn bản

STT 1-The 2-Pho …. 3-Serviecs m-Good Phân loại

1 1 1 0 0 1

2 1 1 1 -1

…..

n 0 1 0 0 1

Bảng 3.Ma trận tần số các từ, cụm từ

Văn bản được biểu diễn dạng véc tơ (có n dòng văn bả , m cột chiều- thuộc

tính) mà giá trị thành phần thứ j là tần số xuất hiện từ thứ j trong văn bản. Nếu

xét tập D gồm n văn bản và tự điển có m từ vựng, D có thể được biểu diễn

thành bảng kích thước n×m, dòng thứ i của bảng là véctơ biểu diễn văn bản thứ

i tương ứng.

27

3.4.1 Mô hình N-gram

N-gram là tần suất xuất hiện của từ trong kho ngữ liệu (corpus). Mô hình này

được áp dụng trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên như: kiểm

lỗi chính tả, dịch máy hay phân đoạn từ... N-gram với độ dài là 1 gọi là

unigram, độ dài 2 gọi là bigram, độ dài 3 gọi là trigram, và độ dài n được gọi

chung là N-gram.

Ví dụ :

• Unigram: pho : 1000 thì có nghĩa là tần số xuất hiện của từ pho

là 1000 lần trong corpus.

• Bigram: pho viet :10 thì có nghĩa là tần số xuất hiện của cụm từ

pho viet là 10 lần trong corpus.

Nhiệm vụ của mô hình ngôn ngữ là cho biết xác suất của một từ hoặc cụm từ W =

w 1w

2...w m là bao nhiêu. Theo công thức Bayes: P(AB) = P(B|A) * P(A), thì:

P(w 1w

2…w m) = P(w

1) * P(w 2|w

1) * P(w 3|w

1w 2) *…* P(w

m|w 1w

2…w m-1) (3.1)

Theo công thức này, mô hình ngôn ngữ cần phải có một lượng bộ nhớ vô cùng lớn

để có thể lưu hết xác suất của tất cả các chuỗi từ có độ dài nhỏ hơn m. Rõ ràng,

điều này là không thể khi m là độ dài của các văn bản ngôn ngữ tự nhiên (m có thể

tiến tới vô cùng). Để có thể tính được xác suất của văn bản với lượng bộ nhớ chấp

nhận được, ta sử dụng xấp xỉ Markov bậc n:

P(w m|w

1,w 2,…, w

m-1) = P(w m|wm-n,wm-n+1, …,w

m-1) (3.2)

Nếu áp dụng xấp xỉ Markov, xác suất xuất hiện của một từ (w m) được coi như chỉ

phụ thuộc vào n từ đứng liền trước nó (w m-nw

m-n+1…w m-1) chứ không phải phụ

thuộc vào toàn bộ dãy từ đứng trước (w 1w

2…w m-1). Như vậy, công thức tính xác

suất văn bản được tính lại theo công thức:

P(w 1w

2…w m) = P(w

1) * P(w 2|w

1) * P(w 3|w

1w 2) *…* P(w

m-1|w m-n-1w

m-n …w m-2)*

P(w m|w

m-nw m-n+1…w

m-1) (3.3)

28

Với công thức này, ta có thể xây dựng mô hình ngôn ngữ dựa trên việc thống kê

các cụm có ít hơn n+1 từ. Mô hình ngôn ngữ này gọi là mô hình ngôn ngữ N-

gram. Một cụm N-gram là 1 dãy con gồm n phần tử liên tiếp nhau của 1 dãy các

phần tử cho trước

3.4.2 Phương pháp thống kê TF-IDF

Phương pháp này còn gọi là mô hình túi từ (bag-of-words), sử dụng mô hình trọng

số TF.IDF (term frequency và inverse document frequence). TF.IDF là trọng số

của một từ trong văn bản thu được qua thống kê thể hiện mức độ quan trọng của từ

này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các

văn bản.

TF-term frequency : dùng để ước lượng tần xuất xuất hiện của từ trong văn bản.

Tuy nhiên với mỗi văn bản thì có độ dài khác nhau, vì thế số lần xuất hiện của từ

có thể nhiều hơn . Vì vậy số lần xuất hiện của từ sẽ được chia độ dài của văn bản

(tổng số từ trong văn bản đó).

TF(t, d) = ( số lần từ t xuất hiện trong văn bản d) / (tổng số từ trong văn bản d)

29

IDF- Inverse Document Frequency: ước tính mức độ ảnh hưởng của từ . Khi tính

tần số xuất hiện tf thì các từ đều được coi là quan trọng như nhau. Tuy nhiên có

một số từ thường được được sử dụng nhiều nhưng không quan trọng để thể hiện ý

nghĩa của đoạn văn , ví dụ :

• Từ nối: và, nhưng, tuy nhiên, vì thế, vì vậy, …

• Giới từ: ở, trong, trên, …

• Từ chỉ định: ấy, đó, nhỉ, …

Vì vậy, IDF tìm cách co lại trọng số tương ứng với các từ khóa xuất hiện trong

nhiều văn bản.

IDF(t,D)=log(N/|D(t)|) (3.4)

Với N là tổng số tài liệu văn bản, D(w): số văn bản chứa từ t .

Trọng số từ (TF.IDF) là tích của tần suất từ khóa TF và nghịch đảo số văn

bản chứa từ khóa đó và được xác định bằng công thức:

TF.IDF = f(t).log(N/|D(t)|) (3.5)

Trong đó f(t) là hàm tính tần số của cụm từ t.

3.4.3 Xây dựng mô hình huấn luyện với hồi quy logistic

Mô hình hồi qui logistic tổng quát với k yếu tố nguy cơ x1,x2,…xk được mô

tả bởi phương trình sau

𝑓(𝑧) =𝑒𝑧

1+ 𝑒−𝑧 (3.6)

Trong đó, z được định nghĩa như sau:

z= 𝜷𝟎 + 𝜷𝟏𝒙𝟏+ 𝜷𝟐𝒙𝟐 + 𝜷𝟑𝒙𝟑 + ⋯ + 𝜷𝒌𝒙𝒌

z=𝜷𝑻𝑿

𝛽0 : hệ số chặn (intercept). Giá trị của z khi tất cả các biến độc lập bằng 0

30

β1, β2, …βk: hệ số hồi qui cho các từ x1, x2,…, xk. Hệ số hồi qui cho biết

hướng và mức độ ảnh hưởng của các yếu tố đến xác suất . Nếu hệ số hồ qui

dương thì yếu tố nguy cơ làm tăng xác suất xảy ra của sự kiện và ngược lại.

Đồ thị của hồi qui logistic có trục hoành là giá trị của z và trục tung là giá

trị của f(z) tương ứng xác suất xảy ra sự kiện). z có thể nhận giá trị bất kỳ

âm hoặc dương nhưng f(z) chỉ nhận giá trị trong khoảng 0 và 1.

p(y=1|x, 𝛽)=f(𝛽𝑇x)=f(z)

p(y= -1|x, 𝛽)=1-f(𝛽𝑇x)=1-f(z)

Hình 7. Mô hình hồi quy logistic

3.4.4 Phương pháp đánh giá hiệu suất phân loại cảm xúc

Để đánh giá chất lượng hệ thống, bài báo sử dụng hai độ đo: độ chính xác

(precision) và độ bao phủ (recall). 02 độ đo này được tính toán theo các công thức

sau:

Bảng 4. Ma trân đánh giá hệ thống phân loại

𝑡𝑟𝑢𝑒 𝑝𝑜𝑠 𝑡𝑟𝑢𝑒 𝑛𝑒𝑔

Giá trị thực tế 𝑝𝑟𝑒𝑑. 𝑝𝑜𝑠 a b

𝑝𝑟𝑒𝑑. 𝑛𝑒𝑔 c d

31

𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑎

𝑎+𝑏 (3.7)

𝑟𝑒𝑐𝑎𝑙𝑙 =𝑎

𝑎+ 𝑐 (3.8)

Trong đó:

a: số lượng bình luận có nhãn là tích cực và được phân loại là tích cực .

b: số lượng bình luận có nhãn là tích cực và được phân loại là tiêu cực.

c: số lượng bình luận có nhãn là tiêu cực và được phân loại là tích cực

d: số lượng bình luận có nhãn là tiêu cực và được phân loại là tiêu cực.

3.4.5 Tối ưu tham số cho mô hình

Hàm Loss function còn gọi là hàm mất mát. Chúng ta mong muốn sai số là nhỏ

nhất, đồng nghĩa với việc tìm vector hệ số 𝜷 sao cho giá trị của hàm mất mát này

càng nhỏ càng tốt và giảm thiểu vấn đề overfitting.

𝜷∗=𝒂𝒓𝒈𝒎𝒊𝒏𝜷

𝑳(𝜷) (3.9)

𝑱(𝜷) = −𝟏

𝒎[∑ 𝒚(𝒊) 𝒍𝒐𝒈 𝒉(𝒙(𝒊))

𝒎

𝒊=𝟏

+ (𝟏 − 𝒚(𝒊)) 𝒍𝒐𝒈(𝟏 − 𝒉(𝒙(𝒊)))]

J(𝜷)= −𝟏

𝒎[∑ 𝒚(𝒊) 𝒍𝒐𝒈(

𝟏

𝟏+𝒆−𝜷𝑻𝒙)𝒎

𝒊=𝟏 + (𝟏 − 𝒚(𝒊)) 𝒍𝒐𝒈(𝟏 − 𝟏

𝟏+𝒆−𝜷𝑻𝒙)]

Vấn đề chọn tối ưu tham số lamda để tối thiểu hàm loss function với L2 Norm.

𝒎𝒊𝒏𝜷 ∈ 𝑹𝒏

∑ 𝑱(𝜷)𝒎𝒊=𝟏 + 𝝀 ∑ 𝜷𝟐𝒑

𝟏 (3.10)

Trong quá trình thực nghiệm, chúng tôi đánh giá hiệu suất lần lượt với các giá trị

C=[0.01,100] với C=1/ 𝝀, C nhận giá trị lớn thì mức độ chuẩn hóa càng thấp

(overfitting), ngược lại C có giá trị nhỏ độ chuẩn hóa càng cao và chọn giá trị tối

ưu nhất cho mô hình hồi quy logistic và C=0.2154.

32

3.5 Rút trích thông tin

Dựa vào kết quả phân loại cảm xúc mô hình logistic, chúng tôi xếp hạng các bình

luận và trích xuất các bình luận nằm ở nhóm 20 đầu và 20 các bình luận ở nhóm có

thứ hạng thấp nhất. Sau đó thực hiện phân tích và đánh giá mức độ ảnh hưởng các từ

cho các loại ẩm thực của các quốc gia. kết quả phân tích ẩm thực các quốc gia phản

ánh đúng thực tiễn : Món ăn phổ biến nhất Việt Nam là phở, Nhật Bản với các ẩm

thực sushi tươi sống, một số món ăn Thái có hương vị cay, các nhà hàng Ý nổi tiếng

với bánh pizza.

- Trong phần thực nghiệm này, chúng tôi rút trích thông tin hữu ích và các bình luận

nằm nhóm đầu 10 được bình luận tốt nhất, nhóm 10 bình luận hàng đầu theo quốc

gia:

Bảng 5.Các bình luận tích cực nhất cho các doanh nghiệp

33

Bảng 6. Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp Việt Nam

- Nhóm 10 bình luận cảm xúc tiêu cực nhất cho các nhà hàng Việt Nam, dữ liệu

phản ánh khá hợp lý với xếp hạng 1 đến 3 sao.

Bảng 7.Nhóm bình luận cảm xúc tiêu cực nhất cho doanh nghiệp Việt Nam

34

Chương 4: Thực nghiệm

4.1 Kết quả thực nghiệm phân loại cảm xúc

Kết quả phân loại cảm xúc tích cực và tiêu cực ảnh hưởng rất mạnh đến kết quả rút

trích thông tin. Nếu kết quả phân loại chính xác, truy vấn sẽ rút trích thông tin có độ

chính xác cao.

Kết quả thực nghiệm dữ liệu với mô hình logistic cho kết quả với độ chính xác

cao accuracy=90%, recall=89.8%, precision=96.9% và hệ số chuẩn hóa cho mô hình

tối ưu với hệ số chuẩn hóa C=0.2154

Hình 8. Đánh giá mô hỉnh huấn luyện và kiểm thử dữ liệu

Bảng 8.Ma trân đánh giá phân loại cảm xúc

Trích xuất chính xác cảm xúc giúp doanh nghiệp định hình xu hướng phát triển,

đồng thời nắm bắt được quan điểm và cảm xúc khách hàng về món ăn, chất lượng

dịch vụ khách hàng.

𝑡í𝑐ℎ 𝑐ự𝑐 𝑡𝑖ê𝑢 𝑐ự𝑐

tích cực 3276 356

tiêu cực 1262 11171

35

4.2 Kết quả thực nghiệm rút trích thông tin

Nhóm 10 từ cảm xúc mạnh tích cực và tiêu cực nhất.

Tích cực - hệ số Tiêu cực-hệ số

excellent: 1.14614924052

delicious: 1.1119727885

amazing: 1.03514286548

awesome: 0.872256805683

perfect: 0.838463244404

great: 0.806499315192

best: 0.744851346902

fantastic: 0.734042587596

love: 0.731300119008

reasonable: 0.72016372024

worst: -1.13781905968

horrible: -1.0873361229

terrible: -1.04677190115

mediocre: -1.04432799702

bland: -0.874645601756

awful: -0.836073920222

tasteless: -0.821659220617

rude: -0.820886331069

disgusting: -0.805035172104

overpriced: -0.803561081306

Bảng 9. Nhóm 10 từ cảm xúc rút ra từ kết quả phân tích

- Nhóm 20 từ phổ biến trích từ các bình luận hàng đầu thể hiện cảm xúc tích. Các

từ có tần số xuất hiện cao phù hợp với thực tế. Món ăn phổ biến Việt Nam là phở.

Hình 9. Phân phối các từ có tần

suất cao của ẩm thực Việt Nam

36

Hình 10.Các từ ảnh hưởng mạnh ẩm thực Việt

- Kết quả phân loại và rút trích cảm xúc chính xác cho các nhà hàng Nhật bản,

món ăn phổ biến nhất là Sushi và tươi sống

Hình 11.Phân phối các từ có tần suất cao của ẩm thực Nhật

Hình 12.Các từ ảnh hưởng mạnh ẩm thực Nhật bản

37

KẾT LUẬN

Trong nghiên cứu này, Tôi thực hiện khảo sát và so sánh hướng tiếp cận

phân loại cảm xúc dựa vào các thuật toán học máy, từ điển và ontology và đánh

giá các kỹ thuật rút trích thông tin dựa trên cơ sở phân loại cảm xúc. Trên nền tảng

các lý thuyết đó, Tôi tiến hành xây dựng mô hình thực nghiệm với phương pháp

hồi quy logistic để phân loại cảm xúc và sau đó tiến hành rút trích thông tin. Và

thử nghiệm thuật toán rút trích thông tin có cảm xúc cho các câu truy vấn. Cụ thể

đề tài đạt được một số cột mốc quan như sau.

- Nghiên cứu tổng quan về phân tích cảm xúc và các ứng dụng thực tế cuộc

sống.

- Nghiên cứu các phương pháp rút trích thông tin và các phương pháp phân tích

cảm xúc.

- Xây dựng mô hình thử nghiệm rút trích thông tin theo câu truy vấn từ dữ liệu

- Đánh giá thử nghiệm dữ liệu thuật toán hồi quy logistic và lựa chọn tham số tối

ưu để nâng cao độ chính xác thuật toán.

Thời gian tới đề tài tiếp tục phát triển :

- Xây dựng nhiều mô hình phân loại cảm xúc với nhiều thuật toán và mở rộng

hướng tiếp cận ngữ nghĩa ontology, phương pháp từ điển, học máy từ đó so

sánh các kết quả thực nghiệm để so sánh đánh giá ưu khuyết của các phương

pháp cho từng trường hợp cụ thể.

- Xây dựng mô hình rút trích thông tin trên cơ sở phân tích cảm xúc các trang

tiếng việt về dịch vụ du lịch tripadvisor, Lazada.

38

Tài liệu tham khảo

[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,”

in Proceedings of the 14th International Conference on Intelligent Text Processing

and Computational Linguistics (CICLing 13), vol. 7817, pp. 13–24, 2013.

[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using

Common-Sense and Context Information” Hindawi Publishing Corporation

Computational Intelligence and Neuroscience (2015)

[3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and

ensemble: A three stage model for document-level sentiment analysis”

Information Processing and Management 52 (2016) 36– 45.

[4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document-

level sentiment classification”.Proceedings of the 2010 Conference on Empirical

Methods in Natural Language Processing, MIT, Massachusetts, Association for

Computational Linguistics, USA (2010), pp. 1046-1056.

[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and document-level

sentiment mining for arabic texts”.Proceeding IEEE International Conference on

Data Mining Workshops (2010).

[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based

on a generalized probabilistic topic and syntax model” Proceedings of the Twenty-

Eighth International Florida Artificial Intelligence Research Society

Conference, Association for the Advancement of Artificial Intelligence (2015).

[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014).

Categorizing health-related cues to action: using Yelp reviews of restaurants in

Hawaii. New Review of Hypermedia and Multimedia, 20(4), 317-340.

[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J. L.

(2012). Why people use Yelp. com: An exploration of uses and gratifications.

Computers in Human Behavior, 28(6), 2274-2279.

39

[9] Huang, J., Rogers, S., & Joo, E. (2014). “Improving restaurants by extracting

subtopics from yelp reviews” iConference 2014 (Social Media Expo).

[10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting

usefulness of Yelp reviews with localized linear regression models”, 2016 7th

IEEE International Conference on Software Engineering and Service Science

(ICSESS)

[11] Solov'ev A. N., Antonova A. Ju., Pazel'skaia A. G., (2012), Using

sentiment-analysis for text information extraction. I-Teco (Moscow).

[12] Wanxiang Che, Yanyan Zhao, Honglei Guo, Zhong Su, and Ting Liu,”

Sentence Compression for spect-Based Sentiment Analysis” IEEE/ACM

TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL.

23, NO. 12, DECEMBER 2015.

[13] P.D. Turney,(2000), “Learning algorithms for keyphrase extraction”

Information Retrieval vol. 2, no. 4, pp. 303 - 336.

[14] I.H. Witten, G.W. Paynter, E. Frank, C. Gutwin and C.G. Nevill-

Manning.(1999) “KEA: Practical automatic Keyphrase Extraction.” The

proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital

Libraries, pp. 254-255.

[15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012)

”Linguistic Features for Subjectivity classification“ Asian Language Processing

(IALP), 2012 International Conference.

40

Phụ lục

I. Kết quả phân tích dữ liệu các quốc gia

1. Ẩm thực Pháp

Bảng 10.Nhóm bình luận tích cực ẩm thực Pháp

Hình 13.Các từ khóa có tần suất cao nhất ẩm thực Pháp

41

2. Ẩm thực Trung Quốc

Bảng 11.Nhóm bình luận tích cực ẩm thực Trung Quốc

Hình 14.Các từ khóa có tần suất cao nhất ẩm thực Trung Quốc

42

3. Ẩm thực Ấn độ

Bảng 12.Nhóm bình luận tích cực ẩm thực Ấn độ

Hình 15.Các từ khóa có tần suất cao nhất ẩm thực Ấn độ

Documents

NGHIÊN CỨU RÚT TRÍCH THÔNG TIN DỰA TRÊN CƠ SỞ ...ªn...CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chủ nhiệm đề t ài: ThS.Nguyễn Tấn Lộc Bình Dương, 08/01/2018