41
Khai phá quan điểm trên dữ liệu Twitter tiến độ 12/10 Hướng dẫn: PGS.TS Hà Quang Thụy Sinh viên thực hiện : Vũ Trọng Hóa Đào Quốc Vương

Khai phá quan điểm trên dữ liệu Twitter tiến độ 12/10

  • Upload
    lavada

  • View
    48

  • Download
    0

Embed Size (px)

DESCRIPTION

Khai phá quan điểm trên dữ liệu Twitter tiến độ 12/10. Hướng dẫn : PGS.TS Hà Quang Thụy Sinh viên thực hiện : Vũ Trọng Hóa Đào Quốc Vương. Nội dung. Dữ liệu trên Twitter Phương pháp. Nội dung. Dữ liệu trên Twitter Phương pháp. Dữ liệu trên Twitter. Thời điểm 2012 - PowerPoint PPT Presentation

Citation preview

Page 1: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Khai phá quan điểm trên dữ liệu Twitter

tiến độ 12/10

Hướng dẫn: PGS.TS Hà Quang ThụySinh viên thực hiện : Vũ Trọng Hóa

Đào Quốc Vương

Page 2: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Nội dung

• Dữ liệu trên Twitter• Phương pháp

Page 3: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Nội dung

• Dữ liệu trên Twitter• Phương pháp

Page 4: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên TwitterThời điểm 2012• 340,000,000 Tweets một ngày [1]• 140,000,000 nd tích cực/ 465,000,000 nd• 1,000,000 tài khoản một ngày

Page 5: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10
Page 6: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên Twitter

Page 7: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên Twitter

Page 8: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên Twitter

• Tweet: tin nhắn, trạng thái có độ dài không quá 140 kí tự

• Follow: quan hệ 1 chiều giữa 2 người dùng.• Mention: nhắc đến tên người dùng khác

eg: "Glad your shipment arrived @janesmith!" • Message: Tin nhắn cá nhân cho người dùng

nhất định, bắt đầu vs DM hoặc D: eg: "DM @joesmith234 what is your order number?"

Page 9: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên Twitter

• Hashtag: Người dùng đánh dấu các chủ đề. eg: "Check out our new products for the Fallhttp://t.co/link2 #fallsale"

Page 10: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên Twitter

• Mạng xã hội có đa dạng người sử dụng, họ chia sẻ ý kiến về nhiều chủ đề khác nhau, do đó nó là nguồn có giá trị

• Twitter chứa số lượng lớn các post và phát triển mạnh mỗi ngày. Dữ liệu có thể lớn tùy ý

• Người dùng Twitter có thể là phổ thông -> nổi tiếng, đại diện công ty, chính trị gia -> dễ dàng thu thập theo các tiêu chí(ngôn ngữ, sở thích … ).

Page 11: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên Twitter

• Twitter cung cấp API mở, đơn giản, search & streaming không giới hạn và không yêu cầu đăng nhập

• Diakopoulos and Shamma (2010) : Barack Obama vs John McCain

• Bollen et al. (2010): upcoming stock market fluctuations

Page 12: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Dữ liệu trên Twitter

• Dữ liệu dùng cho khai phá quan điểm chủ yếu là các tweet– Nội dung ngắn : 140kt– Ngôn ngữ khó hiểu, biến thể.

Page 13: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Nội dung

• Dữ liệu trên Twitter• Phương pháp

Page 14: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Tiếp cận học máy (SVM, tree kernel)• Nghiên cứu 2 bộ phân lớp tweet– Negative vs Positive– Negative vs Neutral vs Positive

• Baseline: unigram model• Dữ liệu: 5127 tweet được gán nhãn thủ công• Sử dụng các kĩ thuật phân tích và lựa chọn đặc

trưng, tiền xử lí

Page 15: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

Tiền xử lí• Từ điển biểu tượng cảm xúc

Page 16: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

• Từ điển viết tắt

Page 17: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

Tiền xử lí• Thay thế Ulr bằng ||U||, tag @Jonh = ||T||• Thay thế các biểu tượng cảm xúc bằng hướng

quan điểm• Chuỗi kí tự lặp :Cooooooooooooool - > coool• Sử dụng bộ tokenizer của Standford• Stopword

Page 18: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

100%38.3%30.1%11.8%6.1%4.2%2.8%1.2%11.7%

Page 19: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Cho điểm các từ (quan điểm)• Sử dụng bộ : Dictionary of Affect in Language

(DAL) (Whissel, 1989) gồm 8000 từ tiếng anh• Điểm 1 (Negative) - 3 (Positive)• Mở rộng nó bằng Wordnet• Tìm thấy 88.9% từ tiếng anh

Page 20: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Tree kernel : Partial Tree (PT) kernel đề xuất bởi Moschitti (2006)

• Tính toán sự tương quan giữa 2 cây bằng cách so sánh tất cả cây con

• Eg. @Fernando this isn’t a great day for playing theHARP! :)

Page 21: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10
Page 22: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Đặc trưng (Senti-feature)

Page 23: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Kết quả thực nghiệm• Họ sử dụng 3 mô hình và kết hợp chúng– Unigram model (our baseline)– Tree kernel model– 100 Senti-features model– Kernel plus Senti-features– Unigram plus Senti-features

Page 24: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Positive versus Negative (baseline 50%)• 1709 mẫu với mỗi nhãn, 5 folds• 100 Senti-feature xấp xỉ 10,000 unigram

Page 25: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10
Page 26: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Phân tích đặc trưng• Bắt đầu với unigram sau đó thêm dần các đặc

trưng• Kết luân: đặc trưng quan trọng nhất là Polar +

POS

Page 27: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Sentiment Analysis of Twitter Data- Agarwal và cộng sự 2011

• Positive vs Negative vs Neutral(baseline 33,3%)

• 1709 dữ liệu cho mỗi nhãn.• 100 Senti-feature xấp xỉ 13,000 unigram

Page 28: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

(Samuel Brody- Nicholas Diakopoulos)

• Chứng minh sự phổ biến của kéo dài từ trên Twitter và có liên quan đến thể hiện quan điểm

• Eg: Niiiice, realllly, Coooooooooooolllll !!!!!• Đề xuất phương pháp học máy bán giám sát,

phát hiện những từ mang quan điểm và cảm xúc

Page 29: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

• Động lực: – Rất nhiều nghiên cứu trên microblogs sử dụng

phương pháp cho điểm các từ dựa vào từ điển (a sentiment lexicon)

– Các từ điển đã có thì đều được thiết kế cho miền chung, hạn chế đối với miền mạng xã hội

– Nếu thiết kế được từ điển phù hợp, độ chính xác và độ phủ cao hơn.

Page 30: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

Phương pháp• Trong ngữ cảnh nói: sự nhấn mạnh thể hiện ở

độ cao, kéo dài, chất lượng âm tiết…• Trong văn bản viết : gạch chân , in đậm …• Twitter: Viết hoa, giữa 2 dấu *, lặp lại chữ cái :

Coooooooooooolllll !!!!!

Page 31: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

• TN1 : chứng tỏ sự phổ biến• TN2: Việc kéo dài không hề tùy ý• TN3: Mở rộng từ điển hiện tại, thích nghi hơn

Page 32: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

• Dữ liệu: Gần nửa triệu tweet được thu bằng Streaming API vào 9/3/2011

• Chỉ ở các khu vực Mỹ và phần nhỏ ở Anh• Gần 6.5 triệu từ, với 22 ngàn từ xuất hiện trên

10 lần.

Page 33: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

TN1

Page 34: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

• Trong số nửa triệu tweet của họ có tới 108,762 từ bị kéo dài và xuất hiện trong 87,187 tweets

• Chiếm 17.44% tức 1/6• Việc này khá bất ngờ mặc dù Twitter hạn chế

số lượng kí tự

Page 35: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

• TN2 sử dụng từ điển của (Wilson et al., 2005)

Page 36: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10
Page 37: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

TN3• Từ điển hiện tại có– 6,878 từ, chỉ xuất hiện 4,939, 2446 trên 10 lần– Các từ được kéo dài chỉ có 485/3,727 từ trong từ

điển• Chọn tập các ứng viên : Các từ mà có nhiều

hơn 5 dạng• Thu được 720 candidate

Page 38: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

• Phương pháp đồ thị• Brody and Elhadad (2010) for detecting

sentiment in reviews• Velikovich et al. (2010) for finding sentiment

terms in a giga-scale web corpus

Page 39: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10
Page 40: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Using Word Lengthening to Detect Sentiment in Microblogs 2011

Page 41: Khai phá quan điểm trên dữ liệu  Twitter  tiến độ  12/10

Tài liệu tham khảo

• [1] Infographic Labs http://infographiclabs.com/news/twitter-2012/

• [AXVRP11] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow and Rebecca Passonneau (2011). Sentiment Analysis of Twitter Data, Workshop on Language in Social Media LSM 2011:30-38.

• [BD11] Samuel Brody, Nicholas Diakopoulos: Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs. EMNLP 2011: 562-570.