Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
実況ツイートからの感情抽出手法の提案
甲南大学大学院 自然科学研究科
知能情報学専攻
灘本研究室 若井 祐樹
平成25年度修士論文発表会 2014年2月15日
背景
近年,TwitterやFacebookといったソーシャルメディアが発展している
気軽に発信できることが利点Twitterで自分が思っていることや感じていることをその場で発しているのでは
背景
スポーツ
ドラマ
映画
もうすぐフィギュア始まる。今夜も見る。
本格的な医療ドラマを作ることによって、それを見た若き視聴者が医者を志してくれれば、とてもいいことだと思う。
なんかキュンキュンして胸がくるしくなる話だった!
テレビ番組を視聴しながらの実況ツイート
実況ツイート番組出演者やキャラクターのセリフ
番組に対する自分の意見や感想
視聴者の感情が多く含まれる
実況ツイートから感情を抽出する手法を提案
実況ツイートから感情を抽出する利点
時系列毎に実況ツイートを見て感情を抽出することで・・・
番組に対する感情の流れを読み取ることができる
感情の大きさから盛り上がりシーンを探索することができる
好
楽
怖悲
驚
目的
実況ツイートからユーザの感情を抽出する
テレビで放送されている映画の実況ツイートに着目
一般の文章を対象として
ツイート特有表現を考慮した
• 顔文字 (^o^)
• 繰り返し表現 (よっしゃああああ)
• 既存辞書を用いた実況ツイートの感情抽出
• 顔文字
• 繰り返し表現
\(^O^)/
きたああああ\(^O^)/ 無理だ\(^O^)/ ふざけんなこら\(^O^)/
ツイート特有表現の感情抽出
同じ顔文字でも文によって使われ方が異なる
顔文字の役割:「強調」,「自嘲」,「弛緩」を定義
修士論文中間報告
感情表現語辞書について
感情表現語辞書悲しい⇔楽しい
感情表現語辞書怒り⇔うれしい
感情表現語辞書緊迫⇔のどか
以前の研究では,熊本ら(千葉工大)が提案・構築した辞書を使用
問題点3つの感情軸で感情を表現することが困難
感情表現語辞書に含まれていない単語
新聞から感情語を抽出しているためツイートには適さない
中村の感情表現辞典を用いて辞書の構築を行う
熊本忠彦,河合由起子,田中克己.“ 新聞記事を対象とするテキスト印象マイニング手法の設計と評価”,信学論,Vol. J94-D,No.3,pp.540–548,2011.
感情表現辞典
中村明の感情表現辞典は小説の用例を10軸の感情に分類喜 哀 怒 怖 好 厭 昂 驚 安 恥
感情 単語 感情 単語
喜 楽しい,嬉しい,心が引かれる 怒 怒る,甚だしい,むっとする
哀 悲しい,痛い,じいんと来る 怖 怖い,震える,気味悪い
恥 恥ずかしい,照れる,穴に入りたい 好 恋しい,愛しい,敬意を表する
厭 暗い,憎い,愛想をつかす 昂 苛立つ,感情,心が張り詰める
安 のんびり,すっきり,気を鎮める 驚 ぼんやり,歓喜,目を丸くする
辞書構築手法
熊本らの提案する感情語を定量化するツールを用いる
感情表現語辞書の再構築
前準備
データ:Yahoo!映画のレビューデータ74,000文書
感情語:感情表現辞典の語句
感情軸:感情表現辞典の10軸の感情で構成された対極な軸
哀⇔喜
怖⇔怒
厭⇔好
驚⇔昂
恥⇔安
Plutchikの感情の輪
再構築した感情表現語辞書の例
単語 哀⇔喜 厭⇔好 恥⇔安 怖⇔怒 驚⇔昂
爆笑できる 0.9266 0.0142 0 0.3717 0.5
涙ながらだ -0.9433 -0.0428 -0.7228 -0.3922 0.5964
泣き崩れる -0.9171 0.2987 0.3142 -0.073 0.792
恋する 0.1267 0.8927 -0.0176 -0.1385 0.0561
嫌らしい -0.2417 -0.9616 0 0.0424 -0.0938
明快だ 0.3598 -0.0033 0.7422 0.2494 0.0339
真っ赤だ -0.3879 0.1115 -0.9926 -0.0089 0.2922
腹立つ -0.3405 0.1049 0.0937 0.9051 -0.1221
恐ろしい -0.2891 -0.2304 0.0375 -0.9662 0.14
熱心だ -0.0481 0.1551 0.183 0.231 0.9697
意外だ -0.0081 0.1663 0.207 0.003 -0.9906
-1 1
左側の感情 右側の感情
繰り返し表現
浅井洋樹,秋岡明香,山名早人.きたああああああああああああああああ!!!!!11:マイクロブログを用いたことにより教師なし叫喚フレーズ抽出,第5 回データ工学と情報マネジメントに関するフォーラム(DEIM Forum2013),A4-4,2013.
叫喚フレーズ「きたああああ!」のように崩れた表記をして母音を繰り返す表現
定義同じ母音を3つ以上繰り返してある
大文字・小文字を区別しないもの
バレンタインのお菓子おいしいいいい
ツイート例
繰り返し表現に対するユーザ実験
目的繰り返し表現が使われていることでどのような感情の変化があるのか
実験データ繰り返し表現がある実況ツイート50ツイート
① 繰り返し表現の部分を削除したツイートを見て感情表現辞典の10軸の感情から最大3つまで選び感情の強さを10点満点で評価する
② 繰り返し表現があるツイートを見て①と同様に評価してもらう
被験者:11名
実験方法
評価方法
h
i
jj
ji
NRR
hTW
1
,10
)(1
:
:
:
:
j
j
ji
NR
R
h
TW ,
:
:
0
0
,
,
ji
ji
TW
TW 繰り返し表現によって感情をより強めている
繰り返し表現によって感情をより弱めている
ある感情軸i におけるあるツイートj の評価値
被験者の人数
ツイートj における繰り返し表現がある場合のある感情軸i におけるツイートを評価した点数
ツイートj における繰り返し表現がない場合のある感情軸i におけるツイートを評価した点数
実験結果と考察
感情 Twi,j>0 Twi,j<0 Twi,j=0
喜 67% 2% 31%
哀 35% 10% 55%
怒 27% 2% 71%
怖 29% 10% 61%
好 80% 2% 18%
厭 33% 14% 53%
昂 100% 0% 0%
驚 84% 4% 12%
安 8% 41% 51%
恥 14% 0% 86%
○○かわいいよお
○○かわいいよおおおおおおおお
気持ちが高揚していることを表現
「安」の感情が弱める
繰り返し表現
感情を強調する機能がある「安」は反対に弱めている
感情値算出を行う
繰り返し表現を考慮した感情値算出手法
繰り返し表現が含まれている場合
ツイートの感情値 = 文の感情値 + 重み
繰り返し表現の重みの値の決定
),max( ii
iii
SWSS
SWSSTW
:
:
:
i
i
i
SW
SS
TW 繰り返し表現を考慮したときのある感情iの重み
Twi,j>0
Twi,j<0
重みの値の決定
感情 Twi,j>0 Twi,j<0 重み
喜 67% 2% 0.97
哀 35% 10% 0.71
好 80% 2% 0.98
厭 33% 14% 0.58
安 8% 41% -0.80
恥 14% 0% 1.00
怒 27% 2% 0.93
怖 29% 10% 0.66
昂 100% 0% 1.00
驚 84% 4% 0.95
繰り返し表現を考慮した感情値を算出
映画の実況ツイート
形態素解析
感情表現語辞書(喜)
感情表現語辞書(驚)
感情語と感情値を取得
辞書毎に処理
文の感情値を決定
繰り返し表現あり
文の感情値+
繰り返し表現の重み
感情表現語辞書(哀)
感情表現語辞書(昂)
・・・
繰り返し表現を考慮した感情抽出手法の流れ
感情語毎の感情値の合計感情語数
感情値の決定
繰り返し表現の重みを考慮した評価実験
1.視聴率の高い番組での評価実験
2.繰り返し表現を含む映画の実況ツイートに対する評価実験
紅白歌合戦での評価実験
データ:紅白歌合戦に関する繰り返し表現が含まれる103ツイート
目的:繰り返し表現を用いた感情抽出手法の有用性を示す実験
正解データ:ツイートごとに個別で判断した感情
ツイート感情抽出手法
感情を出力
適合率を求めた
実験結果と考察
感情 ツイート数 適合率
喜 3 100.0%
哀 17 0%
好 18 77.8%
厭 2 0%
安 4 0%
恥 16 0%
怒 6 0%
怖 14 0%
昂 18 94.9%
驚 2 50.0%
「喜」「好」「昂」が精度が良い重みの値を大きく設定
重み付けに有用性がある
異なったジャンルのテレビ番組に関する実況ツイートで検証する
映画の実況ツイートに対する評価実験
目的:実際に繰り返し表現が含まれる映画の実況ツイートの評価
繰り返し表現が含まれるツイート繰り返し表現の部分を削除したツイート
54ツイート
1. 感情表現辞典の10軸の感情の中からツイートの感情に適した感情軸最大3つまで選び,10点満点で評価
2. 評価した合計の点数が平均以上のものをツイートの感情と決定
実験データ
正解データ
実験データ
重みを考慮した手法
重みを考慮しない手法 正解データ
正解データ
再現率・適合率・F値を求めた
被験者:8名
実験結果と考察
→感情をより強調する効果が得られた
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
喜 哀 好 厭 安 恥 怒 怖 昂 驚
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
喜 哀 好 厭 安 恥 怒 怖 昂 驚
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
喜 哀 好 厭 安 恥 怒 怖 昂 驚
再現率 適合率 F値
「哀」,「好」,「厭」,「昂」のF値がより良くなっている
重みを考慮しない場合重みを考慮した場合
時間軸ごとのツイートの感情値の分析
分析手法① 映画の実況ツイートの感情値を算出
② ツイートされた時間と算出された感情軸ごとの感情値を出力
③ 1分ごとの感情値の合計とツイート頻度で平均を算出
④ 時間軸で可視化を行い,分析
対象映画:「ONEPIECE FILM Z」
データ:映画に関する実況ツイート5549ツイートとツイートした時間
映画の実況ツイートの時間軸ごとの感情値分析
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
21
00
21
03
21
06
21
09
21
12
21
15
21
18
21
21
21
24
21
27
21
30
21
33
21
36
21
39
21
42
21
45
21
48
21
51
21
54
21
57
22
00
22
03
22
06
22
09
22
12
22
15
22
18
22
21
22
24
22
27
22
30
22
33
22
36
22
39
22
42
22
45
22
48
22
51
22
54
22
57
23
00
23
03
哀⇔喜 厭⇔好 恥⇔安 怖⇔怒 驚⇔昂
映画の実況ツイートの時間軸ごとの感情値分析
-0.1
-0.05
0
0.05
0.1
0.15
0.2
21
00
21
04
21
08
21
12
21
16
21
20
21
24
21
28
21
32
21
36
21
40
21
44
21
48
21
52
21
56
22
00
22
04
22
08
22
12
22
16
22
20
22
24
22
28
22
32
22
36
22
40
22
44
22
48
22
52
22
56
23
00
23
04
驚⇔昂
見どころでは「昂」が高くなっていることが多い
映画の実況ツイートの時間軸ごとの感情値分析
-0.2
-0.15
-0.1
-0.05
0
0.05
0.1
0.15
0.2
21
00
21
03
21
06
21
09
21
12
21
15
21
18
21
21
21
24
21
27
21
30
21
33
21
36
21
39
21
42
21
45
21
48
21
51
21
54
21
57
22
00
22
03
22
06
22
09
22
12
22
15
22
18
22
21
22
24
22
27
22
30
22
33
22
36
22
39
22
42
22
45
22
48
22
51
22
54
22
57
23
00
23
03
哀⇔喜 厭⇔好
「好」に振れている
「哀」に振れている
まとめと今後の課題
まとめ
今後の課題
映画の実況ツイートを対象とする繰り返し表現を考慮した感情抽出手法を提案
繰り返し表現の有無による感情の変化の分析
繰り返し表現の重みを設定し その有用性を示す実験
映画の実況ツイートを時間軸ごとに分析
実況ツイートに特化した感情語辞書の構築
繰り返し表現の重みつけ
他の実況ツールとの比較
研究成果1研究会発表(6本)
若井 祐樹,熊本 忠彦,灘本 明代, “ニュースに対するつぶやきの感情分析”,情報処理学会関西支部大会,2012
若井 祐樹,田中 美羽,熊本 忠彦,灘本 明代, “顔文字を考慮したニュースに対するツイートの感情抽出手法の提案”,第5回データ工学と情報マネジメントに関するフォーラム(DEIM2013)
若井 祐樹,熊本 忠彦,灘本 明代, “ツイートの感情抽出の為の顔文字の役割分類”,第2回WI2研究会(ARG SIG-WI2),2013
若井 祐樹,熊本忠彦,灘本明代, “映画に対する実況ツイートの感情抽出手法の提案”,第158 回データベースシステム研究発表会,2013
若井 祐樹,山本 湧輝,熊本 忠彦,灘本 明代, “映画の実況ツイートにおける時系列毎の感情抽出手法の提案”,第6回データ工学と情報マネジメントに関するフォーラム(DEIM2014).(to appear)
若井 祐樹,熊本忠彦,灘本明代, “多次元感情軸に基づくツイートの感情抽出手法の提案”,2014年電子情報通信学会総合大会,2014(to appear)
研究成果2
ポスター発表(2本)若井 祐樹,田中 美羽,熊本 忠彦,灘本 明代, “顔文字を考慮したニュースに対するツイートの感情抽出手法の提案”,第5回データ工学と情報マネジメントに関するフォーラム(DEIM2013).
若井 祐樹,山本 湧輝,熊本 忠彦,灘本 明代, “映画の実況ツイートにおける時系列毎の感情抽出手法の提案”,第6回データ工学と情報マネジメントに関するフォーラム(DEIM2014).(to appear)