1
感情要素:さー,すげー,やばい,-よ,まじ 感情要素:さー,すげー,やばい,-よ,まじ USER:この本さー、すげー やばかった よ。まじ怖すぎ。 USER:この本さー、すげー やばかった よ。まじ怖すぎ。 感情推定システム用の二視点評価方法 Double Standpoint Evaluation Method for Affect Analysis Systems Michal PTASZYNSKI Pawel DYBALA Rafal RZEPKA Kenji ARAKI Graduate School of Information Science and Technology, Hokkaido University 概要 二視点評価方法(DSEM) 結論 感情推定システムのための二視点に基づいた評価方法 (Double Standpoint Evaluation Method)を紹介する.第一視 点ではシステムの感情認知が評価され,第二視点ではシステ ムの感情推定がどの程度一般コモンセンスと一致するかが評 価される.以前の研究で紹介したML-Askシステムをこの方法 をもって評価する. さらに本評価方法を一般に使われる評価 方法と実験的に比較した結果,後者の不十分な点が明らかに なり,本方法はより客観的であることが証明された. 評価における問題点 ML-Askシステム 参考文献 感情性推定・感情的コンテクスト決定 感情性有無推定力をそれぞれF値で計算;両方のF値の平均値⇒結果 結果: F=0.81 人間の認知力は0.40.86システムの感情的コンテクスト推定力は 人間レベルにある 感情値設定 システムの判断と発話者の判断との一致率U 感情値設定には曖昧性があるため⇒ APM(ほぼパーフェクトマッチ)条件を許可 APM:発話毎に感情値判断に±1ポイント差異 結果:一致率U=0.5 人間の感情値設定力は~0.84システムの感情値設定力は人間レベルの60感情状態・感情種類推定 感情種類推定力をそれぞれF値で計算;両方のF値の平均値 結果: F=0.46 人間の認知力は0.710.73システムの感情種類推定力は人間レベルの65[3] 斉藤崇紘, et al.: 名詞の感情属性の抽出とそれに基づく名詞間類似度の計算. 自然言語処理学会Proceedings of NLP pp.368-371 (2008) [4] Wu, C. H., Chuang Z. J, Lin Y. C.: Emotion Recognition from Text Using Semantic Labels and Separable Mixture Models, ACM Transactions on Asian Language Information Processing, 2006. [5] Alm, C. O., Roth, D., Sproat, R.: Emotions from text: machine learning for text based emotion prediction, HLT/EMNLP, Vancouver, 2005. [6]土屋 誠司, 吉村 枝里子, 渡部 広一, 河岡 司: 連想メカニズムを用いた話者の感情判断手法の提案, Journal of Natural Language Processing, Vol.14, No.3, 2007. [7] Rzepka, R., Araki, K.: What About Tests In Smart Environments? On Possible Problems With Common Sense In Ambient Intelligence, Proceedings of 2nd Workshop on Artificial Intelligence Techniques for Ambient Intelligence, IJCAI'07, 2007. [8] 遠藤大介, 齋藤真実, 山本和英: 係り受け関係を利用した感情生起表現の抽出.自然言語処理学会Proceedings of NLP 2006. [11] ミハウ・プタシンスキ: 萌える言語.インターネット掲示板の上の日本語会話における感情表現の構造と記号論的機能の 分析・「2ちゃんねる」電子掲示板を例として・,アダム・ミツキエヴィッチ大学, 2006 [12] 中村明: 感情表現辞典. 東京堂出版, 2004 © Michał Ptaszyński 2008 ML-Ask DSEM 評価 入力 出力 感情性確認 感情要素 DB 感情値設定 感情状態認知 感情表現 DB if 感情値 > 0 感情値 = 5 感情表現:怖い 感情表現:怖い 評価実験? システムによる感情判断 5人被験者(評価者) 可能な評価:常識的、非常識ではない、非常識 結果の区分:「常識的」と評価した: ⇒常識的 ⇒非常識ではない ⇒非常識 土屋らの評価手法を基に実験でML-Askシステムを評価 土屋ら感情判断の評価方法: システムによる感情判断 5人被験者(評価者) 可能な評価:常識的、非常識ではない、非常識 結果の区分:「常識的」と評価した: ⇒常識的 ⇒非常識ではない ⇒非常識 それはシステムがほぼ完璧でほとんどの既存システムより性能がすぐれ ているということになる甘い評価方法では結果を高く見せられる! このような評価方法は極めて非現実的!!! 土屋らの結果のまとめ:「正答率は(中略)88.0%と非常に高い結果であり, 本システムは有効であると言える.土屋の評価方法を用いた我々の結果のまとめ: 土屋式に評価を行った結果、ML-Askシステムは97%の正確さが得られた。 それはシステムがほぼ完璧でほとんどの既存システムより性能がすぐれ ているということになる甘い評価方法では結果を高く見せられる 甘い評価方法では結果を高く見せられる! このような評価方法は極めて非現実的 このような評価方法は極めて非現実的!!! !!! 感情推定システム用の客観的な評価方法の特性 DSEM 用タグ付き対話コーパス 認知視点評価 コモンセンス視点評価 感情性推定・感情的コンテクスト決定 システムの判断と評価者の判断との一致率U;評価者間一致率 = 一般コモンセンス 結果:一致率U=0.58 (条件:APM一般コモンセンスの範囲は0.70.82システムの感情的コンテクスト推定の仕方は 一般コモンセンスのレベルの83感情値設定 システムの判断と発話者の判断との一致率U結果:一致率U=0.51 (条件:APM一般コモンセンスの範囲は0.610.75システムの感情値設定力の仕方は 一般コモンセンスのレベルの84感情状態・種類推定 二つの条件で感情状態推定の仕方のコモンセンスのレベルを決定 1.評価者全員の付けた少なくとも一つの感情を抽出 2.評価者大部分の判断と一致 システムの感情種類推定の仕方は 一般コモンセンスのレベルの45% 感情推定システムの評価方法にいくつかの問題 発見 それらを解決する可能な評価方法を提案 本方法→①認知視点及び②コモンセンス視点とい 2つの視点に基づいた評価方法 ML-Askシステムを本方法で評価 見込みのある結果が得られたが、完璧ではないと ころも分かり、改善点も決定できた 実験として、ML-Askシステムを一般に使用される 評価方法で評価 DSEMに比較して一般の方法の不十分点が明快に なった 本方法は高性能でより客観的であることを証明 本評価方法が広く使用されるようになることが期待 される 第三者 による感情的 タグ付け 対話者 による感情的 タグ付け 自然会話 コーパス 少数の評価者(3, 5人) 少数の評価者( 少数の評価者(3, 5 3, 5人) 人) [6, 8] “システムの出した結果は 常識的なのか?” システムの出した結果は システムの出した結果は 常識的なのか? 常識的なのか?[6] 評価の重要なところを“人の手で”行う 評価の重要なところを 評価の重要なところを人の手で 人の手で行う 行う コモンセンスで評価したことを認知 とする コモンセンスで評価したことを認知 コモンセンスで評価したことを認知 とする とする [4] [5] 文脈を無視した単語単位を基に した感情処理 文脈を無視した単語単位を基に 文脈を無視した単語単位を基に した感情処理 した感情処理 [3] 結果について疑問の浮かばない評価 結果について疑問の浮かばない評価 方法が必要! 方法が必要! 多人数の評価 単語を基に 処理を行わない 評価 実験のプロ セスではあくま でも手を加え ない “システムを 評価して”は 絶対NO 多数の評価素材 DSEM DSEM 二視点から 結果を見る 会話の記録、自然な発話などを対象物に 会話の記録、自然な発話などを対象物に 評価者をシステムと同じ立場に置く 評価者をシステムと同じ立場に置く 評価者の結果とシステムの結果を比較する 評価者の結果とシステムの結果を比較する 評価者数=多ければ多いほどいい 評価者数=多ければ多いほどいい 多くの人に多数の例文を作ってもらう 多くの人に多数の例文を作ってもらう 評価することによって視点変換 評価することによって視点変換 システムの認知力=例文の作成者の判断との一致率 システムの認知力=例文の作成者の判断との一致率 システムの判断の“常識レベル” =例文の評価者との一致率 システムの判断の“常識レベル” =例文の評価者との一致率 ML-Askのためのタグの種類 ・各発話で発話者が感情を表出しているか ・表されている感情の強さはどのぐらいか ・どのような感情が表されているか 5.非常に強い 4.強い 3.まあまあ強い 2.余り強くない 1.弱い -.評価できない 感情の定義と分類については:中村[12]より 定義:気もちや心理などということばでさす、 ある臨時的な精神状態のほとんど全て・ 分類:喜, 怒, 哀, 怖, 恥, 好, 厭, 昂, 安, 驚. 以前の研究[11]から: 感情層(日本語)は人間間コミュニケー ションを円滑にする その要素を全般に2種類に分類: 1. 感情要素.具体的な感情を示さずに発 話の感情的コンテクスト設定する こと で聞き手に感情が表されたことを知ら せる.例,わくわく,すげぇ,!???等. 2. 感情表現.常に必ず感情的コンテクス トで使われるわけではないが,感情的 コンテクストで 使われた場合,話者の 感情状態を表す 表現.例,喜ぶ,興奮. 両方に当てはまるものも多少ある (わくわく[興奮],~やがる[嫌悪・怒り] )

感情推定システム用の二視点評価方法 Double …arakilab.media.eng.hokudai.ac.jp/.../2008_06_JSAI_poster.pdf感情要素:感情要素:さーさー,,すげーすげー,,やばいやばい,,-よ-よ,,まじまじ

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 感情推定システム用の二視点評価方法 Double …arakilab.media.eng.hokudai.ac.jp/.../2008_06_JSAI_poster.pdf感情要素:感情要素:さーさー,,すげーすげー,,やばいやばい,,-よ-よ,,まじまじ

感情要素:さー,すげー,やばい,-よ,まじ感情要素:さー,すげー,やばい,-よ,まじ

USER:この本さー、すげー やばかった よ。まじ怖すぎ。USER:この本さー、すげー やばかった よ。まじ怖すぎ。

感情推定システム用の二視点評価方法

Double Standpoint Evaluation Method for Affect Analysis SystemsMichal PTASZYNSKI Pawel DYBALA Rafal RZEPKA Kenji ARAKI

Graduate School of Information Science and Technology, Hokkaido University

概要 二視点評価方法(DSEM)

結論

感情推定システムのための二視点に基づいた評価方法(Double Standpoint Evaluation Method)を紹介する.第一視

点ではシステムの感情認知が評価され,第二視点ではシステムの感情推定がどの程度一般コモンセンスと一致するかが評価される.以前の研究で紹介したML-Askシステムをこの方法をもって評価する. さらに本評価方法を一般に使われる評価

方法と実験的に比較した結果,後者の不十分な点が明らかになり,本方法はより客観的であることが証明された.

評価における問題点

ML-Askシステム

参考文献

感情性推定・感情的コンテクスト決定感情性有無推定力をそれぞれF値で計算;両方のF値の平均値⇒結果

結果: F値=0.81

人間の認知力は0.4~0.86⇒

システムの感情的コンテクスト推定力は      人間レベルにある

感情値設定システムの判断と発話者の判断との一致率U

感情値設定には曖昧性があるため⇒ APM(ほぼパーフェクトマッチ)条件を許可

APM:発話毎に感情値判断に±1ポイント差異

結果:一致率U=0.5

人間の感情値設定力は~0.84⇒

システムの感情値設定力は人間レベルの60%

感情状態・感情種類推定感情種類推定力をそれぞれF値で計算;両方のF値の平均値

結果: F値=0.46

人間の認知力は0.71~0.73⇒

システムの感情種類推定力は人間レベルの65%

[3] 斉藤崇紘, et al.: 名詞の感情属性の抽出とそれに基づく名詞間類似度の計算. 自然言語処理学会Proceedings of NLP pp.368-371 (2008)

[4] Wu, C. H., Chuang Z. J, Lin Y. C.: Emotion Recognition from Text Using Semantic Labels and Separable Mixture Models, ACM Transactions on Asian Language Information Processing, 2006.

[5] Alm, C. O., Roth, D., Sproat, R.: Emotions from text: machine learning for text based emotion prediction, HLT/EMNLP, Vancouver, 2005.

[6]土屋 誠司, 吉村 枝里子, 渡部 広一, 河岡 司: 連想メカニズムを用いた話者の感情判断手法の提案, Journal of Natural Language Processing, Vol.14, No.3, 2007.

[7] Rzepka, R., Araki, K.: What About Tests In Smart Environments? On Possible Problems With Common Sense In Ambient Intelligence, Proceedings of 2nd Workshop on Artificial Intelligence Techniques for Ambient Intelligence, IJCAI'07, 2007.

[8] 遠藤大介, 齋藤真実, 山本和英: 係り受け関係を利用した感情生起表現の抽出.自然言語処理学会Proceedings of NLP 2006.

[11] ミハウ・プタシンスキ: 萌える言語.インターネット掲示板の上の日本語会話における感情表現の構造と記号論的機能の分析・「2ちゃんねる」電子掲示板を例として・,アダム・ミツキエヴィッチ大学, 2006

[12] 中村明: 感情表現辞典. 東京堂出版, 2004© Michał Ptaszyński 2008

ML-Ask のDSEM 評価

入力

出力

感情性確認

感情要素DB

感情値設定

感情状態認知感情表現DB

if 感情値 > 0

感情値 =5

感情表現:怖い感情表現:怖い

評価…実験?

土屋らの評価手法を基に実験でML-Askシステムを評価

土屋ら感情判断の評価方法:

システムによる感情判断

5人被験者(評価者)

可能な評価:常識的、非常識ではない、非常識

結果の区分:「常識的」と評価した:

     ~      ⇒常識的

    ~    ⇒非常識ではない

   ⇒非常識

土屋らの評価手法を基に実験でML-Askシステムを評価

土屋ら感情判断の評価方法:

システムによる感情判断

5人被験者(評価者)

可能な評価:常識的、非常識ではない、非常識

結果の区分:「常識的」と評価した:

     ~      ⇒常識的

    ~    ⇒非常識ではない

   ⇒非常識

土屋らの結果のまとめ:「正答率は(中略)88.0%と非常に高い結果であり,本システムは有効であると言える.」

土屋の評価方法を用いた我々の結果のまとめ:

土屋式に評価を行った結果、ML-Askシステムは97%の正確さが得られた。それはシステムがほぼ完璧でほとんどの既存システムより性能がすぐれているということになる…?

甘い評価方法では結果を高く見せられる!    このような評価方法は極めて非現実的!!!

土屋らの結果のまとめ:「正答率は(中略)88.0%と非常に高い結果であり,本システムは有効であると言える.」

土屋の評価方法を用いた我々の結果のまとめ:

土屋式に評価を行った結果、ML-Askシステムは97%の正確さが得られた。それはシステムがほぼ完璧でほとんどの既存システムより性能がすぐれているということになる…?

甘い評価方法では結果を高く見せられる甘い評価方法では結果を高く見せられる!!       このような評価方法は極めて非現実的このような評価方法は極めて非現実的!!!!!!

感情推定システム用の客観的な評価方法の特性

DSEM 用タグ付き対話コーパス

認知視点評価

コモンセンス視点評価

感情性推定・感情的コンテクスト決定システムの判断と評価者の判断との一致率U;評価者間一致率 = 一般コモンセンス

結果:一致率U=0.58 (条件:APM)

一般コモンセンスの範囲は0.7~0.82⇒

システムの感情的コンテクスト推定の仕方は    一般コモンセンスのレベルの83%

感情値設定システムの判断と発話者の判断との一致率U;

結果:一致率U=0.51 (条件:APM)

一般コモンセンスの範囲は0.61~0.75⇒

システムの感情値設定力の仕方は          一般コモンセンスのレベルの84%

感情状態・種類推定二つの条件で感情状態推定の仕方のコモンセンスのレベルを決定

1.評価者全員の付けた少なくとも一つの感情を抽出

2.評価者大部分の判断と一致

システムの感情種類推定の仕方は          一般コモンセンスのレベルの45%

• 感情推定システムの評価方法にいくつかの問題発見

• それらを解決する可能な評価方法を提案

• 本方法→①認知視点及び②コモンセンス視点という2つの視点に基づいた評価方法

• ML-Askシステムを本方法で評価

• 見込みのある結果が得られたが、完璧ではないところも分かり、改善点も決定できた

• 実験として、ML-Askシステムを一般に使用される

評価方法で評価

• DSEMに比較して一般の方法の不十分点が明快に

なった

• 本方法は高性能でより客観的であることを証明

• 本評価方法が広く使用されるようになることが期待される

第三者による感情的

タグ付け

対話者による感情的

タグ付け

自然会話コーパス

少数の評価者(3, 5人)少数の評価者(少数の評価者(3, 53, 5人)人) [6, 8]

“システムの出した結果は

常識的なのか?”

““システムの出した結果はシステムの出した結果は

常識的なのか?常識的なのか?”” [6]

評価の重要なところを“人の手で”行う評価の重要なところを評価の重要なところを““人の手で人の手で””行う行う

コモンセンスで評価したことを認知とする

コモンセンスで評価したことを認知コモンセンスで評価したことを認知とするとする

[4]

[5]

文脈を無視した単語単位を基にした感情処理

文脈を無視した単語単位を基に文脈を無視した単語単位を基にした感情処理した感情処理 [3]

結果について疑問の浮かばない評価結果について疑問の浮かばない評価方法が必要!方法が必要!

多人数の評価

単語を基に処理を行わない

評価実験のプロ

セスではあくまでも手を加えない

“システムを評価して”は絶対NO 多数の評価素材

DSEMDSEM 二視点から結果を見る

会話の記録、自然な発話などを対象物に会話の記録、自然な発話などを対象物に

評価者をシステムと同じ立場に置く評価者をシステムと同じ立場に置く

評価者の結果とシステムの結果を比較する評価者の結果とシステムの結果を比較する

評価者数=多ければ多いほどいい評価者数=多ければ多いほどいい

多くの人に多数の例文を作ってもらう多くの人に多数の例文を作ってもらう

評価することによって視点変換評価することによって視点変換

システムの認知力=例文の作成者の判断との一致率システムの認知力=例文の作成者の判断との一致率

システムの判断の“常識レベル” =例文の評価者との一致率システムの判断の“常識レベル” =例文の評価者との一致率

ML-Askのためのタグの種類

・各発話で発話者が感情を表出しているか・表されている感情の強さはどのぐらいか・ ど の よ う な 感 情 が 表 さ れ て い る か

5.非常に強い4.強い3.まあまあ強い

2.余り強くない1.弱い-.評価できない

感情の定義と分類については:中村[12]より

定義:気もちや心理などということばでさす、           ある臨時的な精神状態のほとんど全て・         

分類:喜, 怒, 哀, 怖, 恥, 好, 厭, 昂, 安, 驚.

以前の研究[11]から:

・感情層(日本語)は人間間コミュニケー  ションを円滑にする・その要素を全般に2種類に分類:

1.感情要素.具体的な感情を示さずに発話の感情的コンテクスト設定することで聞き手に感情が表されたことを知らせる.例,わくわく,すげぇ,!,???等.

2.感情表現.常に必ず感情的コンテクストで使われるわけではないが,感情的コンテクストで使われた場合,話者の感情状態を表す表現.例,喜ぶ,興奮.

両方に当てはまるものも多少ある(わくわく[興奮],~やがる[嫌悪・怒り]等).