24
極性辞書を利用した 句構造による 注意型ニューラル評価極性分類 首都大学東京 システムデザイン研究科 宮崎 亮輔, 小町 1 2016/07/29

極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

極性辞書を利用した句構造による注意型ニューラル評価極性分類首都大学東京 システムデザイン研究科宮崎 亮輔, 小町 守

1

2016/07/29

Page 2: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

研究背景

2

ユーザの投稿などのウェブ上のテキストのマイニングに,評価極性分類は重要な役割を担う

この映画がめっちゃ面白かった!

この商品思ったより使いづらいので注意

Page 3: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

従来手法の課題

3

Nakagawaら (2010)

Socherら (2011)

Zhangら (2015)

手法:依存構造木をもとにTree-CRFによって学習課題:スパースな素性テンプレートを設計する必要

手法:句構造木をもとに再帰的ニューラルネットワークによって学習(後述)課題:部分木(句)レベルでアノテーションされたコーパスが必要

手法:StackedDenoisingAuto-Encoderによって学習課題:統語情報を考慮できない・・

・・

・・

Page 4: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

どう克服するか

4

Nakagawaら (2010)

Zhangら (2015)

課題:スパースな素性テンプレートを設計する必要

課題:統語情報を考慮できない

ニューラルネットワークベースの手法によって克服可能

統語構造を利用した手法によって克服可能

Socherら (2011)課題:部分木(句)レベルでアノテーションされたコーパスが必要辞書やアテンションを利用して部分木の情報を補完することによって克服

(Socherら,Zhangらは克服)

(本研究で克服)

(Nakagawaら,Socherらは克服)

Page 5: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

各手法の特徴

5

素性設計 統語構造句単位のアノテーション

評価極性辞書

Nakagawaら 必要 考慮 不要 あるとよい

Zhangら 不要 無視 不要 不要

Socherら 不要 考慮 必要 不要

本研究 不要 考慮 不要 あるとよい

Page 6: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

本研究の貢献

6

1.

日本語評価極性分類において,文単位のアノテーションのみのコーパスからでも

2.

アテンション機構を適用することで,再帰的ニューラルネットワークによる学習が可能になることを示した.

評価極性辞書を効果的に利用でき,アテンション機構と同様,学習に貢献することを示した.

3. 現時点における最高精度を達成した.82.6% 84.4%NTCIR-Jの正解率

Page 7: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

評価極性辞書を利用した句構造による注意型ニューラル評価極性分類

7

日本語の文が与えられた時に,その極性がポジティブかネガティブかの2値に分類するタスク

句構造による再帰的ニューラルネットワークがベース以下の順で説明

・ 句構造ニューラル評価極性分類

・ 句構造注意型ニューラル評価極性分類

・ 評価極性辞書を利用した句構造ニューラル評価極性分類本研究

Page 8: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

句構造ニューラル評価極性分類

8

1. 入力文を句構造に構文解析し,2. 単語分散表現を入力とし,句構造木に沿って再帰的ニューラルネットワークで文ベクトルを計算する.

文ベクトルを入力とし,Softmax分類器で2値に分類3.

入力文 構文解析

句構造・二分木

RNN*or

Tree-LSTM

単語分散表現

文のベクトル

Softmax

*再帰的ニューラルネットワーク (RecursiveNeuralNetwork)

誤差逆伝播

誤差逆伝播法で単語分散表現まで学習4.

WikipediaWikipediaWikipedia

予測 正解

Page 9: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

再帰的ニューラルネットワーク (Socherら,2011)

9

詐欺 を 撲滅 する

Softmax

木構造に沿ってボトムアップに句ベクトルを構成する0.80.2

句jのベクトル の構成

:重み行列:バイアスベクトル:句jの左右の子のベクトル

ルートのベクトルが文のベクトルに対応する

・文のベクトル

1.00.0予測

正解

Page 10: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

Tree-LSTM(Taiら,2015)

10

フレーズの構成をLSTMユニットにする・

ゲート

hlj hrj

Cj

U

uj

U

ijtanh σ

tanh

U

ojσ

U

fjlσ

Cjl

Cjr

fjr

hj

Page 11: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

アノテーション単位による学習の違い

11

句単位のアノテーション 文単位のアノテーション

詐欺 を 撲滅 する

文のベクトル

・すべての句で学習を行える・ どこで反転するのかがわかる

・ 文全体のみから学習しなければならない・ どこで反転が起きたのかわからない

0.80.21.00.0

詐欺 を 撲滅 する

文のベクトル

0.80.21.00.0

0.20.80.01.0

0.20.80.01.0

0.50.50.50.5

0.50.50.50.5

0.30.70.01.0

0.30.70.01.0

Page 12: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

句構造注意型ニューラル評価極性分類

12

詐欺 を 撲滅 する

0.5

0.5

0.00.0

アテンションベクトルRNNによるベクトル

0.80.2すべてのノードに対してアテンションを張り,RNNによるベクトルとアテンションベクトルを合わせてSoftmax分類器へ入力する.

アテンションのパラメータも同時に学習する

1.00.0予測

正解

0.0 0.0

Page 13: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

評価極性辞書を利用した句構造ニューラル評価極性分類

13

文単位のアノテーション 句単位のアノテーション

学習の難しさ難しい

資源作成の難しさ 難しい

辞書によるアノテーション

・辞書にマッチする句(単語)に対して,対応する正解ラベルを付与

・学習データに対して適用し,評価時には利用しない

・評価極性辞書の性質上,短い句や単語に多くアノテーションされる

Page 14: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

評価極性辞書を利用した句構造ニューラル評価極性分類

14

極性辞書によるアノテーション 文単位のアノテーション・辞書にマッチする句に対して,対応する正解ラベルを付与

詐欺 を 撲滅 する

文のベクトル

0.80.21.00.0

詐欺 を 撲滅 する

文のベクトル

0.80.21.00.0

0.20.80.01.0

Page 15: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

実験:使用データ (Nakagawaらと同様)

15

コーパス

評価極性辞書

・ NTCIR-J(NTCIR-6,NTCIR-7の意見分析タスクのマージ)

・ 日本語評価極性辞書・ 用言編(小林ら,2005)名詞編(東山ら,2008)・

・ 文単位のアノテーション・ 10分割交差検定

ポジティブ ネガティブ 合計

997文 2400文 3397文

ポジティブ ネガティブ 合計

用言編 2108 3172 5280名詞編 3352 4958 8310合計 5460 8130 13590

ポジティブ ネガティブ合計

単語 句 単語 句

述べ 2174 328 5889 880 9271異なり 584 178 974 359 13590

評価極性辞書によるNTCIR-Jへのアノテーション数

評価極性辞書の内訳

NTCIR-Jの内訳

Page 16: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

実験:使用ツール・ハイパーパラメータ

16

Ckylark (2016.07)

Chainer 1.9.0

KyTea 0.4.7word2vec(Skip-gram,windowsize:5,200dim)

単語分散表現

構文解析

実装

・・ Wikipedia(2014.11),約43万語彙

・ Python3.4.4・

パラメータ 値

隠れ層次元 200最適化手法 AdaDelta*荷重減衰係数 0.0001勾配クリッピング 5

ハイパーパラメータ

*Chainerのデフォルトパラメータを利用

10分割の各開発セットの正解率の平均でチューニング

Page 17: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

実験:比較(手法)手法 概要

MFS 常に最頻出のラベルを選択する.ここではネガティブを選択

LogRes 単語分散表現を平均したベクトルを入力としたロジスティック回帰

SdA (Zhangら,2015)

単語分散表現を平均したベクトルを入力としたStackedDenoisingAuto-Encoder※ NTCIR-6のデータではNakagawaらの手法を上回っていたが,本実験ではデータが違うので数字は単純には比較できない

Tree-CRF(Nakagawaら,2010) 依存構造木の各ノードに潜在変数を持たせたTree-CRF以前のStateoftheArt

Tree-LSTM 構成部分にLSTMを利用したRNNTree-LSTMw/attention アテンション機構を適用したTree-LSTMTree-LSTMw/dictionary 評価極性辞書で教師データを拡充したTree-LSTM

Tree-LSTMw/attention,dictionary 評価極性辞書とアテンション機構を両方利用したTree-LSTM17

Page 18: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

実験:結果

18

手法 正解率%

Tree-LSTMとの差

Tree-CRFとの差

MFS 70.4 -0.5 -12.2LogRes 77.1 +6.2 -5.5

SdA (Zhangら,2015) 81.7 +10.8 -0.9Tree-CRF(Nakagawaら,2010),以前のSoA 82.6 +11.7 -

Tree-LSTM 70.9 - -11.7Tree-LSTMw/attention 81.0 +10.1 -1.6Tree-LSTMw/dictionary 82.9 +12.0 +0.3

Tree-LSTMw/attention,dicttionary 84.4 +13.5 +1.8

Page 19: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

考察:手法

19

MFS(0.704)≈Tree-LSTM(0.709)<LogRes (0.771)Tree-LSTM・ StanfordSentimentTreebankでは最高精度を達成している

Tree-LSTMでもMFSと同程度

提案:極性辞書・アテンションを利用する手法

句単位のアノテーションがないと学習が困難

attn (0.810)< Tree-CRF(0.826)≈dict (0.829)< attn &dict (0.844)

・ アテンションよりも極性辞書を利用した手法の方が高い精度

・ 両方利用することで最高精度RNNにおける各句に対する教師ラベルの役割が大きい

Page 20: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

考察:事例分析(正答例)

20

政策 の 一貫 性 が 見 られ な い

N|N

0.33

0.64

P|P

正解 |予測

“一貫性”を正しくポジティブだと分類しているが,“見られない”へ強くアテンションを張ることで,最終的な文の極性を正しくネガティブだと分類できている.

・ P:ポジティブ,N:ネガティブ

・アテンションによる重みが0.1以上のノードとその重み

Page 21: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

考察:事例分析(誤答例)

21

これ で 最悪 事態 は 回避 でき た

N|Nひとまず

N|N

P|N

0.24 0.15

0.28

0.280.006

“最悪事態”を正しくネガティブだと分類できているが,文後半の”回避できた”へのアテンションの重みが小さいためか,最終的に文の極性の分類を間違えている.

正解 |予測

・ P:ポジティブ,N:ネガティブ

・アテンションによる重みが0.1以上のノードとその重み

Page 22: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

まとめ

22

1.

日本語評価極性分類において,文単位のアノテーションのみのコーパスからでも

2.

アテンション機構を適用することで,RNNによる学習が可能になることを示した.

評価極性辞書を効果的に利用でき,アテンション機構と同様,学習に貢献することを示した.

3. 現時点における最高精度を達成した.82.6% 84.4%NTCIR-Jの正解率

Page 23: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

展望

23

StanfordSentimentTreebankなどのデータセットを用いて,句単位のアノテーションの有無による結果の比較実験・

・ 分類時ではなく構成関数へのアテンション機構の適用の検討

・ 分類時のアテンション機構は,反転などの操作を捉えているわけではない

・ RNNによる句ベクトルの構成にそのような操作を期待

Page 24: 極性辞書を利用した 句構造による - cl.sd.tmu ...cl.sd.tmu.ac.jp/~miyazaki/publish/nl201607_presentation.pdf · 再帰的ニューラルネットワークによる学習が可能になることを示した.

もらったコメント

24