34
1 語彙知識用いた含意認識の 評価構築と認識実験 07319483 村松 祐希 山本研究室 B Eꜳꜳꝏ S ffꝏ ꜳ Eꜳ Rꝏꝏ Lꜳ Kꝏ ꜳ Rꝏꝏ E

Building Evaluation Sets for Textual Entailment Recognition

  • View
    77

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Building Evaluation Sets for Textual Entailment Recognition

1

語彙知識を用いたテキスト含意認識の評価セット構築と認識実験

07319483 村松 祐希 山本研究室

Building Evaluation Sets for Textual Entailment Recognition Using Lexical Knowledge and Recognition Experiments

Page 2: Building Evaluation Sets for Textual Entailment Recognition

2

Outline• 研究背景と目的

• 関連研究

• 提案手法

• 実験と考察

• まとめ

Page 3: Building Evaluation Sets for Textual Entailment Recognition

3

Outline• 研究背景と目的

• 関連研究

• 提案手法

• 実験と考察

• まとめ

Page 4: Building Evaluation Sets for Textual Entailment Recognition

4

研究背景

• 自然言語処理には数多くの応用技術が存在する中、共通する基本問題が未解決

• テキスト間における論理の共通と差異部分の認識が困難

テキスト含意認識に可能性

Page 5: Building Evaluation Sets for Textual Entailment Recognition

5

テキスト含意認識(必要性)

私はペンを持っている。僕は筆を持っている。

I have a pen.

機械翻訳の例

機械翻訳 正解データ

翻訳対象

テキスト含意認識によって同一と認識

Page 6: Building Evaluation Sets for Textual Entailment Recognition

6

テキスト含意認識(実際の例)テキスト

「世界最大のトウモロコシ生産国であるアメリカは、2006年にバイオエタノールの生産量でも世界のトップに立った」

仮説「アメリカは世界最大のトウモロコシ生産国である」

含意判定 真

Page 7: Building Evaluation Sets for Textual Entailment Recognition

7

テキスト含意認識(まとめ)

• テキスト(T)と仮説(H)を与え、両文が包含関係であるかを判断するタスク

• 質問応答や情報検索などの応用技術に対し、テキストの内容理解が問われる部分において貢献

Page 8: Building Evaluation Sets for Textual Entailment Recognition

8

目的

テキスト含意認識(RTE)の手法を提案

→より高精度な含意認識の実現

→既存手法の問題点を明らかに

高精度な認識に何が必要であるか?

Page 9: Building Evaluation Sets for Textual Entailment Recognition

9

Outline• 研究背景と目的

• 関連研究

• 提案手法

• 実験と考察

• まとめ

Page 10: Building Evaluation Sets for Textual Entailment Recognition

10

関連研究

• SVMと文字列類似度を用いたテキスト含意認識学習 (Prodromosら, 2007)

–編集距離、品詞情報、分かち書き

–精度は約62%

• Recognising Textual Entailment Challenge

(Daganら, 2005)

–RTEワークショップを開催

–全17のRTE手法を分類

Page 11: Building Evaluation Sets for Textual Entailment Recognition

11

問題提起(Daganらの分類から)

RTE problem

RTEの問題には複数の要因が混在

Page 12: Building Evaluation Sets for Textual Entailment Recognition

12

Outline• 研究背景と目的

• テキスト含意認識

• 提案手法

• 実験と考察

• まとめ

Page 13: Building Evaluation Sets for Textual Entailment Recognition

13

訓練データWord

Overlap

Mutual

Information

Subpath

Set

SVM TrueFalse

T:本文H:仮説

含意判定

SVM features ResourceProcessing

提案手法(システム図)

Page 14: Building Evaluation Sets for Textual Entailment Recognition

14

訓練データ

• 含意する事例(文字列)をスコア化(数値化)

–評価事例の含意判定を推定

中高中

低中中

中高高

中中高

手法C手法B手法A

訓練事例 i (含意)

訓練事例 j(含意)

訓練事例 k(含意しない)

評価事例 l (?)

Page 15: Building Evaluation Sets for Textual Entailment Recognition

15

訓練データ

• 含意する事例(文字列)をスコア化(数値化)

–評価データの含意判定を推定

中高中

低中中

中高高

中中高

手法C手法B手法A

訓練事例 i (含意)

訓練事例 j(含意)

訓練事例 k(含意しない)

評価事例 l (含意)

Page 16: Building Evaluation Sets for Textual Entailment Recognition

16

訓練データ

T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。含意判定: Talw

Talw: Hが必ず真であるといえる場合

Tmay :Hが正しいと考えられる場合

Fmay : Hが真である可能性がある程度考えられる場合

Falw : Hが全くの誤りだとわかる場合

Page 17: Building Evaluation Sets for Textual Entailment Recognition

17

提案手法(Word Overlap)

1

( , ) exp( log( ) / )

exp(1 max{1, / })

n

i

i

Bleu A B BP p n

BP r c

=

=

= −

BLEUを用いた手法(Perez and Alfonseca, 2005)をベースとしたWord Overlapを使用

– A,B : 文

– pi : n-gramの被覆率

– n : n-gram.

– c : 文Aの長さ

– r : 文Bの長さ

Page 18: Building Evaluation Sets for Textual Entailment Recognition

18

提案手法(Word Overlap)

T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。BLEU ?

単語の重なりが高いほど含意

Page 19: Building Evaluation Sets for Textual Entailment Recognition

19

提案手法(Word Overlap)

T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。BLEU 0.5

単語の重なりが高いほど含意

強:計算結果が人間に分かり易い

弱:似ている語に対応できない

Page 20: Building Evaluation Sets for Textual Entailment Recognition

20

提案手法(Mutual Information)

,

1( 1| ) max ( , )

( )( , ) log

( ) ( )

V tu h

u v

u v

P Trh t lep u v

p nlep u v

p n p u

∈∈= =

≈ −⋅

∏u

– u : 仮説中の単語, v : テキスト中の単語

– P(nu) : 単語uの出現確率

– P(nv) : 単語vの出現確率

– P(nu,v) :単語uとvの共起確率

Glickmanら(Glickmanら, 2005)の手法をベースとした相互情報量を使用

Page 21: Building Evaluation Sets for Textual Entailment Recognition

21

提案手法(Mutual Information)

T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI ?

相互情報量が高いほど含意

Page 22: Building Evaluation Sets for Textual Entailment Recognition

22

提案手法(Mutual Information)

T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI = I(トヨタ:レクサス)×I(レクサス:高級車)

相互情報量が高いほど含意

Page 23: Building Evaluation Sets for Textual Entailment Recognition

23

提案手法(Mutual Information)

T: トヨタが高級車「レクサス」店を開業した。H: レクサスは高級車だ。MI 0.6

相互情報量が高いほど含意

強:似ている語にも統計から計算可

弱:同じ文が最大値にならない

Page 24: Building Evaluation Sets for Textual Entailment Recognition

24

提案手法(Subpath Set)

• Herreraらはテキストと仮説の構文類似度から含意判定を行う手法を提案(Herreraら, 2005)

– 構文解析結果が日本語に対して適用が困難

• 市川らはTree Kernel法をベースとした構文類似度を提案

– 構文木のノードの被覆度を計算

Page 25: Building Evaluation Sets for Textual Entailment Recognition

25

Outline• 研究背景と目的

• テキスト含意認識

• 提案手法

• 実験と考察

• まとめ

Page 26: Building Evaluation Sets for Textual Entailment Recognition

26

実験条件(認識手法)

• 評価方法は平均適合率をベースとしたCWSを使用 (Daganら., 2005)

• オープンテスト

– 10分割交差検定(one leave out)

• 訓練データ

–真データ Talw:924,Tmay: 662

–偽データ Fmay:262 ,Falw:624

Page 27: Building Evaluation Sets for Textual Entailment Recognition

27

認識手法の実験結果(オープンテスト)

64.1%61.9%49.9%SVM

61.1%59.7%45.0%Subpath Set

67.4%55.6%53.4%Mutual

Informaition

59.3%60.2%39.0%Word Overlap

Talw and TmayTmayTalw

CWS

Page 28: Building Evaluation Sets for Textual Entailment Recognition

28

考察

T:大潮は、満月と新月の時に起こる。H:大潮には、太陽と月の引力が関係している。含意判定:真

T:あの木の下に立っている人はA子です。H:あの木の下に立っている人は、女性です。含意判定:真

WO 誤、MI 正、SVM 正

WO 正、MI 誤、SVM 正

Page 29: Building Evaluation Sets for Textual Entailment Recognition

29

考察

• 正解条件によって組み合わせの有効性が変わる?

– 訓練データの汎化(分離超平面)に違いがある

– 境界条件に近い訓練事例がより多くの貢献

• SVMに用いた素性の有効性は?

– 素性を組み合わせを変えて実験

– 本手法の3つの素性から2つを選択し、比較

Page 30: Building Evaluation Sets for Textual Entailment Recognition

30

考察

64.1%61.9%49.9%WO+MI+SS

62.2%60.9%48.6%SS+WO

63.4%59.8%55.2%MI+SS

65.3%61.5%41.2%WO+MI

Talw and TmayTmayTalw

CWS

Page 31: Building Evaluation Sets for Textual Entailment Recognition

31

考察(分離平面のイメージ Tmay使用)

含意度 高

含意度 低

Page 32: Building Evaluation Sets for Textual Entailment Recognition

32

考察 (分離平面のイメージ Talw使用)

Page 33: Building Evaluation Sets for Textual Entailment Recognition

33

Outline• 研究背景と目的

• テキスト含意認識

• 提案手法

• 実験と考察

• まとめ

Page 34: Building Evaluation Sets for Textual Entailment Recognition

34

おわりに

• テキスト含意認識の高精度な手法を検討

– 含意認識に貢献可能な素性を調べて実験

• 一部の評価セットに対して有効性を確認

– 訓練データによって分離超平面に変化

– 分離超平面付近の訓練データがより貢献

• 分離超平面に近い事例の傾向

– Tmayの中から言語的な調査が必要