2008-11-14 （金）奈良先端大　 D2 　小町守

EMNLP 2008 読み会Katrin Erk and Sebastian Pado.

“A Structured Vector Space Model for Word Meaning in Context”

2008-11-14 （金）奈良先端大　 D2 　小町守

2

どのように単語の意味をモデル化するか• 単語の意味のモデル化→意味空間– 高次元のベクトルで単語の意味を表現– 各ベクトルは 1 つの見出し語→多義性の問題

• 単語の意味は文脈によって違う– Catch a ball （ grab; ボールをつかむ）– Catch a disease （ contract; 病気にかかる）– Attend a ball （ a dancing event; ダンスパーティに出る）– → 既存手法はこの違いをうまく表現できない

08.11.14

3

本論文のポイント単語を VSM で表現する既存手法の問題点• 統語関係が無視されている• フレーズは 1 つのベクトルで表現しきれない• 統語関係を考慮に入れた VSM の提案→ structured vector space model (SVS)• SVS は単語類似度・言い換えタスクでの state-

of-the-art と同程度かそれ以上の性能08.11.14

Vector space model

4

関連研究08.11.14

5

言語構造を用いず文脈を使う• Schuetze (CL 1998)– 1 次ベクトル→いわゆる共起ベクトル– 2 次ベクトル• ウィンドウ幅の中での単語の 1 次ベクトルの和• 語義クラスタを形成

• McDonald and Brew (ACL 2004)– Wi の期待値は w1…wi-1 の 1 次ベクトルの和– Wi の期待値と wi の 1 次ベクトルは人間の読み取り時間と相関がある

08.11.14

6

述語項構造を用いる（述語と項のペアをモデル化する）• Kintsch (Cognitive Science 2001)– ベクトル化された p と a を用いて (p,a) のペアに似たペアを探す– → クラスタの意味は各 (p,a) ベクトルのセントロイド

• Mitchell and Lapata (ACL 2008)– p + a の組 c = f(p,a,R,K)• R は p と a の間の関係・ K は追加知識

– 実際は R も K も使っていない→関係は無視08.11.14

7

テンソル積に基づく手法• Smolensky (Artificial Intelligence 1990)– ベクトル a と b の結合– 構造をエンコードできるが……→次元の呪い

• Jones and Mewhort (Psychological review 2007)– Circular convolution を用いて n-gram の共起情報を固定された次元に落とし込む→上述の問題を回避– 統語構造は用いていない

€

c = a⊗b

08.11.14

8

カーネル法と VSM の違い• カーネルと VSM との共通点– 文脈が与えられたときの言い換え可能性の尺度に用いることができる– 類似性の効率的な計算に implicit な素性空間を用いることができる

• カーネルと VSM との相違→用いる情報の力点– 木カーネルでは統語構造の類似性のスムージングに意味情報を用いる (Moschitti and Quarteroni, ACL

2008)– VSM では単語の意味の相互作用に焦点がある

08.11.14

9

文脈を考慮に入れた語義モデル08.11.14

10

Catch と ball の「意味」

08.11.14

11

Structured Vector Space Model

• 見出し語 w の意味→ベクトル v と（逆）選択選好を表現する関係ラベル R 、 R-1 の三つ組み• ある単語 a の意味を別の単語 b の文脈で計算←→単語 b の意味を単語 b の文脈で計算

• Mitchell & Lapata (2008) の枠組みで表現可能08.11.14

なんらかの演算（ベクトルの足し算もしくは要素ごとのかけ算）

12

Catch と ball の語義の計算

08.11.14

13

実験08.11.14

14

類似度を予測する• データ : Mitchell and Lapata (2008) のデータセット（ M&L ）– 120 個の項目（ 15 動詞・ 4 名詞・ 2landmark ）– →3,600 事例– 入力は文

これを当てる（ 1-7 まで）

08.11.14

15

共起の取り方• Bag-of-words– ウィンドウサイズ 10 単語– BNC から計算、頻度上位から 2,000 次元を素性に

• Dependency-based– Dependency graph でのパスを共起とカウント– BNC を Minipar (Lin 1993) で処理したものを使用

• 共起尺度は頻度そのものと pointwise mutual information を使ったものと比較08.11.14

16

提案モデル• 単語 b と関係 r の選択選好ベクトルの計算

• パラメータ θ と n は heldout データセットで最適化08.11.14

17

ベースライン• Target only– Landmark と動詞のベクトルを比較

• Selpref only– 名詞の subj-1 の選択選好と比較

08.11.14

18

評価項目• Mitchell & Lapata (2008) に準拠– High: 関係性が高い landmark についての（ cosine ）類似度の平均– Low: 関連性が低い landmark についての（ cosine ）類似度の平均– Spearman の ρ• 人手の判断との相関（高いほどよい）• M&L によるとこのデータでの upper bound は 0.4の 3 つの尺度で評価

08.11.14

19

SELPREF-POW は BOW のノイズ削減に役立っている

08.11.14

20

依存構造は人手との相関が高い

08.11.14

21

M&Lや先行研究のように直接共起ベクトルを用いるのとどう違うのか？• Subj-1 と提案モデルの（ cosine ）類似度の平均を調べてみた

• 相関はほとんどない（にも関わらず）人手との相関が高い→ M&L とは違った予測をしている08.11.14

22

言い換えのランキング• データ : SemEval-1 lexical substitution データセット（の一部）

このランキングを当てる（置換不可能なものは下位になるようにランク）08.11.14

23

逆選択選好のモデル化は言い換えタスクに有効• データを Subj-1, obj-1, obj に分割して評価

• ただしi:= インスタンス（ |I| はインスタンス数）M:= モデルの言い換えトップ 10G:= 人手でつけた正解の言い換えf(s,i):=i を s に言い換えた頻度

08.11.14

24

結論と今後の課題08.11.14

25

選択選好を考慮した一般的なモデル• 文脈を考慮した語義モデルを提案• 選択選好を表現するベクトルも保持している• 類似度・言い換えタスクで Mitchell & Lapata

2008 を上回る性能（統計的には有意でない）今後の課題• 複数の関係を同時に考慮するモデル• 推論にいかに組み込んでいくか08.11.14

Documents

2008-11-14 （金） 奈良先端大 D2 小町守

2008-11-14 （金）奈良先端大　 D2 　小町守