最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy Liang,...

Preview:

Citation preview

最先端NLP勉強会 “Learning Language Games

through Interaction” Sida I. Wang, Percy Liang, Christopher D.

Manning

(株)Preferred Networks 海野 裕也

2016/09/11 第8回最先端NLP勉強会

2

startからgoalになるような「指⽰」を⾃由に書く

3

きっと茶⾊を消したんだろう

4

完全に無視!!

5

候補の中から正しい⾏動の結果を選

6

指⽰と操作のペアを学習

同じようにして何問か教える

7

8

さっき⾒たやつだ!

9

ちゃんと学習されてる!

概要

l  ⾔語理解関わる⾔語ゲームを設計した l  理解を促進するための排他的な理解を⾏うため

のモデルを提案実装した l  クラウドワーカーに⾔語を教えるタスクをやっ

てもらい、⾔語を教えてもらった l  どのように⼈間が教えるのかも含めて興味深い

データを取った

10

所感

l  設計が優れている l  ⾔語の理解に関わるタスクはbAbIなど⾮現実的な⽂

か、難しい「⼤⼈」の⽂が中⼼だった

l  「簡単なタスク+⾃然な⽂」の設計にすることで、現実的な⽂でありながら複雑な知識を利⽤しないタスクができた

l  ⾃⼰完結的である l  これまでの、「まずデータを作る、そして問題を解

く」というタイプではなくて、「データを作りながら問題を解く」

l  学習する過程そのものに焦点があたっている11

SHRDURNゲーム

l  初期状態: s \in Y l  ⽬的状態: t \in Y (⼈間だけに⾒せる) l  指⽰: x (⼈間が出す e.g. “remove red”) l  候補: Z = [z1, …, zK] K個提⽰

l  zは後述する⽂法から⽣成、例えば remove(leftmost(with(red)))

l  次状態: Y = [y1, …, yK] ただし、yi = [zi]s l  ⼈間が正しいyiを選択

12

Semantic parsing model

l  x(指⽰)とz(⾏動)の対応は対数線形モデル

l  特徴(φ)はありがちなもの l  指⽰x中のn-gram(skip-gram含む)

l  ⾏動z中のtree-gram l  特別な⼯夫はない

13

論理形式zの⽣成

l  p(z|x)に基づいてzを⽣成する必要がある l  上記⽂法規則を使って⽣成する

l  ビームサーチを利⽤する

14

学習

l  AdaGradで最適化

15

排他的な理解のモデル化

l  “remove red”のあとに、”remove cyan”が来ると、⼈は両者は別の指⽰だと思う

l  現状の、特徴ベースの学習の場合、類似の特徴が発⽕するため両者を同じと判定してしまう

l  「指⽰は排他的である」という判断ができるようにしたい

16

事前分布による排他性の実現

l  Speaker(ユーザー)とListener(システム)の発話xと理解zの事前分布を⼊れる

l  p(x)とp(z)のおかげで、各発⾔が別々の意味を持つように、補正される

l  雑な印象は受ける・・・

17

事前分布がuniformだとしたときの効果の例

18

1になるよう正規化

1になるよう正規化

学習⽅法

19

更新式の詳細

20

zをサンプリングしたい

xは無視

p(z)を近似: P

正規化係数を近似: 1/Q

正規化係数

p(z)

実験⽅法

l  Amazon Mechanical Turkで、100⼈に3ドルずつ l  ゲームは5段階の難易度で、10タスクずつ

l  100⼈全部で6時間しかかからなかった l  1⼈1時間程度

l  20⼈位は何したら良いのかわからなかった

21

⼈間の観察

l  だいたい英語だが、⼈によってバリエーションが有る l  5⼈だけ、謎の⾔語を開発

l  別の⾔語の⼈も l  多くは、⼀貫性のある表現を使う(removeだけ使う、

など)

22

⾯⽩い例

23

コマンドライン⾵

暗号

⼿法の⽐較

l  memorize: 発⾔xと⾏動zそのものを特徴にする l  half: 発⾔xだけ特徴をとるが、⾏動zはそのものを特徴

l  prag: 排他性を考慮した学習

24

まとめ

l  ⾔語理解のための新しいタスクを作った l  簡単なタスクに対して、⼈間に指⽰を出させる

l  オンラインで学習して、データを作りながら学習を⾏う実験を⾏えるようにした

l  排他制御のモデルを作って実装した l  ⼈間の反応を含めて興味深い傾向があった

l  実験結果や⼿法そのものよりも、タスク設計や実験のやり⽅が⾮常に興味深かった

25