[DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

SeqGAN:SequenceGenerativeAdversarialNetswithPolicy

GradientLantao Yu†,Weinan Zhang†,JunWang‡,YongYu†

†ShanghaiJiao TongUniversity,‡UniversityCollegeLondon{yulantao,wnzhang,yyu}@apex.sjtu.edu.cn,[email protected]

2016/9/30発表者：金子貴輝

2

• GANのDからGへの勾配伝播が離散系列では消えてしまうので，Gを微修正の効く確率的なモデルに置き換え，方策勾配で伝える

• GにはLSTMも使用する• Qはパラメータ近似せず，毎回MC-searchで平均して求める• 内部的にRLを使うのは先行研究有り

– VRNNのエンコーダがguide，デコーダが真の方策と，VAEをguidedpolicysearchだと捉え直せる

• 実験は合成データと実データの２つ– 学習曲線が特徴的

内容

GANの苦手分野

• GANはGeneratorとDiscriminatorの２つで学習する• GANの式

– 𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * log𝐷/(𝐺' 𝑧 )𝑠. 𝑡. 𝜙 = 𝑎𝑟𝑔𝑚𝑖𝑛/Ε)∗ : log𝐷/ 𝑥 + Ε)= : log(1 − 𝐷/ 𝑥 )

• 生成する値を通して誤差逆伝播する– 離散値の生成モデルは苦手

3

離散系列の生成モデルのために，Generatorと微分の仕方を変える

方策勾配法と他の勾配法との違い

• 方策勾配法では分布を微分する• 代わりに，期待値の中身は微分しない• スカラーで伝播する(行動価値など)

4

𝛻'𝑝' 𝑥𝑝' 𝑥 = 𝛻' log 𝑝' 𝑥

SeqGANのアルゴリズム

• Discriminatorの学習はそのまま(左)• Generatorを強化学習に置き換える(右)– 𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * log𝐷/(𝐺' 𝑧 )から𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * ΕC~E= * 𝐷/(𝑦)へ

– 離散系列を順にサンプリングしていく– 行動価値QはMC-searchで平均して求める

5

実験

• ランダムLSTMからの人工データ

• 中国漢詩,オバマ演説,Nothingham(midi楽譜)

6

学習曲線

• 人工データでの負の対数尤度の推移– MLEでの学習(pre-train)が終わった後，RLでの学習がNLLを大きく改善している

7

学習曲線

8

系列の生成にRLを使う先行研究

• 拡張したguidedpolicysearchの式がVAEの系列モデルを包含する

– guideが入力を観測できるエンコーダ–学習するpolicyがデコーダ

• reparameterization trickを使うので強化学習の枠組みで考えても同じアルゴリズムになる

9

Technology

[DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient