9
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient Lantao Yu† , Weinan Zhang† , Jun Wang‡ , Yong Yu† †Shanghai Jiao Tong University, ‡University College London {yulantao,wnzhang,yyu}@apex.sjtu.edu.cn, [email protected] 2016/9/30 発表者:金子貴輝

[DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

Embed Size (px)

Citation preview

Page 1: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

SeqGAN:SequenceGenerativeAdversarialNetswithPolicy

GradientLantao Yu†,Weinan Zhang†,JunWang‡,YongYu†

†ShanghaiJiao TongUniversity,‡UniversityCollegeLondon{yulantao,wnzhang,yyu}@apex.sjtu.edu.cn,[email protected]

2016/9/30発表者:金子貴輝

Page 2: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

2

• GANのDからGへの勾配伝播が離散系列では消えてしまうので,Gを微修正の効く確率的なモデルに置き換え,方策勾配で伝える

• GにはLSTMも使用する• Qはパラメータ近似せず,毎回MC-searchで平均して求める• 内部的にRLを使うのは先行研究有り

– VRNNのエンコーダがguide,デコーダが真の方策と,VAEをguidedpolicysearchだと捉え直せる

• 実験は合成データと実データの2つ– 学習曲線が特徴的

内容

Page 3: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

GANの苦手分野

• GANはGeneratorとDiscriminatorの2つで学習する• GANの式

– 𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * log𝐷/(𝐺' 𝑧 )𝑠. 𝑡. 𝜙 = 𝑎𝑟𝑔𝑚𝑖𝑛/Ε)∗ : log𝐷/ 𝑥 + Ε)= : log(1 − 𝐷/ 𝑥 )

• 生成する値を通して誤差逆伝播する– 離散値の生成モデルは苦手

3

離散系列の生成モデルのために,Generatorと微分の仕方を変える

Page 4: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

方策勾配法と他の勾配法との違い

• 方策勾配法では分布を微分する• 代わりに,期待値の中身は微分しない• スカラーで伝播する(行動価値など)

4

𝛻'𝑝' 𝑥𝑝' 𝑥 = 𝛻' log 𝑝' 𝑥

Page 5: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

SeqGANのアルゴリズム

• Discriminatorの学習はそのまま(左)• Generatorを強化学習に置き換える(右)– 𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * log𝐷/(𝐺' 𝑧 )から𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * ΕC~E= * 𝐷/(𝑦)へ

– 離散系列を順にサンプリングしていく– 行動価値QはMC-searchで平均して求める

5

Page 6: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

実験

• ランダムLSTMからの人工データ

• 中国漢詩,オバマ演説,Nothingham(midi楽譜)

6

Page 7: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

学習曲線

• 人工データでの負の対数尤度の推移– MLEでの学習(pre-train)が終わった後,RLでの学習がNLLを大きく改善している

7

Page 8: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

学習曲線

8

Page 9: [DL輪読会]SeqGan Sequence Generative Adversarial Nets with Policy Gradient

系列の生成にRLを使う先行研究

• 拡張したguidedpolicysearchの式がVAEの系列モデルを包含する

– guideが入力を観測できるエンコーダ–学習するpolicyがデコーダ

• reparameterization trickを使うので強化学習の枠組みで考えても同じアルゴリズムになる

9