Upload
deeplearningjp2016
View
479
Download
5
Embed Size (px)
Citation preview
SeqGAN:SequenceGenerativeAdversarialNetswithPolicy
GradientLantao Yu†,Weinan Zhang†,JunWang‡,YongYu†
†ShanghaiJiao TongUniversity,‡UniversityCollegeLondon{yulantao,wnzhang,yyu}@apex.sjtu.edu.cn,[email protected]
2016/9/30発表者:金子貴輝
2
• GANのDからGへの勾配伝播が離散系列では消えてしまうので,Gを微修正の効く確率的なモデルに置き換え,方策勾配で伝える
• GにはLSTMも使用する• Qはパラメータ近似せず,毎回MC-searchで平均して求める• 内部的にRLを使うのは先行研究有り
– VRNNのエンコーダがguide,デコーダが真の方策と,VAEをguidedpolicysearchだと捉え直せる
• 実験は合成データと実データの2つ– 学習曲線が特徴的
内容
GANの苦手分野
• GANはGeneratorとDiscriminatorの2つで学習する• GANの式
– 𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * log𝐷/(𝐺' 𝑧 )𝑠. 𝑡. 𝜙 = 𝑎𝑟𝑔𝑚𝑖𝑛/Ε)∗ : log𝐷/ 𝑥 + Ε)= : log(1 − 𝐷/ 𝑥 )
• 生成する値を通して誤差逆伝播する– 離散値の生成モデルは苦手
3
離散系列の生成モデルのために,Generatorと微分の仕方を変える
方策勾配法と他の勾配法との違い
• 方策勾配法では分布を微分する• 代わりに,期待値の中身は微分しない• スカラーで伝播する(行動価値など)
4
𝛻'𝑝' 𝑥𝑝' 𝑥 = 𝛻' log 𝑝' 𝑥
SeqGANのアルゴリズム
• Discriminatorの学習はそのまま(左)• Generatorを強化学習に置き換える(右)– 𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * log𝐷/(𝐺' 𝑧 )から𝑎𝑟𝑔𝑚𝑖𝑛'Ε) * ΕC~E= * 𝐷/(𝑦)へ
– 離散系列を順にサンプリングしていく– 行動価値QはMC-searchで平均して求める
5
実験
• ランダムLSTMからの人工データ
• 中国漢詩,オバマ演説,Nothingham(midi楽譜)
6
学習曲線
• 人工データでの負の対数尤度の推移– MLEでの学習(pre-train)が終わった後,RLでの学習がNLLを大きく改善している
7
学習曲線
8
系列の生成にRLを使う先行研究
• 拡張したguidedpolicysearchの式がVAEの系列モデルを包含する
– guideが入力を観測できるエンコーダ–学習するpolicyがデコーダ
• reparameterization trickを使うので強化学習の枠組みで考えても同じアルゴリズムになる
9