Image-to-Image Translation with Conditional Adversarial Networksの紹介

Image-to-Image Translation with Conditional Adversarial

Networks論文紹介

Twitter:@UMU____

何の論文か？

• 画像から画像への変換を行う方法がたくさん開発されてきた．

何の論文か？

• たくさんの手法がある中で，手法の役割/効果について研究．

生成した画像の紹介

• 論文参照（多いので）

https://arxiv.org/pdf/1611.07004.pdf

目次

• GAN

• cGAN

• Encoder-Decoder vs U-Net

• Patch-GAN

• L1 vs cGAN vs L1+cGAN

• 敵対的生成ネットワーク(Generative Adversarial Networks).

• G:画像を生成する．

• D:画像が本物かどうか判別する．

GAN

GAN

• Ｌは，Ｇが生成した画像と，本物の画像を，それぞれ，Ｄが「Ｇが生成した」，Ｄが「本物の画像だ」と判別できた頻度が高いほど，大きな値を取る．

損失関数Ｌを，

• Ｄの重みは，最大化するように学習．

• Ｇの重みは，最小化するように学習．

→敵対的生成ネットワーク．

GAN

• 学習時にはＤとＧを学習させ，使用時にはＧを用いて画像を生成する．

cGAN

• GANは，Ｇの入力値として高次元のランダム値を使用していた．

• cGAN(conditional-GAN)は，ＧとＤの入力値にお手本画像を与える．

→このようにすることで，お手本画像と本物の画像の関係性に基づいた画像を，生成できる．

Encoder-Decoder vs U-Net

• Ｇでは，お手本画像をもとに画像を生成する．

• E-Dモデル（左）では，Convolution層でどんどん画像が畳み込まれて，生成(DeConvoluton)

するときにはお手本画像のどの部分のピクセルを生成すべきなのかという情報が失われる．

• U-Netでは，層を飛び越えて接続することで，これを解決．

Ｇの中身

Encoder-Decoder vs U-Net

• E-DよりもU-Netの方が，良い結果を与える．

Patch-GAN

• Patch-GANは，Ｄによって画像が本物かどうかを識別するときに，画像の全体を見るのではなく，局所領域を見て本物かどうかを判定する．

→これによって，画像の低周波成分の妥当性より，高周波成分の妥当性が確保される．

Ｄに入力する局所領域の大きさによって生成画像の性質が変化する．

Patch-GAN

• Ｄに入力する局所領域の大きさについて

局所領域を小さくしていくと，全体的な妥当性が失われる．

局所領域を大きくしていくと，局所的な妥当性が失われる

局所領域が大きいと学習すべきパラメータが増大するという問題点もあり

局所領域が小さいとColorful

L1 vs cGAN vs L1+cGAN

L1 vs cGAN vs L1+cGAN

• 損失関数にL1正規化項を入れることで，全体的な妥当性（低周波領域での妥当性）が確保される．

• cGANでは(PatchGANの導入によって)高周波成分の妥当性が確保される

→cGANにL1正規化を追加し，

局所的・全体的に妥当性を生む．

※Semantic segmentationなどのhigh detailedな画像が要求されない場合は，L1正規化のみの方が良い．

まとめ

• GANを用いた画像生成で用いられる様々な手法を評価し，良い構成方法を検討した．

Technology

Image-to-Image Translation with Conditional Adversarial Networksの紹介