Globally and LocallyConsistent Image Completion
SATOSHI IIZUKA , EDGAR SIMO-SERRA, HIROSHI ISHIKAWA WasedaUniversity
SIGGRAPH 2017 accepted
http://hi.cs.waseda.ac.jp/~iizuka/projects/completion/data/completion_sig2017.pdf
論文情報
• SIGGRAPH:主にコンピュータグラフィックの技術や研究を発表する学会• 何万人もの専門家が参加する世界有数のカンファレンス
• First Author:飯塚里志(早稲田大学理工学術院総合研究所)• DLを用いて、画像補完や自動着色などの研究を行なっている。
- AI勉強会 - 2
HP:http://hi.cs.waseda.ac.jp/~iizuka/
概要
• 局所的にも大域的にも整合性のとれた画像を生成する画像補完 (inpainting) 手法の提案
• GAN (Generative Adversarial Networks) をベースとした補完画像生成
• 2つのDiscriminatorによる局所性と大域性の実現
- AI勉強会 - 3
関連研究
• 提案手法と関連研究との比較
- AI勉強会 - 4
パッチベース Context encoder 提案手法
Image size 任意 固定 任意
Local Consistency ◯ × ◯
Semantics × ◯ ◯
Novel objects × ◯ ◯
• Image size• 画像サイズ
• Local Consistency• 局所的な一貫性があるか
• Semantics• 風景の意味を反映しているか
• Novel objects• 新たなオブジェクトを生成できるか
パッチベース,Context encoder,それぞれの欠点を克服した
関連研究
• パッチベース手法• Barnes et al. 2009; Darabi et al. 2012; Huang et al. 2014; Simakov et al. 2008;
Wexler et al. 2007
• 欠損領域以外から類似度の高いパッチをコピー.これを繰り返す.
- AI勉強会 - 5
パッチ(小さな矩形領域)
補完したい画像
欠損領域(ホール)
関連研究
• パッチベース手法• Barnes et al. 2009; Darabi et al. 2012; Huang et al. 2014; Simakov et al. 2008;
Wexler et al. 2007
• 欠損領域以外から類似度の高いパッチをコピー.これを繰り返す.
- AI勉強会 - 6
パッチ(小さな矩形領域)
補完したい画像
欠損領域(ホール)
関連研究
• パッチベース手法
• 利点
• 任意のサイズと欠損領域に対して補完を行える
• 欠点
• 局所的にはよくできているように見えるものの,風景の意味を反映させていない
• ex)建物の部分か,空の部分か,など
• コピーしているだけなので,新たなオブジェクトは生成できない
- AI勉強会 - 7
関連研究
• Context Encoders• Context Encoders: Feature Learning by Inpainting
• Pathak et al. 2016, CVPR2016
• AutoEncoderとGANを用いた画像補完
- AI勉強会 - 8
関連研究
• Context Encoders
• AutoEncoderによる補完画像生成
- AI勉強会 - 9
欠損画像補完画像 本物の画像
AlexNetをベースにしたAutoEncoder
ピクセルごとの平均二乗誤差を誤差関数とする
問題点:単純なL2やL1誤差では画像がぼやける
関連研究
• Context Encoders
• GANの導入
- AI勉強会 - 10
欠損画像補完画像 本物の画像
AlexNetをベースにしたAutoEncoder
ピクセルごとの平均二乗誤差Generator
Discriminator
本物の画像である確率
GANの誤差関数を組み合わせることで,鮮明な画像を生成可能に
関連研究
• Context Encoders• L2 Loss
• 画像 𝑥 ,エンコーダ 𝐹 ,二値マスク 𝑀 ,
• 𝐿𝑟𝑒𝑐 𝑥 = 𝑀 (𝑥 − 𝐹 ( 1 − 𝑀 𝑥))2
(1)
• は要素ごとの積
• 一般的なGANの誤差関数
• Generator 𝐺 ,Discriminator 𝐷 ,画像の分布𝒳,ノイズ 𝑧 ,ノイズの分布 𝒵
• min𝐺
max𝐷
Ε𝑥∈𝒳 log 𝐷 𝑥 + Ε𝑧∈𝒵[log 1 − 𝐷 𝐺 𝑧 ] (2)
• Adversarial Loss
• 𝐿𝑎𝑑𝑣 = max𝐷
Ε𝑥∈𝒳 log 𝐷 𝑥 + log 1 − 𝐷( 𝐹 ( 1 − 𝑀 𝑥 )) (3)
• 最終的な誤差関数• 𝐿 = 𝜆𝑟𝑒𝑐𝐿𝑟𝑒𝑐 + 𝐿𝑎𝑑𝑣𝜆𝑎𝑑𝑣 (4)
- AI勉強会 - 11
関連研究
• Context Encoders
• 利点
• 新たなオブジェクトの生成
• 欠点
• 画像サイズとマスクが固定
• 周辺領域との連続性が考慮されていないため,不自然な画像になる可能性がある
- AI勉強会 - 12
提案手法
• Globally and Locally Consistent Image Completion (GLCIC)
• Context Encoderをベースとした研究
• Context Encoderの欠点である,周辺領域との連続性を反映させるために,
• 拡張畳み込み層を使った,補完ネットワークの構築
• 局所識別ネットワークの導入
- AI勉強会 - 13
拡張畳み込み層
• 拡張畳み込み層 (dilated convolution layers [Yu and Koltun 2016])• 各層が入力として使用できる領域を広げる• なおかつパラメータを増やさない
• 入力チャネル数 C,出力チャネル数C’とすると,
• 𝜎 活性化関数
• x𝑢,𝑣 入力.C次元ベクトル
• 𝑦𝑢,𝑣 出力.C’次元ベクトル
• 𝑊𝑠,𝑡 重み.C x C’行列.
• 𝑘𝑤, 𝑘ℎ カーネルの幅,高さ (奇数)
• 𝑏 バイアス.
• 𝜂 膨張係数 (𝜂 = 1で一般的な畳み込み層になる.ここでは𝜂 > 1)
• 𝑦𝑢,𝑣 = 𝜎 𝑏 + 𝑖=−𝑘ℎ
′
𝑘ℎ′
𝑗=−𝑘𝑤
′𝑘𝑤′
𝑊𝑘ℎ′+𝑖,𝑘𝑤
′ +𝑗 𝑥𝑢+𝜂𝑖,𝑣+𝜂𝑗 (5)
• 𝑘ℎ′ =
𝑘ℎ−1
2,𝑘𝑤
′ =𝑘𝑤−1
2
- AI勉強会 - 14
補完ネットワーク
1. マスクを掛けた画像を入力,元の次元に復元 (AutoEncoder)
2. マスクを掛けた以外の領域を元の画像で上書き
• 低解像度の層で拡張畳み込み層を用いることで,大域的な特徴を獲得
- AI勉強会 - 15
補完ネットワーク
• 欠損領域 (Hole)が大きいほど,補完するピクセルを計算するために参照する領域も広い必要がある
• 提案モデルでは307x307の入力画像に対し,欠損領域は99x99以内まで
- AI勉強会 - 16
大域識別ネットワークと局所識別ネットワーク
• 大域識別ネットワーク• 補完画像全体を入力
• 局所識別ネットワーク• 補完された領域を中心とした,128 x
128の画像を入力
• 学習の際は,ランダムな位置とする
- AI勉強会 - 17
• Concatenation層• それぞれの出力 1024次元ベクトルを結合した2048次元ベクトルを入力
• 1つの値を出力
• sigmoid関数で [0, 1]に
誤差関数
• C 補完ネットワーク
• 𝛼 重み
• min𝐺
max𝐷
Ε[ 𝐿 𝑥,𝑀𝑐 + log𝐷 𝑥,𝑀𝑑 + 𝛼 log(1 − 𝐷 𝐶 𝑥,𝑀𝑐 ,𝑀𝑐 ) ] (6)
• Context Encoders との違い
• Adversarial Lossで補完画像を入力とした際に重みを掛けている
- AI勉強会 - 18
学習の流れ
• 1つのミニバッチによる学習を1回として,現在の繰り返し回数をtとする
• t < TC
• L2 Lossのみを使い補完ネットワークを最適化
• TC < t < TC + TD
• 識別ネットワークのみを最適化
• t > TC + TD
• 補完ネットワークと識別ネットワークの両方を最適化
• t = Ttrain
• 終了
• TC = 90,000,TD = 10,000,Ttrain = 500,000,ミニバッチサイズ: 96
• 最適化手法: AdaDelta
- AI勉強会 - 19
データセット
• Places2 (http://places2.csail.mit.edu/)
• 400カテゴリ、1000万枚以上の画像セット
• 学習データ8097967(800万枚)使用
• 前処理• 入力画像を短い方の辺が [256, 384]ピクセルになるようにリサイズ
• 補完領域マスクは、[96, 128]ピクセルの範囲にランダムな穴(99x99ピクセル以下のサイズ)を生成
• 補完領域は学習データの平均ピクセル値で埋める
• 後処理• 生成された領域は、周辺の領域と色に微妙な違いがある可能性がある
• fast marching method [Telea 2004]
- AI勉強会 - 20
実験結果
- AI勉強会 - 21
周辺領域との整合性がとれているex)壁や,机などが完成している
実験結果他の手法より優れている例
- AI勉強会 - 22
実験結果他の手法と変わらない例
- AI勉強会 - 23
実験結果他の手法より劣っている例
- AI勉強会 - 24
実験結果提案手法の誤差関数の有用性
- AI勉強会 - 25
実験結果後処理の効果
- AI勉強会 - 26
実験結果学習に使用するデータセットによる違い
- AI勉強会 - 27
• ImageNet: 1万枚
• Places2: 8万枚
• ほとんど同じが,Places2の方が多様性があり良い結果
実験結果物体除去
- AI勉強会 - 28
実験結果顔画像の補完
- AI勉強会 - 29
• 顔画像を使って FineTuning• CelebFaces Attributes Dataset (CelebA)
• lCMP Facade Dataset
実験結果顔画像の補完
- AI勉強会 - 30
実験結果顔画像の補完
- AI勉強会 - 31
FineTuning後
FineTuning
パッチベース
入力
実験結果建物の窓の補完
- AI勉強会 - 32
実験結果失敗例
- AI勉強会 - 33
実験結果画像の自然さ
• CelebAデータセット (顔画像)
• 10人のユーザが画像の自然さを評価
• 補完画像か自然な画像かを推測
• 画像はランダムに表示
- AI勉強会 - 34
まとめ
• 局所的にも大域的にも整合性のとれた画像を生成する画像補完手法の提案
• 従来同時に達成できなかった,
• 任意の画像サイズ,補完領域
• 周辺領域との整合性
• 新しいオブジェクトの生成
これら全てを見たした画像補完の実現
• 顔のパーツの補完はできるものの,頭ごと無い場合は失敗
• 77%の確率で通常の画像と見分けられなかった
- AI勉強会 - 35