Let there be color!: Joint End-to-end Learning of Global and Local Image Priors
for Automatic Image Colorization with Simultaneous Classification
GCI 2期生 篠原義明
Why this paper?• 選定理由:• 古い白黒写真に色をつけることにもともと興味があった。
• 著者:飯塚里志 * シモセラ エドガー * 石川博(早稲田大学)• SIGGRAPH2016 で発表?
Related Works• ユーザの入力と試行錯誤でに依存するモデル( [Xu et al.
2013], [Chen et al. 2012] )• 入力に対して参考となる画像をユーザが選択する必要があるモデル ([Gupta et al. 2012], [Charpiat et al. 2008])• [Liu et al. 2008] は web 検索を利用しているがユーザはクエリを入力する必要がある
• 最新のもの [Cheng et al. 2015] は training が小さいかつ性能の高いセグメンテーションモデルを要求するため、セグメンテーションクラスが現れない画像に対しては性能が低い提案手法は end-to-end
Feature of Model・大域特徴(状況)と局所特徴(状況を所与としたテクスチャや物体)を結合させて利用・画像の色とラベルを用いて大域的特徴を効率的に学習・解像度に関係なく利用可能・ユーザに依る介入(パラメータ調整など)が不要・ end-to-end に学習が可能・ Style transfer が可能
・評価はユーザテストに依った
Model Structure• 低レベル特徴ネットワーク• 中レベル特徴ネットワーク• 大域特徴ネットワーク• 色付けネットワークで構成される。白黒画像を入力→ 1/2 サイズの彩度画像を出力彩度画像を 2 倍にスケーリングし,入力画像と統合してカラー画像を生成する。
Low-Level Features Network ( FCN)
・ Max pooling の代わりにストライドを広げた Conv. Layer を使用・ 1x1 padding でサイズを維持・活性化関数は Sigmoid
224x224
Colorization Network• CIE L*a*b* 色空間(明度 * 補色 * 補色)• a*, b* は [0,1] に正規化• アウトプットを x 2にアップサンプルし、 MSE を用いて Back prop.
Classification network• 画像のグローバルな情報を学習しないため明らかな間違えが起きる。これを防ぐためにコンテクストを判定させる。
N =205
512
相対的な重み1/300 for training
Frobenius norm
誤差関数:
Learning• Places Scene Dataset[Zhou et al. 2014] を 244x244 に前処理• 状況のクラスは 205 個• 256x256 にリサイズし、ランダムにクロッピングと左右反転• ネットワーク全体で Batch normalization• ADADELTA で最適化• 128batch for 200,000 iter.
Style Transfer
・ Global feature への入力元画像を変えることでStyle transfer を実現。・入力にはグレースケール画像のみを使用してもStyle transfer が出来ている。
Dawn Dusk
Spring Fall Fall
Daytime
Color Space Selection
RGB と YUV と L*a*b* 色空間の 3 つを試した
上記画像ではどれもかなり似ているがより難しいタスクにおいてはL*a*b* 色空間が最もそれらしかった。
LImitations・当然学習に使われていないタイプの画像には対応できない・ Style Tranfer は類似の Semantic Level のものでないと良い結果は出ない。・そもそも色付は本質的に曖昧な問題( Global feature を設定する以外ユーザは操作出来ない)
このようなものは白黒画像だけからでは人間もわからない