25
超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正 Focus Correction by Convolutional Neural Network for Ultra High Definition Television 松永 力 Chikara Matsunaga 株式会社朋栄 佐倉研究開発センター Sakura R&D Center, FOR-A Co., Ltd. E-mail: [email protected] SSII2016 IS2-01: 201669日(木)

超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

Embed Size (px)

Citation preview

Page 1: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

超高精細映像のための畳み込みニューラルネットワークによるフォーカス補正

Focus Correction by Convolutional Neural Network for Ultra High Definition Television

松永 力Chikara Matsunaga

株式会社朋栄 佐倉研究開発センターSakura R&D Center, FOR-A Co., Ltd.

E-mail: [email protected]

SSII2016 IS2-01:

2016年6月9日(木)

Page 2: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

4K・8K推進のためのロードマップ4K・8K推進のためのロードマップ

総務省「4K・8Kロードマップに関するフォローアップ会合(第6回会合)配布資料」,平成27年7月.

http://www.soumu.go.jp/main_sosiki/kenkyu/4k8kroadmap/02ryutsu11_03000046.html

2016年6月9日(木)

4K/8K超高精細映像の撮影には,フォーカスの調整が厳格に求められるが,映像の高解像度化により,フォーカス調整は格段に難しくなっている.撮影後にフォーカスずれが確認されることも少なくない.

Page 3: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

研究の概要研究の概要

● 4K/8K(スーパーハイビジョン)超高精細映像におけるフォーカスずれ

を補正することを目的として,畳み込みニューラルネットワークによる デブラー処理を行う.● 畳み込みニューラルネットワークによるデブラー処理の復元性能, ノイズ耐性を評価する.さらに,1パスビデオ超像における非線形

エンハンサ処理,真の画像との二乗誤差を最小化するウィーナーフィルタ による結果と比較する.

2016年6月9日(木)

Page 4: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

INPUT

DoG

NL[DoG]

Clip[I(x)]

Min/MaxSearch

OUTPUTMin/Max

松永 力, 時間空間方向性補間とマルチスケール非線形エンハンサによる1パスビデオ超解像, 第20回画像センシングシンポジウム(SSII2014)講演論文集, 横浜(パシフィコ横浜), 2014年6月.

1パスビデオ超解像における非線形エンハンサ1パスビデオ超解像における非線形エンハンサ

2016年6月9日(木)

Page 5: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

1パスビデオ超解像における非線形エンハンサ1パスビデオ超解像における非線形エンハンサ

2016年6月9日(木)

とすると,画像 の DoGフィルタは,

ここで, は符号関数であり, は,2以上の定数である.

エッジの検出にはガウシアン差分(Difference of Gaussian, DoG)フィルタを用いる.

DoGフィルタにより検出されたエッジ成分をレベルに関する非線形操作により高周波成分を拡張して,原画像に加える.レベルに関する非線形操作としては,

である(ただし,1次元の場合).ここで, は畳み込み演算であり, である.

Page 6: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

Σ

学習用画像における復元画像(デブラー画像)と出力期待画像(真の画像)との間の差分二乗和が最小になるように,パラメータを推定(学習)する.

畳み込みニューラルネットワーク畳み込みニューラルネットワーク

2016年6月9日(木)

Page 7: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

赤枠で囲った6枚を学習用画像,残りの18枚を評価用画像として用いた.Kodak Lossless True Color Image Suite, http://r0k.us/graphics/kodak/

学習用画像/評価用画像学習用画像/評価用画像

2016年6月9日(木)

Page 8: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

ガウシアン平滑化

真の画像(出力期待画像) ガウシアン平滑化画像(入力画像)

学習用画像/評価用画像学習用画像/評価用画像

2016年6月9日(木)

Page 9: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

学習アルゴリズム(1)学習アルゴリズム(1)

2016年6月9日(木)

値を定めるべきパラメータすべてに通し番号を付けて 次元ベクトル を次のように定義する.

ある初期値 を定め,次の確率的勾配降下法によって を定める.

ここに は微小な学習係数である.

Page 10: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

学習アルゴリズム(2)学習アルゴリズム(2)

2016年6月9日(木)

パラメータ更新を加速させるためには,次のようなモーメンタム法を用いるとよい.

モーメンタム係数 は, に設定する.

→ パラメータに対する巡回型フィルタと見なすことができる.

Page 11: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

学習アルゴリズム(3)学習アルゴリズム(3)

2016年6月9日(木)

学習係数 を反復回数により指数関数的に減少させるとよい.反復回数1万回以上の場合,初期学習係数 の1/10を反復回数により指数関数的に減少させて,反復回数10万回で とするためには,

として,時定数 とすればよい.

Page 12: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

ここで, は真の画像, はガウシアン平滑化入力画像, はデブラー復元画像である.ISNRは,復元処理によるSN比の改善度を測るものである.

(a) 学習曲線(右上の全体の様子を拡大して表示). (b) 反復回数に対する学習用画像(training),および評価用画像(test)の復元結果の平均ISNR[dB].いずれも横軸は反復回数であり,対数目盛である.エラーバーは標準偏差である.反復回数98,500回で評価用画像の復元結果の平均ISNRが最大であった.

(a) (b)

画像シミュレーション結果画像シミュレーション結果

2016年6月9日(木)

Page 13: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

左からガウシアン平滑化入力画像(σ = 1.0),デブラー復元画像(ISNR = 5.33 [dB]),および真の画像(出力期待画像).それらのFFT処理2値化画像(しきい値100).

画像シミュレーション結果画像シミュレーション結果

2016年6月9日(木)

Page 14: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

画像シミュレーション結果画像シミュレーション結果

2016年6月9日(木)

左からガウシアン平滑化入力画像(σ = 1.0),デブラー復元画像(ISNR = 5.54 [dB]),および真の画像(出力期待画像).それらのFFT処理2値化画像(しきい値100).

Page 15: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

(a) 特徴マップのひとつの入力畳み込み重みパラメータの画像表示, (b) 2次元周波数特性の3次元プロット.

(a) (b)

画像シミュレーション結果画像シミュレーション結果

2016年6月9日(木)

Page 16: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

(a) (b)

(c)

ガウシアン平滑化(σ = 0.8〜1.2)に対する評価用画像18枚の復元結果の平均ISNR[dB].画素値に加えた正規ノイズレベルσNが0.5, 1.0の結果も示す.エラーバーは標準偏差である.(a) 畳み込みニューラルネットワーク, (b) 非線形エンハンサ, (c) ウィーナーフィルタによる結果である.

画像シミュレーション結果画像シミュレーション結果

2016年6月9日(木)

Page 17: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

復元方法 σN = 0.0 σN = 0.5 σN = 1.0

CNN 6.15 (±0.66) 3.65 (±1.28) 0.75 (±1.78)

NLEnh 3.29 (±0.33) 2.60 (±0.48) 1.08 (±1.01)

Wiener 6.59 (±0.95) 2.53 (±1.76) −1.18 (±2.09)

ガウシアン平滑化画像(σ = 1.0)に加えた正規ノイズレベルσN に対する復元結果.

評価用画像18枚の平均ISNR[dB](括弧内は標準偏差).畳み込みニューラルネットワーク(CNN)による復元結果とともに,非線形エンハンサ(NLEnh),ウィーナーフィルタ(Wiener)による結果も示す.

画像シミュレーション結果画像シミュレーション結果

2016年6月9日(木)

Page 18: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

原画像 ブラーフィルタ + 出力画像

ノイズ

となるような, を求めるフィルタ.周波数領域で考えると,

ここで, は の複素共役, はそれぞれノイズ成分,真の画像のパワースペクトル密度である.

ウィーナーフィルタウィーナーフィルタ

2016年6月9日(木)

N. Wiener, Extrapolation, interpolation, and smoothing of stationary time series: with engineering applications, John Wiley & Sons. Inc., New York, 1949.

Page 19: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

ReLU活性化関数と半波整流正弦波ReLU活性化関数と半波整流正弦波

2016年6月9日(木)

# ReLU活性化関数は“半波整流器(ダイオード)”と見なせる.

Page 20: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

ReLU活性化関数結果のフーリエ級数展開ReLU活性化関数結果のフーリエ級数展開

2016年6月9日(木)

# 偶数次の高調波成分が発生している.

Page 21: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

畳み込みニューラルネットワークによるデブラー処理とは?畳み込みニューラルネットワークによるデブラー処理とは?

2016年6月9日(木)

入力画像を畳み込みフィルタによりエッジ強調したものを,非線形の活性化関数により高周波成分を復元する.→ (学習用画像における最小二乗の意味で) 最適非線形エンハンサ

Page 22: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

INPUT

DoG

NL[DoG]

Clip[I(x)]

Min/MaxSearch

OUTPUTMin/Max

松永 力, 時間空間方向性補間とマルチスケール非線形エンハンサによる1パスビデオ超解像, 第20回画像センシングシンポジウム(SSII2014)講演論文集, 横浜(パシフィコ横浜), 2014年6月.

1パスビデオ超解像における非線形エンハンサ1パスビデオ超解像における非線形エンハンサ

2016年6月9日(木)

Page 23: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

2016年6月9日(木)

符号付き冪乗関数(1)符号付き冪乗関数(1)

# 3次高調波成分が発生している.

例えば, とすると,

3倍角の公式より, だから,

Page 24: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

2016年6月9日(木)

符号付き冪乗関数(2)符号付き冪乗関数(2)

例えば, とすると,

Page 25: 超高精細映像のための畳み込み ニューラルネットワークによるフォーカス補正スライド

まとめと今後の課題まとめと今後の課題

2016年6月9日(木)

● 4K/8K超高精細映像におけるフォーカスずれを補正することを

目的として,畳込みニューラルネットワークによるデブラー処理を 行った.● 畳み込みニューラルネットワークによるデブラー処理の復元性能, ノイズ耐性を評価した.さらに,1パスビデオ超解像における非線形

エンハンサ処理,最小二乗の意味において最適なウィーナーフィルタ による結果と比較した.● ネットワーク構成の最適化,深層化による復元性能,ノイズ耐性の向上● 学習速度の向上のためのGPU利用

● GPU,FPGA実装による4K/8K映像のリアルタイム処理