東京大学大学院情報理工学系研究科創造情報学専攻講師中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

東京大学大学院情報理工学系研究科

創造情報学専攻講師

中山英樹

2

多様なマルチメディアセンサデータを柔軟に理解・活用する知能システム

実世界 Web

ライフログインタフェース

詳細画像識別

マシンパーセプション

深層学習表現学習

マルチモーダル転移学習

大規模画像認識・検索

多様なマルチメディア動画像、自然言語、音楽音声、…

マルチメディアマイニング

画像知識獲得

機械学習データマイニング

3

1. 畳み込みニューラルネットワークの識別的初期化

2. マルチモーダル動画像認識

3. 言語とビジョン

4

制約をおかない実世界環境の画像を言語で記述◦ 任意の物体やシーン、形容詞、印象語

◦ 2000年代以降急速に発展（コンピュータビジョンの人気分野）

◦ 幅広い応用先

デジタルカメラ、ウェアラブルデバイス、画像検索、ロボット、…

Categorization (カテゴリ識別)◦ 映ってる物体の名称を答える

◦ 物体の位置を答える必要はない

Detection (物体検出)◦ 矩形で物体の位置を切り出す

Semantic Segmentation◦ ピクセルレベルで物体領域を認識

6

horsehuman

horse

human

horse

human

易

難

局所領域(受容野)の畳み込みとプーリングを繰り返す多層ネットワーク◦ 段階的に解像度を落としながら、局所的な相関パターンを抽出

◦ 要するに、さまざまな解像度でのパターンの共起をみている

◦ 誤差逆伝播法による全体最適化

7

Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998.

最終的に、識別したいクラス数と同数のニューロンへ

0

5

10

15

20

25

30

2010 2011 2012 2013 2014 2015

(Baidu)

Human 2015

(MS)

2015

(Google)

2015

(MS)

エラー率が 16% (2012) → 3.57% (2015)

8

Ioffe et al., “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, arXiv, 2015.

He et al., “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”, arXiv, 2015.

Cla

ssif

icati

on e

rror

(%)

28%26%

16%

6.6%

12%

5.98%5.1% 4.94% 4.82%

3.57%

2012年以降も劇的な向上が続いている

9

2012 AlexNet

(8層)

2014 VGG

(19層)

2014 GoogLeNet

(22層)

2015 MSRA

(152層)

できるだけ少ないパラメータで深い非線形性を与える◦ 一つのレイヤ内(線形変換)の

パラメータを増やすのは効率が悪い

例）畳み込み層◦ 7 x 7 の畳み込みは、3 x 3の畳み込み層を3つ積めば意味的に等価

10

≒

活性化関数

（非線形）

畳み込み

（線形）

プーリング

7×7 = 49 3×(3×3) = 27

より少ないパラメータで、より深い非線形性！

He and Sun, “Convolutional Neural Networks at Constrained Time Cost“, in Proc. CVPR, 2015.

Simonyan and Zisserman, “Very deep convolutional networks for large-scale image recognition”, In Proc. ICLR, 2015.

Inception アーキテクチャ (GoogLeNet)◦ 複数の畳み込みフィルタを並列に用いる

◦ 1x1のフィルタでよりdeepに + 次元削減

11

Szegedy et al., “Going Deeper with Convolutions”, In Proc. CVPR, 2015.

超多層(50層以上)になると，訓練誤差もテスト誤差も大きくなる= アンダーフィッティング

低層のパラメータがほとんど更新されないので、結局学習が進まない

12

He et al., “Deep Residual Learning for Image Recognition ”, arXiv preprint, 2015.

13

低層の入力をバイパスする構造を入れる

低層のパラメータの更新速度を速める

ILSVRC’15では152層のネットワークで優勝

He et al., “Deep Residual Learning for Image Recognition ”, arXiv preprint, 2015.

Srivastava et al., “Highway Networks”, ICML 2015 deep learning workshop, 2015.

有限のデータに対して、いかにして出来るだけ表現能力の高いモデルをフィッティングさせるか

構造的な正則化をうまく入れるのに、今のところ一番成功しているのがディープラーニング◦ 浅い非線形変換を繰り返す → 少ないパラメータでリッチな表現能力

◦ 畳み込みニューラルネットのようなタスクにあったトポロジー

実装を（現実的に）可能にするための工夫も大事◦ ネットワーク初期化、活性化関数、dropout、バッチ正則化、残差学習…

14

15

教師付データが十分あるか？（少なくとも数万サンプル）

ImageNetに含まれそうなタスクか？

Yes

No

No

Yes

フルスクラッチCNN◦ ランダムにパラメータ初期化

Pre-trained feature (一番簡単)

Fine tuning

? ここをどうする？（実際ここに行きつくことは多い…）

限られた学習データからいかにして深い構造を得るか◦ ディープラーニングの適用領域を大きく広げる可能性

◦ 一般的な学習アプローチでは困難（極めて不安定）

◦ できるだけ安定・高速に、“そこそこよくて大きい”ネットワークを事前学習したい

解析的（決定的）かつ識別的なlayer-wiseネットワーク構築

16

ランダム結合により中間層を生成した３層パーセプトロン（の再発見）

◦ カーネル法 (explicit embedding)とも密接に関連

17

http://www.ntu.edu.sg/home/egbhuang/

Random projection

G.-B. Huang et al., “Extreme Learning Machine for Regression and Multiclass Classification,” IEEE Trans. Systems, Man, and Cybernetics, vol. 42, no. 2, 2011, pp. 513–529.

Task-specificanalytical solution

Explicit feature maps◦ A. Rahimi and B. Recht, “Random features for large-scale kernel machines”, In

Proc. NIPS 2007.

◦ Random Fourier features による近似

Randomized nonlinear component analysis◦ Lopez-Paz et al., ICML’14

◦ Random Fourier featuresを用いた一連の多変量解析手法の拡張

18

Invariant scattering convolutional networks◦ Bruna and Mallat, IEEE TPAMI’13

◦ Wavelet 変換による畳み込みフィルタの積み上げ

PCANet: A Simple Deep Learning Baseline for Image Classification? ◦ Chan et al., IEEE TIP’15

◦ PCAによる畳み込みフィルタの学習

Deep stacking network◦ Deng et al., ICASSP’13

19

20

フィッシャー重みマップ（空間構造の制約を

加えた線形判別分析）

識別的解析解を用いたlayer-wiseな

畳み込みニューラルネットワーク[Nakayama, BMVC’13, SSII’14]

全体として微分可能な構造

◦ Fine-tuning も可能（必須ではないが）

先行研究に匹敵する性能

◦ 特に、学習データが少ない場合に

state-of-the-art を達成

21

PCA (主成分分析)、LDA (線形判別分析)等で畳み込みフィルタを学習しても意外に(?)よい精度がでる

フィッシャー重みマップ (FWM) が最もよい識別性能

22input

Random projection or k-means filter

ReLU

Convolution with FWM

Average pooling



ReLU

ReLU

ReLU

Average pooling

Average pooling(Global)



Output

Output

Output

Logisticregression

Logisticregression

Logisticregression

一層ごとに固有値問題ベースで畳み込み層を構築

各解像度ごとに中間特徴を抽出し、ロジスティック回帰による識別層を設置

ReLUによる活性は重要

Fine-tuning はまだ

データが少ない場合にも良好な性能を発揮

結果は安定（必ず同じ）

23

62.7

68.8

Classification accuracy (%)(Without data augmentation)

ランダムに多数のネットワークを生成し、統合◦ 畳み込みに用いる次元圧縮手法 (FWM, PCA, LDA, etc.)

◦ 学習サンプル

◦ 活性化関数

◦ ネットワーク構造

更なる精度向上を確認

Fine-tuningは今後

24

・・・

＋




25

静止画に続くフロンティア領域◦ データのボリュームが大きいので大変

大規模な教師付きデータも整備されつつある◦ Sports 1M dataset [Karpathy et al, 2014]

26

まだ静止画ほどうまくいっているわけではない◦ 既存特徴量と同程度か、少し良いくらい

問題の複雑さに対してデータが足らない？

27

既存特徴量

28

Ji et al., “3D convolutional neural networks for human action recognition”, TPAMI, 2013.

29

Karpathy et al., “Large-scale video classification with convolutional neural networks”, In Proc. CVPR, 2014.

30

情報の統合過程にもdeepnessが大事？

31

Donahue et al., “Long-term recurrent convolutional networks for visual recognition and description”, In Proc. CVPR, 2015.

マルチモーダル映像認識

32

33

モダリティA（RGB画像）

モダリティB（オプティカルフロー）

モダリティC（デプス画像）

34

Late fusion model Early fusion model

35

36

37

38

39




40

自分の一個前の隠れ状態を再入力するネットワーク

隠れ状態は、入力系列の記憶を全て保持した分散表現となる

理論的には、任意のタイムスケールでの入出力依存関係を表現可能

41

hhW

tx

ty

th 1th

xhW

hyW

thyyt

txhthhht

W

WW

hy

xhh

1

入力

出力

静的なネットワークとして書ける◦ 普通のパーセプトロンと同様、誤差逆伝播による学習が可能

他の深層モデル同様、誤差消失により実際には遠い依存関係の学習が困難であったが、LSTM [Hochreiter+, 1997] により大幅な進展

42

1Th Th0h1h

0x1x 1Tx Tx

0y 1y1Ty Ty

・・・hhW

xhW

hyW

hhW

xhW

hyW

hhW

xhW

hyWhyW

xhW

hhW

CNN (画像側)の出力をRNN(言語側)へ接続◦ RNN側の誤差をCNN側までフィードバック

43

O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, In Proc. CVPR, 2015.

LSTMを用いた質問入力と回答の対応関係学習

44

H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering”, 2015.

NNを使った機械翻訳モデルの応用

質問文に加え、CNN対象画像の特徴抽出を行い、回答文生成のRNNへ入力

45

H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering”, 2015.

46

共通の上位レイヤ(潜在空間)へマッピング [Kiros et al., 2014]

◦ 異なるモダリティ間での“演算”が可能

R. Kiros et al., “Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models”, TACL, 2015.

47

[Kiros et al., 2014]

48

[Kiros et al., 2014]

画像と言語のクロスモーダル分散表現学習

自然言語処理のタスクを，画像とコラボさせることで質的に変えることはできるか？

紹介◦ Image-mediated learning for zero-shot cross-lingual document retrieval

[Funaki & Nakayama, EMNLP’15]

49

言語横断文書検索◦ Cross-lingual Document Retrieval(CLDR)

◦ ある言語の文書に対して対応（関連）する文書を探し出す手法

自然言語処理の定番タスクの一つ

文書集合（言語1）文書集合（言語2）

English Japanese

Training

English Japanese

二言語で対になった訓練データ（関連する内容についてのペア）テスト（検索）

関連性学習（共通する潜在表現の導出）

対訳コーパス（訓練データセット）の構築自体が困難◦ Web上のドキュメントのほとんどは単一言語に閉じている

◦ Wikipedia、ニュースサイト、特許文書等の限られたドメインでしか容易にデータは得られない

◦ マイナーな言語だと更に困難

52

画像を媒介させることで2言語間の関係を得る◦ 各ドキュメントはそれぞれの言語に閉じているが、他のマルチメディア

情報で修飾されていることを期待

English Image Japanese

Training

English Japanese

二言語で対になった訓練データ（関連する内容についてのペア）テスト（検索）

関連性学習（共通する潜在的表現の導出）

◦ 深層正準相関分析を用いた間接的な関連性学習

55Wang et al., “Stochastic Optimization for Deep CCA via Nonlinear Orthogonal Iterations”, arXiv:1510.02054, 2015.

言語1(View 2)

画像(View 1)

言語2(View 3)

3

V W

今のところここだけ（end-to-endにはなっていない…）

英語文-日本語文-画像からなるデータセットを作成

画像1000枚に対して英語と日本語それぞれ5つの文章

学習データ◦ [Train-E/I]: 英語テキストと画像の組

◦ [Train-I/J]: 画像と日本語テキストの組

◦ [Train-E/J]: 英語テキストと日本語テキストの組

テストデータ◦ [Test-E/J]: 英語テキストと日本語テキストの組


[Train-E/I] E1 I1

[Train-I/J] I2 J2

[Train-E/J] E3 J3

[Test-E/J] E4 J4

重複なし

基本的には存在しない前提

一般化(マルチモーダル)正準相関分析を利用

潜在空間上で、日本語をクエリとして英語文を検索する

画像特徴：pretrained CNN, テキスト特徴：BoW

３つのモダリティ (E, J, I) 間の相関(の和)が大きくなるように次元圧縮を行う線形射影を学習

1tosubject

maxarg,,

III

T

IJJJ

T

JEEE

T

E

IJI

T

JIEI

T

E

IJE

hhhhhh

hhhhhhh

J

I

E

JJ

II

EE

J

I

E

JI

IJIE

EI

h

h

h

00

00

00

h

h

h

00

0

00

2

1

媒介データを増加させると精度が向上する◦ チャンスレートは1%

[Train-E/I] [Train-I/J] [Train-E/J] [Test-E/J]

[100,200,300,400]

[100,200,300,400]

0-100でRandomSampling

100


[Train-E/I] E1 I1 -

[Train-I/J] - I2 J2

[Train-E/J] E3 - J3

[Test-E/J] E4 - J4

加えてデータはすべてランダムで取った50回の実験の平均を取ってグラフにした

Zero-shot

（本命）

画像特徴が強力になるほど性能が上がる

2014年以降の深層学習ベースの特徴量は特に強力

有限のデータに対して、いかにして出来るだけ表現能力の高いモデルをフィッティングさせるか

研究紹介◦ ネットワーク初期化の工夫（フィッシャー重みマップ）

◦ 構造の工夫（マルチモーダル情報のslow-fusion）

◦ 欠損データを有効活用する工夫（GCCAによる画像媒介学習）

重要な技術は、タスクの規模とデータの量で変わる◦ 変わらない本質は何かを見極めることが重要

62

Documents

東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

東京大学大学院情報理工学系研究科創造情報学専攻講師中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層