62
東京大学 大学院情報理工学系研究科 創造情報学専攻 講師 中山 英樹

東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

東京大学 大学院情報理工学系研究科

創造情報学専攻 講師

中山 英樹

Page 2: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

2

多様なマルチメディアセンサデータを柔軟に理解・活用する知能システム

実世界 Web

ライフログインタフェース

詳細画像識別

マシンパーセプション

深層学習表現学習

マルチモーダル転移学習

大規模画像認識・検索

多様なマルチメディア動画像、自然言語、音楽音声、…

マルチメディアマイニング

画像知識獲得

機械学習データマイニング

Page 3: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

3

Page 4: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

1. 畳み込みニューラルネットワークの識別的初期化

2. マルチモーダル動画像認識

3. 言語とビジョン

4

Page 5: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

制約をおかない実世界環境の画像を言語で記述◦ 任意の物体やシーン、形容詞、印象語

◦ 2000年代以降急速に発展(コンピュータビジョンの人気分野)

◦ 幅広い応用先

デジタルカメラ、ウェアラブルデバイス、画像検索、ロボット、…

Page 6: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

Categorization (カテゴリ識別)◦ 映ってる物体の名称を答える

◦ 物体の位置を答える必要はない

Detection (物体検出)◦ 矩形で物体の位置を切り出す

Semantic Segmentation◦ ピクセルレベルで物体領域を認識

6

horsehuman

horse

human

horse

human

Page 7: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

局所領域(受容野)の畳み込みとプーリングを繰り返す多層ネットワーク◦ 段階的に解像度を落としながら、局所的な相関パターンを抽出

◦ 要するに、さまざまな解像度でのパターンの共起をみている

◦ 誤差逆伝播法による全体最適化

7

Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, 1998.

最終的に、識別したいクラス数と同数のニューロンへ

Page 8: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

0

5

10

15

20

25

30

2010 2011 2012 2013 2014 2015

(Baidu)

Human 2015

(MS)

2015

(Google)

2015

(MS)

エラー率が 16% (2012) → 3.57% (2015)

8

Ioffe et al., “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, arXiv, 2015.

He et al., “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”, arXiv, 2015.

Cla

ssif

icati

on e

rror

(%)

28%26%

16%

6.6%

12%

5.98%5.1% 4.94% 4.82%

3.57%

Page 9: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

2012年以降も劇的な向上が続いている

9

2012 AlexNet

(8層)

2014 VGG

(19層)

2014 GoogLeNet

(22層)

2015 MSRA

(152層)

Page 10: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

できるだけ少ないパラメータで深い非線形性を与える◦ 一つのレイヤ内(線形変換)の

パラメータを増やすのは効率が悪い

例)畳み込み層◦ 7 x 7 の畳み込みは、3 x 3の畳み込み層を3つ積めば意味的に等価

10

活性化関数

(非線形)

畳み込み

(線形)

プーリング

7×7 = 49 3×(3×3) = 27

より少ないパラメータで、より深い非線形性!

He and Sun, “Convolutional Neural Networks at Constrained Time Cost“, in Proc. CVPR, 2015.

Simonyan and Zisserman, “Very deep convolutional networks for large-scale image recognition”, In Proc. ICLR, 2015.

Page 11: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

Inception アーキテクチャ (GoogLeNet)◦ 複数の畳み込みフィルタを並列に用いる

◦ 1x1のフィルタでよりdeepに + 次元削減

11

Szegedy et al., “Going Deeper with Convolutions”, In Proc. CVPR, 2015.

Page 12: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

超多層(50層以上)になると,訓練誤差もテスト誤差も大きくなる= アンダーフィッティング

低層のパラメータがほとんど更新されないので、結局学習が進まない

12

He et al., “Deep Residual Learning for Image Recognition ”, arXiv preprint, 2015.

Page 13: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

13

低層の入力をバイパスする構造を入れる

低層のパラメータの更新速度を速める

ILSVRC’15では152層のネットワークで優勝

He et al., “Deep Residual Learning for Image Recognition ”, arXiv preprint, 2015.

Srivastava et al., “Highway Networks”, ICML 2015 deep learning workshop, 2015.

Page 14: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

有限のデータに対して、いかにして出来るだけ表現能力の高いモデルをフィッティングさせるか

構造的な正則化をうまく入れるのに、今のところ一番成功しているのがディープラーニング◦ 浅い非線形変換を繰り返す → 少ないパラメータでリッチな表現能力

◦ 畳み込みニューラルネットのようなタスクにあったトポロジー

実装を(現実的に)可能にするための工夫も大事◦ ネットワーク初期化、活性化関数、dropout、バッチ正則化、残差学習…

14

Page 15: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

15

教師付データが十分あるか?(少なくとも数万サンプル)

ImageNetに含まれそうなタスクか?

Yes

No

No

Yes

フルスクラッチCNN◦ ランダムにパラメータ初期化

Pre-trained feature (一番簡単)

Fine tuning

? ここをどうする?(実際ここに行きつくことは多い…)

Page 16: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

限られた学習データからいかにして深い構造を得るか◦ ディープラーニングの適用領域を大きく広げる可能性

◦ 一般的な学習アプローチでは困難(極めて不安定)

◦ できるだけ安定・高速に、“そこそこよくて大きい”ネットワークを事前学習したい

解析的(決定的)かつ識別的なlayer-wiseネットワーク構築

16

Page 17: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

ランダム結合により中間層を生成した3層パーセプトロン(の再発見)

◦ カーネル法 (explicit embedding)とも密接に関連

17

http://www.ntu.edu.sg/home/egbhuang/

Random projection

G.-B. Huang et al., “Extreme Learning Machine for Regression and Multiclass Classification,” IEEE Trans. Systems, Man, and Cybernetics, vol. 42, no. 2, 2011, pp. 513–529.

Task-specificanalytical solution

Page 18: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

Explicit feature maps◦ A. Rahimi and B. Recht, “Random features for large-scale kernel machines”, In

Proc. NIPS 2007.

◦ Random Fourier features による近似

Randomized nonlinear component analysis◦ Lopez-Paz et al., ICML’14

◦ Random Fourier featuresを用いた一連の多変量解析手法の拡張

18

Page 19: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

Invariant scattering convolutional networks◦ Bruna and Mallat, IEEE TPAMI’13

◦ Wavelet 変換による畳み込みフィルタの積み上げ

PCANet: A Simple Deep Learning Baseline for Image Classification? ◦ Chan et al., IEEE TIP’15

◦ PCAによる畳み込みフィルタの学習

Deep stacking network◦ Deng et al., ICASSP’13

19

Page 20: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

20

フィッシャー重みマップ(空間構造の制約を

加えた線形判別分析)

識別的解析解を用いたlayer-wiseな

畳み込みニューラルネットワーク[Nakayama, BMVC’13, SSII’14]

全体として微分可能な構造

◦ Fine-tuning も可能(必須ではないが)

先行研究に匹敵する性能

◦ 特に、学習データが少ない場合に

state-of-the-art を達成

Page 21: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

21

PCA (主成分分析)、LDA (線形判別分析)等で畳み込みフィルタを学習しても意外に(?)よい精度がでる

フィッシャー重みマップ (FWM) が最もよい識別性能

Page 22: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

22input

Random projection or k-means filter

ReLU

Convolution with FWM

Average pooling

Convolution with FWM

Convolution with FWM

ReLU

ReLU

ReLU

Average pooling

Average pooling(Global)

Average pooling(Global)

Average pooling(Global)

Output

Output

Output

Logisticregression

Logisticregression

Logisticregression

一層ごとに固有値問題ベースで畳み込み層を構築

各解像度ごとに中間特徴を抽出し、ロジスティック回帰による識別層を設置

ReLUによる活性は重要

Fine-tuning はまだ

Page 23: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

データが少ない場合にも良好な性能を発揮

結果は安定(必ず同じ)

23

62.7

68.8

Classification accuracy (%)(Without data augmentation)

Page 24: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

ランダムに多数のネットワークを生成し、統合◦ 畳み込みに用いる次元圧縮手法 (FWM, PCA, LDA, etc.)

◦ 学習サンプル

◦ 活性化関数

◦ ネットワーク構造

更なる精度向上を確認

Fine-tuningは今後

24

・ ・ ・

Page 25: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

1. 畳み込みニューラルネットワークの識別的初期化

2. マルチモーダル動画像認識

3. 言語とビジョン

25

Page 26: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

静止画に続くフロンティア領域◦ データのボリュームが大きいので大変

大規模な教師付きデータも整備されつつある◦ Sports 1M dataset [Karpathy et al, 2014]

26

Page 27: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

まだ静止画ほどうまくいっているわけではない◦ 既存特徴量と同程度か、少し良いくらい

問題の複雑さに対してデータが足らない?

27

既存特徴量

Page 28: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

28

Ji et al., “3D convolutional neural networks for human action recognition”, TPAMI, 2013.

Page 29: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

29

Karpathy et al., “Large-scale video classification with convolutional neural networks”, In Proc. CVPR, 2014.

Page 30: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

30

情報の統合過程にもdeepnessが大事?

Page 31: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

31

Donahue et al., “Long-term recurrent convolutional networks for visual recognition and description”, In Proc. CVPR, 2015.

Page 32: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

マルチモーダル映像認識

32

Page 33: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

33

モダリティA(RGB画像)

モダリティB(オプティカルフロー)

モダリティC(デプス画像)

Page 34: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

34

Late fusion model Early fusion model

Page 35: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

35

Page 36: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

36

Page 37: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

37

Page 38: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

38

Page 39: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

39

Page 40: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

1. 畳み込みニューラルネットワークの識別的初期化

2. マルチモーダル動画像認識

3. 言語とビジョン

40

Page 41: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

自分の一個前の隠れ状態を再入力するネットワーク

隠れ状態は、入力系列の記憶を全て保持した分散表現となる

理論的には、任意のタイムスケールでの入出力依存関係を表現可能

41

hhW

tx

ty

th 1th

xhW

hyW

thyyt

txhthhht

W

WW

hy

xhh

1

入力

出力

Page 42: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

静的なネットワークとして書ける◦ 普通のパーセプトロンと同様、誤差逆伝播による学習が可能

他の深層モデル同様、誤差消失により実際には遠い依存関係の学習が困難であったが、LSTM [Hochreiter+, 1997] により大幅な進展

42

1Th Th0h1h

0x1x 1Tx Tx

0y 1y1Ty Ty

・・・hhW

xhW

hyW

hhW

xhW

hyW

hhW

xhW

hyWhyW

xhW

hhW

Page 43: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

CNN (画像側)の出力をRNN(言語側)へ接続◦ RNN側の誤差をCNN側までフィードバック

43

O. Vinyals et al., “Show and Tell: A Neural Image Caption Generator”, In Proc. CVPR, 2015.

Page 44: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

LSTMを用いた質問入力と回答の対応関係学習

44

H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering”, 2015.

Page 45: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

NNを使った機械翻訳モデルの応用

質問文に加え、CNN対象画像の特徴抽出を行い、回答文生成のRNNへ入力

45

H. Gao et al., “Are You Talking to a Machine? Dataset and Methods for Multilingual Image Question Answering”, 2015.

Page 46: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

46

共通の上位レイヤ(潜在空間)へマッピング [Kiros et al., 2014]

◦ 異なるモダリティ間での“演算”が可能

R. Kiros et al., “Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models”, TACL, 2015.

Page 47: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

47

[Kiros et al., 2014]

Page 48: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

48

[Kiros et al., 2014]

Page 49: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

画像と言語のクロスモーダル分散表現学習

自然言語処理のタスクを,画像とコラボさせることで質的に変えることはできるか?

紹介◦ Image-mediated learning for zero-shot cross-lingual document retrieval

[Funaki & Nakayama, EMNLP’15]

49

Page 50: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

言語横断文書検索◦ Cross-lingual Document Retrieval(CLDR)

◦ ある言語の文書に対して対応(関連)する文書を探し出す手法

自然言語処理の定番タスクの一つ

文書集合(言語1) 文書集合(言語2)

Page 51: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

English Japanese

Training

English Japanese

二言語で対になった訓練データ(関連する内容についてのペア) テスト(検索)

関連性学習(共通する潜在表現の導出)

Page 52: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

対訳コーパス(訓練データセット)の構築自体が困難◦ Web上のドキュメントのほとんどは単一言語に閉じている

◦ Wikipedia、ニュースサイト、特許文書等の限られたドメインでしか容易にデータは得られない

◦ マイナーな言語だと更に困難

52

Page 53: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

画像を媒介させることで2言語間の関係を得る◦ 各ドキュメントはそれぞれの言語に閉じているが、他のマルチメディア

情報で修飾されていることを期待

Page 54: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

English Image Japanese

Training

English Japanese

二言語で対になった訓練データ(関連する内容についてのペア) テスト(検索)

関連性学習(共通する潜在的表現の導出)

Page 55: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

◦ 深層正準相関分析を用いた間接的な関連性学習

55Wang et al., “Stochastic Optimization for Deep CCA via Nonlinear Orthogonal Iterations”, arXiv:1510.02054, 2015.

言語1(View 2)

画像(View 1)

言語2(View 3)

3

V W

今のところここだけ(end-to-endにはなっていない…)

Page 56: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

英語文-日本語文-画像 からなるデータセットを作成

画像1000枚に対して英語と日本語それぞれ5つの文章

Page 57: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

学習データ◦ [Train-E/I]: 英語テキストと画像の組

◦ [Train-I/J]: 画像と日本語テキストの組

◦ [Train-E/J]: 英語テキストと日本語テキストの組

テストデータ◦ [Test-E/J]: 英語テキストと日本語テキストの組

English Image Japanese

[Train-E/I] E1 I1

[Train-I/J] I2 J2

[Train-E/J] E3 J3

[Test-E/J] E4 J4

重複なし

基本的には存在しない前提

Page 58: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

一般化(マルチモーダル)正準相関分析を利用

潜在空間上で、日本語をクエリとして英語文を検索する

画像特徴:pretrained CNN, テキスト特徴:BoW

Page 59: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

3つのモダリティ (E, J, I) 間の相関(の和)が大きくなるように次元圧縮を行う線形射影を学習

1tosubject

maxarg,,

III

T

IJJJ

T

JEEE

T

E

IJI

T

JIEI

T

E

IJE

hhhhhh

hhhhhhh

J

I

E

JJ

II

EE

J

I

E

JI

IJIE

EI

h

h

h

00

00

00

h

h

h

00

0

00

2

1

Page 60: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

媒介データを増加させると精度が向上する◦ チャンスレートは1%

[Train-E/I] [Train-I/J] [Train-E/J] [Test-E/J]

[100,200,300,400]

[100,200,300,400]

0-100でRandomSampling

100

English Image Japanese

[Train-E/I] E1 I1 -

[Train-I/J] - I2 J2

[Train-E/J] E3 - J3

[Test-E/J] E4 - J4

加えてデータはすべてランダムで取った50回の実験の平均を取ってグラフにした

Zero-shot

(本命)

Page 61: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

画像特徴が強力になるほど性能が上がる

2014年以降の深層学習ベースの特徴量は特に強力

Page 62: 東京大学大学院情報理工学系研究科 創造情報学専攻講師 中山 …randomfield.cs.waseda.ac.jp/files/nakayama.pdf局所領域(受容野)の畳み込みとプーリングを繰り返す多層

有限のデータに対して、いかにして出来るだけ表現能力の高いモデルをフィッティングさせるか

研究紹介◦ ネットワーク初期化の工夫(フィッシャー重みマップ)

◦ 構造の工夫(マルチモーダル情報のslow-fusion)

◦ 欠損データを有効活用する工夫(GCCAによる画像媒介学習)

重要な技術は、タスクの規模とデータの量で変わる◦ 変わらない本質は何かを見極めることが重要

62