Fujitsu Standard Tool...2017/10/26 · 自然言語理解感性メディア処理社会受容性サイバー攻撃対策知識ベース自動車クラウド運用管理知識ネットワーク

2017年10月26日株式会社富士通研究所コンピュータシステム研究所田原司睦

富士通のディープラーニング高速化技術のご紹介

Copyright 2017 FUJITSU LABORATORIES LTD.0

SS研科学技術計算分科会2017年度講演

アウトライン

はじめに

ディープラーニングとは

富士通のAI への取り組み

ディープラーニングの高速化

① Distributed caffe (画像認識)

② 分散並列データ供給技術

③ Deep Tensor (グラフデータ対応)

④ ディープラーニング専用プロセッサ DLU

次世代アーキテクチャ

⑤ 最適化問題専用プロセッサ Digital Annealer

まとめ




はじめに



Copyright 2017 FUJITSU LABORATORIES LTD.

画像データ音声データ文章・文書

学習の過程で自動的にデータの特徴をとらえる、分類用機械学習

ニューラルネットワークを多層にした物

従来の機械学習に比べ、学習処理に必要な計算量が大幅に増加

特徴抽出

分類器

入力・前処理

分類結果

生データ

機械学習

手作業

従来の機械学習

深層学習

機械学習

3

data 差分

パラメタw

data

ニューロン層1 勾配情報Δw

パラメタw 勾配情報Δw

data 差分


label (正解)

ニューロン層2

ニューロン層3

認識結果誤差E

入力層

GPUを用いたディープラーニング例


各ニューロンの重みパラメタw

多数のニューロンからなる層(Layer)

学習時、一度に複数のデータを処理する。このデータ数をミニバッチサイズと呼ぶ

ボトム側

トップ側

4

ニューロン層1

ニューロン層2

ニューロン層3

GPUを用いたディープラーニング例


diff

パラメタw

data

勾配情報Δw


diff


誤差E

入力層

ＧＰＵ

label (正解)

差分

勾配情報Δw

勾配情報Δw

差分

勾配情報Δw

誤差E

Backward

data / labelストレージ

ＣＰＵ

data

data

認識結果

Forward

data

data

認識結果

Update

Forward

Backward

学習係数（学習処理1サイクルでの反映量を決めるハイパーパラメタ）をかける

学習処理サイクル

5



はじめに


語源

名前に込めた想い

：疾風迅雷（すばやくはげしいこと）

：人の判断・行動を“スピーディ”にサポートすることで、企業・社会の変革を “ダイナミック”に実現させる

ジンライ


Zinraiのサポートする領域

幅広い領域の AI サービスをサポート


ロボティクス

ものづくり

感情・感性理解

機械学習

ディープラーニング

データ統合

脳科学

先端医療

自動分析・自動意思決定

予測最適化

Fintech

ネットワーク自動制御

自然言語理解

感性メディア処理

社会受容性

サイバー攻撃対策

知識ベース自動車

クラウド運用管理

知識ネットワーク

リアルタイム分析

ソーシャル数理人の感情・特性ﾓﾃﾞﾙ化

Zinraiプラットフォーム

<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf

計算量の多いディープラーニングもサポート

8

HPC技術をAIに適用

30年に渡るAI研究と、HPCで培った世界最速クラスのディープラーニング技術などの最先端・独自AI技術を結集

ディープラーニングの特徴

• メリット : 適切な特徴量の自動抽出人間を超える認識率を実現

• デメリット : 学習に多大な計算量学習時間の長期化

ディープラーニングアプリの開発


仮説・提案

検証・評価

実装分析

検証・評価時に学習を行う

ディープラーニング利用アプリケーション開発プロセス

適用分野の拡大と精度向上のため、学習に必要な演算量が増加

GTC2017 Keynote より

10

ディープラーニングの検証時間が非常に長く、開発プロセスを回せない

⇒ハードウェア、ソフトウェア両面からの高速化が必要

ディープラーニングアプリ開発の課題


課題

GPU 1台 (20 TFLOPS)で100 ExaFLOPSの処理に58日

富士通の取り組み

…

NIC

CPU

Acc.

メモリ

NIC

CPU

Acc.

メモリ

NIC

CPU

Acc.

メモリ

ストレージ

① Distributed Caffe

③ Deep Tensor

②プリフェッチ技術

④ Deep Learning Unit

⑤ Digital Annealer

分散並列化

アルゴリズム最適化

高速なデータ共有方式

専用ハードウェア


11

① Distributed Caffe (分散並列化)


Distributed Caffe


Caffe : 古参で著名なディープラーニングフレームワーク。オープンソースソフトウェア。ほぼすべてが C++ と CUDA で書かれており高速。主に画像認識用。

GPU は複数利用可能。Berkeley Vision and Learning Center が作成。

富士通が独自に分散並列化

Distributed Caffe : CaffeをMPI で分散並列化したもの。ノード間集約には CPU を使っている。AlexNet (スケーラビリティの悪いニューラルネット)でも、weak scale なら16ノードで15倍以上のスループット。2016年 SWoPPで発表

13

ニューロン層1

ニューロン層2

ニューロン層3

ディープラーニングの分散並列化


diff

パラメタw

data

勾配情報Δw


diff


誤差E

入力層

ＧＰＵ

label (正解)

差分

勾配情報Δw

勾配情報Δw

差分

勾配情報Δw

誤差E

data / labelストレージ

ＣＰＵ

data

data

認識結果

data

data

認識結果

Update

Forward

Backward


14

ニューロン層1

ニューロン層2

ニューロン層3

入力層

ディープラーニングの分散並列化


data 差分

パラメタw

data

勾配情報Δw


data 差分


label (正解)

認識結果誤差E

data / label

ＧＰＵＧＰＵ

ＣＰＵＣＰＵ

勾配情報Δw

勾配情報Δw

勾配情報Δw

ストレージ勾配情報Δw 勾配情報Δw

All-reduce（ノード間通信）

Update

Backward

Forward


All-reduce

15

複数ノードで行う学習処理の課題


All-reduce処理が加わる事でＧＰＵが動作しない時間が発生

集約処理時間を他のGPU処理時間に隠蔽集約処理時間を短縮

基本的なアイディア

ＧＰＵ

ＣＰＵ

Forward Backward

All-reduce

Update

集約処理によるオーバヘッド

時間

「重みパラメタの要素数」が多い場合、増加

「ノード数」増により増加

16

Backward処理時間への隠蔽


All-reduce処理

各層のBackward処理

各層のForward処理

Update処理

ＧＰＵ

ＣＰＵ

隠蔽前集約処理によるオーバヘッド

L2 L3 L2 L1L1 L3

各層のBackward処理が終わる毎に層単位でAll-reduce処理を開始する

方法

ＧＰＵ

ＣＰＵ

L2 L3 L2 L1

L3 L2 L1

隠蔽後

L1 L3

２層目以降のBackward処理とAll-reduce処理を並列に実行することでオーバヘッドを短縮

17

Forward処理時間への隠蔽


ＧＰＵ

L2

層単位でUpdate処理

L2 L1

L1

L1L3

L3

L2

All-reduce処理



Update処理

•集約処理を複数スレッドで実行• Update処理を分割• Forward処理の開始を、層毎に判定

方法

すべての層のAll-reduce処理の完了を待たずに、次のForward処理を開始

ＣＰＵ

18

細分化による並列化


All-reduce処理



• GPUとのデータ転送、ノード間転送、Reduce演算等について、データを細分化して実行

方法

細分化前

ＧＰＵ

ＣＰＵ

Update処理

ＧＰＵ

ＣＰＵ

細分化後

All-reduceにかかる時間を短縮

19

評価環境


評価環境

九州大学情報基盤研究開発センター高性能演算サーバ

東京工業大学学術国際情報センター TSUBAME2.5

東京工業大学 TSUBAME2.5• 計算ノード: 約1400台内256台• CPU: 12 core, 54 GB• GPU: Tesla K20X x3• CUDA7.5, cuDNN v4.0• OpenMPI 1.6.3• InfiniBand QDR 4レーン x2（4.0 GB/s x 2）

九州大学高性能演算サーバ• 計算ノード: 1476台内16台• CPU: 16 core, 128 GB• GPU: Tesla K20m x1• CUDA7.5, cuDNN v4.0• Intel MPI 4.0.3• InfiniBand FDR 4レーン x1（6.8 GB/s）

Deep Neural Network

AlexNetを使用

•層構成

•畳み込み層 5層

•全結合層 3層

•重みパラメタの総要素数：約6100万

学習用データ

ILSVRC2012画像認識データセット

•学習用約128万枚、検証用 5万枚

20

処理速度のスケーラビリティ

30.3

60.4

119.5

216.6

28.4

52.4

86.8

167.2

18.9

32.6

62.3

108.1

18.0

31.7

60.2

10

100

処理速度v

[arb

itra

ry]

ノード数 N（=GPU数）

256

128

64

32

32 64 128 256


ノード当たりのミニバッチサイズを64から32とし、ノード数を倍にすると、性能は下がってしまう

ノード当たりのミニバッチサイズ

ノード当たりのミニバッチサイズを256、ノード数を256で実行した場合、処理速度は217倍

ノード当たりのミニバッチサイズを128から64とし、ノード数を倍にすることで、性能を上げられる

v = N

21

ミニバッチサイズの影響


0

10

20

30

40

50

60

1000 10000 100000

top1 正解率

[%]

学習処理回数

AlexNetにおける学習の進み方

全画像を20回学習

22

40.2

45.3 47.3 46.2

44.3

37.1

256 512 1024 2048 4096 8192

ミニバッチサイズ

ミニバッチサイズの影響


(1)全画像を20回学習した時のtop 1 正解率to

p1正解率

[%]

ミニバッチサイズが1024で正解率が最大となるミニバッチサイズが8192を

超えると最終的な正解率が50%を下回る

23

25.2

4.4 1.71.2 0.9 0.71.0

5.7

14.7

20.3

27.0

(38.8)

0

10

20

30

40

50

0 時間

6 時間

12 時間

18 時間

24 時間

30 時間

1(256) 8(512) 16(1024) 32(2048) 64(4096) 128(8192)

ノード数（ミニバッチサイズ）

① 学習速度の評価


(2) top1 正解率が45%に到達するまでにかかる時間と高速化率

学習速度[arbitrary]

24

Distributed Caffeまとめ

1ノードあたり画像256枚のミニバッチでは、64ノードで60倍を超える処理速度

学習の速度では、64ノードの場合、64枚 / ミニバッチ / ノードが最速で27倍

最終到達予測精度もミニバッチあたりの画像枚数による

現状の手法では、分散並列による高速化には上限がある

富士通 Zinraiサービスで提供中

SWoPP2016で発表

2016年8月プレスリリース ( http://pr.fujitsu.com/jp/news/2016/08/9.html )


http://pr.fujitsu.com/jp/news/2016/08/9.html

②分散並列データ供給技術


分散並列データ供給技術


FEFS: Lustre から派生した分散並列ファイルシステム

Distributed Caffe: 深層学習の分散並列フレームワーク

クライアントのコンピュータ上データをキャッシュすることで、

ストレージへのアクセス時間を軽減

データの一部のコピーを一時的にコンピュータのメモリ上に置いておく方式

全データをメモリ上に置くのは、通常は容量不足で不可能

必要なデータを必要なタイミングでメモリ上に持つことも困難

Dist. Caffe Dist. Caffe

FEFS

OSSFEFS

OSSFEFS

OSS

Dist. Caffe

FEFSClient cache

対象とするケースFEFS

Client cacheFEFS

Client cache

LMDB: メモリマップファイル利用のデータベース(Dist. Caffe のデータ入力に使用)

アクセラレータの高速化により、分散並列実行時のデータ供給速度が問題(nVIDIA Pascal 4枚使用で画像認識の学習(AlexNet) なら300MB/s 程度の処理速度)

27

課題解決のアイディア


分散並列実行時、それぞれのプロセスが連続したデータ領域を担当すればプリフェッチが可能

データベースでのアクセス位置がわかれば、プリフェッチすべき領域がわかる

データアクセスが行われたことをどうやって知れば良いか？

深層学習フレームワークで、

各プロセスが連続領域をアクセス

データファイル

分散並列プロセス 1

データアクセス検知

次に読まれるべきデータ



28

分散並列データ供給技術実装案


メモリマップファイルなら、‘mprotect’ と ‘signal handling’ でアクセス検知可能

mprotect であらかじめ検出したい領域をアクセス禁止にしておく

アクセスバイオレーションのシグナルを検知し、プロテクトを解除、プリフェッチ

no-protected page

protected page

メモリマップファイル1: protect を張っておく

深層学習プログラム

2: データ読みだし

SIGSEGVシグナル

シグナルハンドラ

3: fault

4: 一時停止

5: プロテクション削減

4: シグナル検出

I/O プロセス6: call

7: プリフェッチ

7: 再開

LMDB

データベース

29

実装時のパラメータ


Protected page

Protected Page

Address X

入力データは、メモリマップファイルのアドレスXからアドレスZまで

Prefetch の契機 -- mprotect で保護されたページにアクセスした時

Prefetch 量 (Size) – 一度に prefetch するデータ量

不感応期間 (Distance) -- すでにプリフェッチした領域を再プリフェッチしないため

Address Z

メモリマップファイル

一度で prefetchするデータSize

一度で prefetchするデータ

Protected Page

Protected Page

Protected Page

Protected Page

Protected Page

初回プリフェッチ

1回目不感応期間(Distance)

2回目プリフェッチ

30

分散並列データ供給技術評価結果


2,045 s

245.73 s

処理時間 87.98% 削減

10.47 倍高速化

176.50 s


1.89 倍高速化

284.65 s


2.89 倍高速化

165.23 s

322.86 s

Warm cache: 164.6s

31

分散並列データ供給技術評価結果


本技術導入による処理時間の増加は、測定誤差の範囲で見られなかった

本技術のオーバーヘッドは無視できるほど小さい

本技術適用前本技術を導入し prefetch を行わない場合

32

分散並列データ供給技術まとめ

メモリマップファイルの逐次読み出しはプリフェッチで高速化可能

分散ファイルシステム上のファイルでは効果が大きい

Local NVMe RAID では、あらかじめメモリキャッシュに乗せた場合とほぼ同じ

オーバーヘッドは無視できるレベル

今後

逐次読み出しを行う他のアプリケーションへの適用

Linux kernel module メカニズムで prefetch機能の追加を検討

2017年SWoPP発表


③ Deep Tensor(アルゴリズム高速化)


グラフデータラベル

A

B

Deep Tensor とは

学習時 : 教師あり(ラベル付き)のグラフデータをディープラーニング

推論時 : グラフデータを入力し、分類

高速数値演算ライブラリや GPU により高速動作


DeepTensor

• ラベルと部分グラフを関連づけ

• 特徴となる部分グラフは自答抽出

DeepTensor

• グラフデータの類似性で推論

B

35

グラフデータの課題


Deep Tensor のコア技術


技術

座標非依存な情報に変換

37

グラフデータ学習の応用先


高速化の必要性と実施

複数特徴精度向上により演算量増加 50倍程度の高速化が必要

1. テンソル処理の高速化

2. 分散並列処理化

可変長データの処理時間をミニバッチ単位で調整

4ノードで3倍程度


改善ポイント対策

冗長な計算無駄の少ない計算に変更

メモリキャッシュ

メモリキャッシュが活用される演算方式に変更

ライブラリに適切な関数がない

フレームワークの流儀に従って、関数追加

並列度設定最適な並列度に設定

プロファ

イル取得

遅い原因

特定改善

地道な改善で、20倍以上の高速化 (可読性も維持)

全体で50倍以上の高速化を達成

39

Deep Tensor まとめ

Deep Tensor は、グラフデータをディープラーニングの手法で学習

分類に影響を与える特徴パターンで判定

アルゴリズム改善とロードバランス調整で、可読性を損なわず、50倍以上高速化

2016年10月、2017年9月プレスリリース( http://pr.fujitsu.com/jp/news/2016/10/20.html , http://pr.fujitsu.com/jp/news/2017/09/19-3.html )


http://pr.fujitsu.com/jp/news/2016/10/20.html

http://pr.fujitsu.com/jp/news/2017/09/19-3.html

④ディープラーニング専用プロセッサ DLU


ディープラーニング専用チップの必要性

ディープラーニングには高い演算性能が必要

ムーア則の終焉

↓

1チップの性能が伸びない

↓

複数チップによる高性能化

大量の演算で大電力を消費

ディープラーニングに不要な回路を省くことで省電力化


Source: Stanford, K. Ruppを元に推測

2000 2010 2020 203019901980

103

102

1

101

104

10nm

20nm

40nm

180nm

250nm

350nm

2025年

2002年

現在

90nm

電力効率性能

[arb

itra

ry u

nit]

Year

半導体微細化技術による電力性能の進化

スケーラビリティのよい、ディープラーニングに特化したプロセッサがベスト

42

Deep Learning Unit (DLU)


DLU の特徴ディープラーニングのためのアーキテクチャデザイン低消費電力最適な演算精度電力あたり処理性能で10倍を目指す

Tofu インターコネクト技術によるスケーラビリティ大規模ニューラルネットワークを処理できる能力

2018年度から

DLU(Deep Learning Unit)

TM

43

DLU 向けアーキテクチャとは?

領域特化型、最適な演算精度、高並列


従来型アーキテクチャ新アーキテクチャ

汎用領域特化型

高精度演算最適演算精度

逐次 + 並列高並列

複雑な Out of Order コア領域特化型コア

倍/単精度浮動小数点ディープラーニング用整数演算

高機能マルチコアメニーコア44

DLU アーキテクチャ


DLUTM

(Deep Learning Unit)

Host I/F

Inter-chipI/F

HBM2

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

DPU-0

DPU-1

DPU

DPU

DPU

DPU-n

1. 領域特化型領域に特化したコア

- 新規命令セット

- 簡素化されたマイクロアーキテクチャ

- ソフトウェアから透過、制御可能

- ヘテロジニアスコア

- DPE と大容量レジスタファイル

2. 最適化演算精度Deep Learning Integer

3. 高並列 (Massively Parallel)多数の DPU をチップ上ネットワークで接続

DPU: Deep Learning Processing Unit, DPE: Deep Learning Processing Element

チップ間ネットワークにより大規模なDLUシステムを構成

45

ヘテロジニアスコア

少数のマスターコアと多数の小型実行コア(DPU)により、従来の単一コア構成に比べ、省電力で高いパフォーマンスを実現


マスターコア:メモリアクセスとDPUの制御

• DPUとのデータ転送• DPUの実行制御

DPU

マスター

DPU

DPU

DPU

DPU

DPU

DPU

DPU

メモリコントローラ

メモリ

命令とデータ

DPU: 実行

• マスターコアの制御下で• ディープラーニング処理を行う

多数のDPUの利用方法(畳み込みでの例)• DPU毎に1チャンネルの出力• 複数イメージをDPU毎に処理

…

入力チャンネル

出力チャンネル

46

DPE と大容量レジスタファイル (RF)

DPUは 16個の DPEからなっている

DPEは大容量RFと多SIMD実行ユニットを有し、効率的なディープラーニング処理を行う

メモリキャッシュ($)とことなり、RFはソフトウェアで制御できるため、ハードウェアのポテンシャルを引き出せる


実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

実行ユニット

レジスタファイル

DPE = 8 SIMD* と大容量RF(通常のCPUコアの100倍)

DPU: 16 DPE* = 128 SIMD

* 単精度浮動小数点

プロセッサレジスタ、$

UNIX SPARC64 XII RF+$

HPC SPARK64 Xifx RF+セクター$

AI DLU 大容量RF

ソフトウェア制御可能性

47

Deep Learning Integer

ディープラーニングを8～16 bit の整数演算で実現省電力化

16 bit で単精度浮動小数点並みの精度


DLU のまとめ

ディープラーニングに特化したプロセッサ

演算器の高並列化

キャッシュなし、大量レジスタファイル

演算精度の最適化

高い演算性能と、電力あたり演算性能比を目指す

2017年 ISC 発表

2016年11月プレスリリース (http://pr.fujitsu.com/jp/news/2016/11/29.html)




量子コンピュータ

デジタルアニーラ


注1：与えられた条件の中で色々な選択肢の中から一番良い解を選ぶ問題の総称注2：巡回セールスマン問題によるベンチマーク評価における解を求めるまでにかかる時間


量子現象に着想を得たデジタル回路により、一般的なコンピュータでは解けない組み合わせ最適化問題1を瞬時に解く

プロトタイプ性能評価2において、一般的なコンピュータ比12,000倍に高速化

量子コンピュータを実用性で超える新アーキテクチャーを開発 (2016年10月発表)

MAX-CUT問題巡回セールスマン問題ナップサック問題

組み合わせ最適化問題

• 小規模の問題のみ適用• 拡張が困難• 量子状態維持が難しく、大型装置が必要

• 実用規模の問題に適用• 拡張が容易• デジタルのため安定動作、小型化が容易

51

https://www.google.co.jp/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0ahUKEwiGlbT-sLXVAhWIUbwKHfBFDPkQjRwIBw&url=https://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%83%E3%83%88_(%E3%82%B0%E3%83%A9%E3%83%95%E7%90%86%E8%AB%96)&psig=AFQjCNGxNGpkfabcKwt4B6tToC_NZ3vWFQ&ust=1501654440587354

https://www.google.co.jp/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0ahUKEwiGlbT-sLXVAhWIUbwKHfBFDPkQjRwIBw&url=https://ja.wikipedia.org/wiki/%E3%82%AB%E3%83%83%E3%83%88_(%E3%82%B0%E3%83%A9%E3%83%95%E7%90%86%E8%AB%96)&psig=AFQjCNGxNGpkfabcKwt4B6tToC_NZ3vWFQ&ust=1501654440587354

https://www.google.co.jp/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0ahUKEwivy6uosbXVAhUCObwKHXQ4DO4QjRwIBw&url=https://ja.wikipedia.org/wiki/%E3%83%8A%E3%83%83%E3%83%97%E3%82%B5%E3%83%83%E3%82%AF%E5%95%8F%E9%A1%8C&psig=AFQjCNHtxIRiSikNtUgPlxD6gjtMXn0R6w&ust=1501654556183494

https://www.google.co.jp/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=0ahUKEwivy6uosbXVAhUCObwKHXQ4DO4QjRwIBw&url=https://ja.wikipedia.org/wiki/%E3%83%8A%E3%83%83%E3%83%97%E3%82%B5%E3%83%83%E3%82%AF%E5%95%8F%E9%A1%8C&psig=AFQjCNHtxIRiSikNtUgPlxD6gjtMXn0R6w&ust=1501654556183494

デジタルアニーラの実問題適用に向けて


富士通と1QBit1、量子コンピュータ技術を応用したAIクラウドで協業を

開始（2017年５月）

クラウドでデジタルアニーラのトライアル提供を開始（2017年8月）

注1： 1QB Information Technologies Inc.（本社：カナダバンクーバー市)

応用領域の明確化が進み、準備段階が完了


ハード

16年10月発表

組み合わせ最適化問題

基本アルゴリズム

イジングモデルへの変換

1QBit社協業

ソフト

17年5月発表デジタル

マーケティング

リコメンデーション

医療

放射線治療

金融

ポートフォリオ最適化

化学・製薬

分子類似性検索

エネルギー

需給ギャップ調整

52

http://portalsite.gcs.g01.fujitsu.local/sites/executivepresentation/_layouts/CopyUtil.aspx?Use=id&Action=dispform&ItemId=2611&ListId=ee636228-bd3c-4d90-9c89-9aba3ff69d4f&WebId=bc8a65a5-d356-4299-a794-85d19b1700e8&SiteId=42cbf6e0-cc08-45b2-abd3-7254021fed50&Source=http://portalsite.gcs.g01.fujitsu.local/sites/executivepresentation/DDL/Lists/DDL/31300.aspx








実問題への適用における課題


組み合わせ最適化手法の根本課題

扱う問題の種類ごとに、数週間単位の長い準備期間がかかる

最適解が得られるパラメーター設定1を、試行錯誤により繰り返し探索

多数のパラメーター設定の中から最適設定を決定


（基本回路）

数万回以上の繰り返し計算

注1：アニーリング（焼きなまし）法における温度の冷まし方(初期温度、勾配など)

デジタルアニーラ技術を進化させ根本課題を解決

パラメーター１パラメーター2パラメーター3 パラメーターN

応用問題の種類ごとに数週間

53

新規デジタルアニーラを開発


パラメーター探索を不要とする技術により、数週間の準備期間を1日未満に短縮

基本回路を並列動作させ、複数の初期パラメーターを与えて同時探索

各回路の動作状態1に応じて、パラメーターを自動制御

最適解

応用問題の種類ごとに１日未満

状態を観測・制御

新規デジタルアニーラ

新技術により実問題への適用を容易に

注1：アニーリング法における最適化対象となるエネルギーの状態

54

必要な特性の分子を発見し新材料を設計


4000万以上の既知材料から、求める特性の分子を探索デジタルアニーラで50原子規模の分子同士の類似性検索を実現

50原子規模の分子比較1京 x 1京 x 1京通り以上の組み合わせ

比較元分子デジタルアニーラ

構造特性の比較

新素材開発や創薬への適用を開始

既知材料

既知材料の中からSimilarity Scoreの高い順に出力

55

ポートフォリオを最適化し投資リスクを削減


膨大な組み合わせの中から、価格変動で似た傾向をもつ銘柄同士をクラスタ化し、資産を適切に分散するポートフォリオを構成

金融危機の影響回避、安定運用に適用

銘柄

投資割合

(%)

最適ポートフォリオ

0 100 200 300 4000

0.2

0.4

0.6

0.8

1.0

1.2

500銘柄の並べ替え1京 x 1京通り以上の組み合わせ

デジタルアニーラにより500銘柄の最適化に成功

0 100 200 300 400

100

200

300

400

銘柄

銘柄

0 100 200 300 400

100

200

300

400

銘柄

銘柄


銘柄間の相関データクラスタ化後の相関データ

56

アニーラーの応用

通常のコンピュータに、量子アニーラーをアクセラレータとして付加する方法

ボルツマンマシンの学習において、パラメータの更新に必要な計算に量子サンプリング結果を利用する方法が提案されている


h1

v1

v2

v3

v4

h2

h3

1

1

1

h1

h2

2

2

w11

w11

w43

w32

1

1

2

2

v:入力データw:求めるパラメータ(他に、各ニューロンに割り振られたバイアスも求める)

“Application of Quantum Annealing to Training of Deep Neural Networks”, S.H.Adachi, Maxwell P. Jenderon

57

デジタルアニーラまとめ


最適化問題に特化したプロセッサを開発、効果を検証

問題によっては、汎用プロセッサの1万倍以上の高速化

2016年10月、2017年9月プレスリリース( http://pr.fujitsu.com/jp/news/2016/10/20-1.html ,http://pr.fujitsu.com/jp/news/2017/09/20-2.html )

58



まとめ


まとめ

富士通のAI：Human Centric AI 「Zinrai」

AIサービスを加速させるZinraiプラットフォームサービスを提供中

富士通の AI に対する取り組みの紹介

ディープラーニングの高速化

•① Distributed caffe (画像認識プログラムの分散並列化)

•②分散並列データ供給技術

•③ Deep Tensor (グラフデータ学習プログラムのアルゴリズム最適化)

•④ディープラーニング専用プロセッサ DLU


•⑤最適化問題専用プロセッサ Digital Annealer


富士通は新しいコンピューティング技術でお客様の課題解決に貢献して行きます

60


Documents

Fujitsu Standard Tool...2017/10/26 · 自然言語理解 感性メディア処理 社会受容性 サイバー攻撃対策 知識ベース 自動車 クラウド運用管理 知識ネットワーク

Fujitsu Standard Tool...2017/10/26 · 自然言語理解感性メディア処理社会受容性サイバー攻撃対策知識ベース自動車クラウド運用管理知識ネットワーク