Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
2017年10月26日株式会社富士通研究所コンピュータシステム研究所田原 司睦
富士通のディープラーニング高速化技術のご紹介
Copyright 2017 FUJITSU LABORATORIES LTD.0
SS研科学技術計算分科会2017年度講演
アウトライン
はじめに
ディープラーニングとは
富士通のAI への取り組み
ディープラーニングの高速化
① Distributed caffe (画像認識)
② 分散並列データ供給技術
③ Deep Tensor (グラフデータ対応)
④ ディープラーニング専用プロセッサ DLU
次世代アーキテクチャ
⑤ 最適化問題専用プロセッサ Digital Annealer
まとめ
Copyright 2017 FUJITSU LABORATORIES LTD.1
ディープラーニングとは
富士通のAI への取り組み
はじめに
Copyright 2017 FUJITSU LABORATORIES LTD.2
ディープラーニングとは
Copyright 2017 FUJITSU LABORATORIES LTD.
画像データ 音声データ 文章・文書
学習の過程で自動的にデータの特徴をとらえる、分類用機械学習
ニューラルネットワークを多層にした物
従来の機械学習に比べ、学習処理に必要な計算量が大幅に増加
特徴抽出
分類器
入力・前処理
分類結果
生データ
機械学習
手作業
従来の機械学習
深層学習
機械学習
3
data 差分
パラメタw
data
ニューロン層1 勾配情報Δw
パラメタw 勾配情報Δw
data 差分
パラメタw 勾配情報Δw
label (正解)
ニューロン層2
ニューロン層3
認識結果 誤差E
入力層
GPUを用いたディープラーニング例
Copyright 2017 FUJITSU LABORATORIES LTD.
各ニューロンの重みパラメタw
多数のニューロンからなる層(Layer)
学習時、一度に複数のデータを処理する。このデータ数をミニバッチサイズと呼ぶ
ボトム側
トップ側
4
ニューロン層1
ニューロン層2
ニューロン層3
GPUを用いたディープラーニング例
Copyright 2017 FUJITSU LABORATORIES LTD.
diff
パラメタw
data
勾配情報Δw
パラメタw 勾配情報Δw
diff
パラメタw 勾配情報Δw
誤差E
入力層
GPU
label (正解)
差分
勾配情報Δw
勾配情報Δw
差分
勾配情報Δw
誤差E
Backward
data / labelストレージ
CPU
data
data
認識結果
Forward
data
data
認識結果
Update
Forward
Backward
学習係数(学習処理1サイクルでの反映量を決めるハイパーパラメタ)をかける
学習処理サイクル
5
ディープラーニングとは
富士通のAI への取り組み
はじめに
Copyright 2017 FUJITSU LABORATORIES LTD.6
語源
名前に込めた想い
:疾風迅雷(すばやくはげしいこと)
:人の判断・行動を“スピーディ”にサポートすることで、企業・社会の変革を “ダイナミック”に実現させる
ジンライ
Copyright 2017 FUJITSU LABORATORIES LTD.7
Zinraiのサポートする領域
幅広い領域の AI サービスをサポート
Copyright 2017 FUJITSU LABORATORIES LTD.
ロボティクス
ものづくり
感情・感性理解
機械学習
ディープラーニング
データ統合
脳科学
先端医療
自動分析・自動意思決定
予測最適化
Fintech
ネットワーク自動制御
自然言語理解
感性メディア処理
社会受容性
サイバー攻撃対策
知識ベース 自動車
クラウド運用管理
知識ネットワーク
リアルタイム分析
ソーシャル数理 人の感情・特性モデル化
Zinraiプラットフォーム
<出典>http://www.fujitsu.com/jp/documents/solutions/business-technology/ai/ai-zinrai/zinrai_20161128.pdf
計算量の多いディープラーニングもサポート
8
HPC技術をAIに適用
30年に渡るAI研究と、HPCで培った世界最速クラスのディープラーニング技術などの最先端・独自AI技術を結集
ディープラーニングの特徴
• メリット : 適切な特徴量の自動抽出 人間を超える認識率を実現
• デメリット : 学習に多大な計算量 学習時間の長期化
ディープラーニングアプリの開発
Copyright 2017 FUJITSU LABORATORIES LTD.
仮説・提案
検証・評価
実装分析
検証・評価時に学習を行う
ディープラーニング利用アプリケーション開発プロセス
適用分野の拡大と精度向上のため、学習に必要な演算量が増加
GTC2017 Keynote より
10
ディープラーニングの検証時間が非常に長く、開発プロセスを回せない
⇒ハードウェア、ソフトウェア両面からの高速化が必要
ディープラーニングアプリ開発の課題
Copyright 2017 FUJITSU LABORATORIES LTD.
課題
GPU 1台 (20 TFLOPS)で100 ExaFLOPSの処理に58日
富士通の取り組み
…
NIC
CPU
Acc.
メモリ
NIC
CPU
Acc.
メモリ
NIC
CPU
Acc.
メモリ
ストレージ
① Distributed Caffe
③ Deep Tensor
②プリフェッチ技術
④ Deep Learning Unit
⑤ Digital Annealer
分散並列化
アルゴリズム最適化
高速なデータ共有方式
専用ハードウェア
次世代アーキテクチャ
11
① Distributed Caffe (分散並列化)
Copyright 2017 FUJITSU LABORATORIES LTD.12
Distributed Caffe
Copyright 2017 FUJITSU LABORATORIES LTD.
Caffe : 古参で著名なディープラーニングフレームワーク。オープンソースソフトウェア。ほぼすべてが C++ と CUDA で書かれており高速。主に画像認識用。
GPU は複数利用可能。Berkeley Vision and Learning Center が作成。
富士通が独自に分散並列化
Distributed Caffe : CaffeをMPI で分散並列化したもの。ノード間集約には CPU を使っている。AlexNet (スケーラビリティの悪いニューラルネット)でも、weak scale なら16ノードで15倍以上のスループット。2016年 SWoPPで発表
13
ニューロン層1
ニューロン層2
ニューロン層3
ディープラーニングの分散並列化
Copyright 2017 FUJITSU LABORATORIES LTD.
diff
パラメタw
data
勾配情報Δw
パラメタw 勾配情報Δw
diff
パラメタw 勾配情報Δw
誤差E
入力層
GPU
label (正解)
差分
勾配情報Δw
勾配情報Δw
差分
勾配情報Δw
誤差E
data / labelストレージ
CPU
data
data
認識結果
data
data
認識結果
Update
Forward
Backward
学習処理サイクル
14
ニューロン層1
ニューロン層2
ニューロン層3
入力層
ディープラーニングの分散並列化
Copyright 2017 FUJITSU LABORATORIES LTD.
data 差分
パラメタw
data
勾配情報Δw
パラメタw 勾配情報Δw
data 差分
パラメタw 勾配情報Δw
label (正解)
認識結果 誤差E
data / label
GPU GPU
CPU CPU
勾配情報Δw
勾配情報Δw
勾配情報Δw
ストレージ 勾配情報Δw 勾配情報Δw
All-reduce(ノード間通信)
Update
Backward
Forward
学習処理サイクル
All-reduce
15
複数ノードで行う学習処理の課題
Copyright 2017 FUJITSU LABORATORIES LTD.
All-reduce処理が加わる事でGPUが動作しない時間が発生
集約処理時間を他のGPU処理時間に隠蔽集約処理時間を短縮
基本的なアイディア
GPU
CPU
Forward Backward
All-reduce
Update
集約処理によるオーバヘッド
時間
「重みパラメタの要素数」が多い場合、増加
「ノード数」増により増加
16
Backward処理時間への隠蔽
Copyright 2017 FUJITSU LABORATORIES LTD.
All-reduce処理
各層のBackward処理
各層のForward処理
Update処理
GPU
CPU
隠蔽前集約処理によるオーバヘッド
L2 L3 L2 L1L1 L3
各層のBackward処理が終わる毎に層単位でAll-reduce処理を開始する
方法
GPU
CPU
L2 L3 L2 L1
L3 L2 L1
隠蔽後
L1 L3
2層目以降のBackward処理とAll-reduce処理を並列に実行することでオーバヘッドを短縮
17
Forward処理時間への隠蔽
Copyright 2017 FUJITSU LABORATORIES LTD.
GPU
L2
層単位でUpdate処理
L2 L1
L1
L1L3
L3
L2
All-reduce処理
各層のBackward処理
各層のForward処理
Update処理
•集約処理を複数スレッドで実行• Update処理を分割• Forward処理の開始を、層毎に判定
方法
すべての層のAll-reduce処理の完了を待たずに、次のForward処理を開始
CPU
18
細分化による並列化
Copyright 2017 FUJITSU LABORATORIES LTD.
All-reduce処理
各層のBackward処理
各層のForward処理
• GPUとのデータ転送、ノード間転送、Reduce演算等について、データを細分化して実行
方法
細分化前
GPU
CPU
Update処理
GPU
CPU
細分化後
All-reduceにかかる時間を短縮
19
評価環境
Copyright 2017 FUJITSU LABORATORIES LTD.
評価環境
九州大学 情報基盤研究開発センター 高性能演算サーバ
東京工業大学 学術国際情報センター TSUBAME2.5
東京工業大学 TSUBAME2.5• 計算ノード: 約1400台 内256台• CPU: 12 core, 54 GB• GPU: Tesla K20X x3• CUDA7.5, cuDNN v4.0• OpenMPI 1.6.3• InfiniBand QDR 4レーン x2(4.0 GB/s x 2)
九州大学 高性能演算サーバ• 計算ノード: 1476台 内16台• CPU: 16 core, 128 GB• GPU: Tesla K20m x1• CUDA7.5, cuDNN v4.0• Intel MPI 4.0.3• InfiniBand FDR 4レーン x1(6.8 GB/s)
Deep Neural Network
AlexNetを使用
•層構成
•畳み込み層 5層
•全結合層 3層
•重みパラメタの総要素数:約6100万
学習用データ
ILSVRC2012画像認識データセット
•学習用 約128万枚、検証用 5万枚
20
処理速度のスケーラビリティ
30.3
60.4
119.5
216.6
28.4
52.4
86.8
167.2
18.9
32.6
62.3
108.1
18.0
31.7
60.2
10
100
処理速度v
[arb
itra
ry]
ノード数 N(=GPU数)
256
128
64
32
32 64 128 256
Copyright 2017 FUJITSU LABORATORIES LTD.
ノード当たりのミニバッチサイズを64から32とし、ノード数を倍にすると、性能は下がってしまう
ノード当たりのミニバッチサイズ
ノード当たりのミニバッチサイズを256、ノード数を256で実行した場合、処理速度は217倍
ノード当たりのミニバッチサイズを128から64とし、ノード数を倍にすることで、性能を上げられる
v = N
21
ミニバッチサイズの影響
Copyright 2017 FUJITSU LABORATORIES LTD.
0
10
20
30
40
50
60
1000 10000 100000
top1 正解率
[%]
学習処理回数
AlexNetにおける学習の進み方
全画像を20回学習
22
40.2
45.3 47.3 46.2
44.3
37.1
256 512 1024 2048 4096 8192
ミニバッチサイズ
ミニバッチサイズの影響
Copyright 2017 FUJITSU LABORATORIES LTD.
(1)全画像を20回学習した時のtop 1 正解率to
p1正解率
[%]
ミニバッチサイズが1024で正解率が最大となる ミニバッチサイズが8192を
超えると最終的な正解率が50%を下回る
23
25.2
4.4 1.71.2 0.9 0.71.0
5.7
14.7
20.3
27.0
(38.8)
0
10
20
30
40
50
0 時間
6 時間
12 時間
18 時間
24 時間
30 時間
1(256) 8(512) 16(1024) 32(2048) 64(4096) 128(8192)
ノード数(ミニバッチサイズ)
① 学習速度の評価
Copyright 2017 FUJITSU LABORATORIES LTD.
(2) top1 正解率が45%に到達するまでにかかる時間と高速化率
学習速度[arbitrary]
24
Distributed Caffeまとめ
1ノードあたり画像256枚のミニバッチでは、64ノードで60倍を超える処理速度
学習の速度では、64ノードの場合、64枚 / ミニバッチ / ノードが最速で27倍
最終到達予測精度もミニバッチあたりの画像枚数による
現状の手法では、分散並列による高速化には上限がある
富士通 Zinraiサービスで提供中
SWoPP2016で発表
2016年8月プレスリリース ( http://pr.fujitsu.com/jp/news/2016/08/9.html )
Copyright 2017 FUJITSU LABORATORIES LTD.25
②分散並列データ供給技術
Copyright 2017 FUJITSU LABORATORIES LTD.26
分散並列データ供給技術
Copyright 2017 FUJITSU LABORATORIES LTD.
FEFS: Lustre から派生した分散並列ファイルシステム
Distributed Caffe: 深層学習の分散並列フレームワーク
クライアントのコンピュータ上データをキャッシュすることで、
ストレージへのアクセス時間を軽減
データの一部のコピーを一時的にコンピュータのメモリ上に置いておく方式
全データをメモリ上に置くのは、通常は容量不足で不可能
必要なデータを必要なタイミングでメモリ上に持つことも困難
Dist. Caffe Dist. Caffe
FEFS
OSSFEFS
OSSFEFS
OSS
Dist. Caffe
FEFSClient cache
対象とするケースFEFS
Client cacheFEFS
Client cache
LMDB: メモリマップファイル利用のデータベース(Dist. Caffe のデータ入力に使用)
アクセラレータの高速化により、分散並列実行時のデータ供給速度が問題(nVIDIA Pascal 4枚使用で画像認識の学習(AlexNet) なら300MB/s 程度の処理速度)
27
課題解決のアイディア
Copyright 2017 FUJITSU LABORATORIES LTD.
分散並列実行時、それぞれのプロセスが連続したデータ領域を担当すればプリフェッチが可能
データベースでのアクセス位置がわかれば、プリフェッチすべき領域がわかる
データアクセスが行われたことをどうやって知れば良いか?
深層学習フレームワークで、
各プロセスが連続領域をアクセス
データファイル
分散並列プロセス 1
データアクセス検知
次に読まれるべきデータ
分散並列プロセス 2
分散並列プロセス 3
28
分散並列データ供給技術実装案
Copyright 2017 FUJITSU LABORATORIES LTD.
メモリマップファイルなら、‘mprotect’ と ‘signal handling’ でアクセス検知可能
mprotect であらかじめ検出したい領域をアクセス禁止にしておく
アクセスバイオレーションのシグナルを検知し、プロテクトを解除、プリフェッチ
no-protected page
protected page
メモリマップファイル1: protect を張っておく
深層学習プログラム
2: データ読みだし
SIGSEGVシグナル
シグナルハンドラ
3: fault
4: 一時停止
5: プロテクション削減
4: シグナル検出
I/O プロセス6: call
7: プリフェッチ
7: 再開
LMDB
データベース
29
実装時のパラメータ
Copyright 2017 FUJITSU LABORATORIES LTD.
Protected page
Protected Page
Address X
入力データは、メモリマップファイルのアドレスXからアドレスZまで
Prefetch の契機 -- mprotect で保護されたページにアクセスした時
Prefetch 量 (Size) – 一度に prefetch するデータ量
不感応期間 (Distance) -- すでにプリフェッチした領域を再プリフェッチしないため
Address Z
メモリマップファイル
一度で prefetchするデータSize
一度で prefetchするデータ
Protected Page
Protected Page
Protected Page
Protected Page
Protected Page
初回プリフェッチ
1回目不感応期間(Distance)
2回目プリフェッチ
30
分散並列データ供給技術評価結果
Copyright 2017 FUJITSU LABORATORIES LTD.
2,045 s
245.73 s
処理時間 87.98% 削減
10.47 倍高速化
176.50 s
処理時間 37.99% 削減
1.89 倍高速化
284.65 s
処理時間 48.82% 削減
2.89 倍高速化
165.23 s
322.86 s
Warm cache: 164.6s
31
分散並列データ供給技術評価結果
Copyright 2017 FUJITSU LABORATORIES LTD.
本技術導入による処理時間の増加は、測定誤差の範囲で見られなかった
本技術のオーバーヘッドは無視できるほど小さい
本技術適用前 本技術を導入し prefetch を行わない場合
32
分散並列データ供給技術まとめ
メモリマップファイルの逐次読み出しはプリフェッチで高速化可能
分散ファイルシステム上のファイルでは効果が大きい
Local NVMe RAID では、あらかじめメモリキャッシュに乗せた場合とほぼ同じ
オーバーヘッドは無視できるレベル
今後
逐次読み出しを行う他のアプリケーションへの適用
Linux kernel module メカニズムで prefetch機能の追加を検討
2017年SWoPP発表
Copyright 2017 FUJITSU LABORATORIES LTD.33
③ Deep Tensor(アルゴリズム高速化)
Copyright 2017 FUJITSU LABORATORIES LTD.34
グラフデータ ラベル
A
B
Deep Tensor とは
学習時 : 教師あり(ラベル付き)のグラフデータをディープラーニング
推論時 : グラフデータを入力し、分類
高速数値演算ライブラリや GPU により高速動作
Copyright 2017 FUJITSU LABORATORIES LTD.
DeepTensor
• ラベルと部分グラフを関連づけ
• 特徴となる部分グラフは自答抽出
DeepTensor
• グラフデータの類似性で推論
B
35
グラフデータの課題
Copyright 2017 FUJITSU LABORATORIES LTD.36
Deep Tensor のコア技術
Copyright 2017 FUJITSU LABORATORIES LTD.
技術
座標非依存な情報に変換
37
グラフデータ学習の応用先
Copyright 2017 FUJITSU LABORATORIES LTD.38
高速化の必要性と実施
複数特徴精度向上により演算量増加 50倍程度の高速化が必要
1. テンソル処理の高速化
2. 分散並列処理化
可変長データの処理時間をミニバッチ単位で調整
4ノードで3倍程度
Copyright 2017 FUJITSU LABORATORIES LTD.
改善ポイント 対策
冗長な計算 無駄の少ない計算に変更
メモリキャッシュ
メモリキャッシュが活用される演算方式に変更
ライブラリに適切な関数がない
フレームワークの流儀に従って、関数追加
並列度設定 最適な並列度に設定
プロファ
イル取得
遅い原因
特定改善
地道な改善で、20倍以上の高速化 (可読性も維持)
全体で50倍以上の高速化を達成
39
Deep Tensor まとめ
Deep Tensor は、グラフデータをディープラーニングの手法で学習
分類に影響を与える特徴パターンで判定
アルゴリズム改善とロードバランス調整で、可読性を損なわず、50倍以上高速化
2016年10月、2017年9月プレスリリース( http://pr.fujitsu.com/jp/news/2016/10/20.html , http://pr.fujitsu.com/jp/news/2017/09/19-3.html )
Copyright 2017 FUJITSU LABORATORIES LTD.40
④ディープラーニング専用プロセッサ DLU
Copyright 2017 FUJITSU LABORATORIES LTD.41
ディープラーニング専用チップの必要性
ディープラーニングには高い演算性能が必要
ムーア則の終焉
↓
1チップの性能が伸びない
↓
複数チップによる高性能化
大量の演算で大電力を消費
ディープラーニングに不要な回路を省くことで省電力化
Copyright 2017 FUJITSU LABORATORIES LTD.
Source: Stanford, K. Ruppを元に推測
2000 2010 2020 203019901980
103
102
1
101
104
10nm
20nm
40nm
180nm
250nm
350nm
2025年
2002年
現在
90nm
電力効率性能
[arb
itra
ry u
nit]
Year
半導体微細化技術による電力性能の進化
スケーラビリティのよい、ディープラーニングに特化したプロセッサがベスト
42
Deep Learning Unit (DLU)
Copyright 2017 FUJITSU LABORATORIES LTD.
DLU の特徴 ディープラーニングのためのアーキテクチャデザイン 低消費電力 最適な演算精度 電力あたり処理性能で10倍を目指す
Tofu インターコネクト技術によるスケーラビリティ 大規模ニューラルネットワークを処理できる能力
2018年度から
DLU(Deep Learning Unit)
TM
43
DLU 向けアーキテクチャとは?
領域特化型、最適な演算精度、高並列
Copyright 2017 FUJITSU LABORATORIES LTD.
従来型アーキテクチャ 新アーキテクチャ
汎用 領域特化型
高精度演算 最適演算精度
逐次 + 並列 高並列
複雑な Out of Order コア 領域特化型コア
倍/単精度浮動小数点 ディープラーニング用整数演算
高機能マルチコア メニーコア44
DLU アーキテクチャ
Copyright 2017 FUJITSU LABORATORIES LTD.
DLUTM
(Deep Learning Unit)
Host I/F
Inter-chipI/F
HBM2
DPE DPE DPE
DPE DPE DPE
DPE DPE DPE
DPE DPE DPE
DPE DPE DPE
DPE DPE DPE
DPU-0
DPU-1
DPU
DPU
DPU
DPU-n
1. 領域特化型領域に特化したコア
- 新規命令セット
- 簡素化されたマイクロアーキテクチャ
- ソフトウェアから透過、制御可能
- ヘテロジニアスコア
- DPE と大容量レジスタファイル
2. 最適化演算精度Deep Learning Integer
3. 高並列 (Massively Parallel)多数の DPU をチップ上ネットワークで接続
DPU: Deep Learning Processing Unit, DPE: Deep Learning Processing Element
チップ間ネットワークにより大規模なDLUシステムを構成
45
ヘテロジニアスコア
少数のマスターコアと多数の小型実行コア(DPU)により、従来の単一コア構成に比べ、省電力で高いパフォーマンスを実現
Copyright 2017 FUJITSU LABORATORIES LTD.
マスターコア:メモリアクセスとDPUの制御
• DPUとのデータ転送• DPUの実行制御
DPU
マスター
DPU
DPU
DPU
DPU
DPU
DPU
DPU
メモリコントローラ
メモリ
命令とデータ
DPU: 実行
• マスターコアの制御下で• ディープラーニング処理を行う
多数のDPUの利用方法(畳み込みでの例)• DPU毎に1チャンネルの出力• 複数イメージをDPU毎に処理
…
入力チャンネル
出力チャンネル
46
DPE と大容量レジスタファイル (RF)
DPUは 16個の DPEからなっている
DPEは大容量RFと多SIMD実行ユニットを有し、効率的なディープラーニング処理を行う
メモリキャッシュ($)とことなり、RFはソフトウェアで制御できるため、ハードウェアのポテンシャルを引き出せる
Copyright 2017 FUJITSU LABORATORIES LTD.
実行ユニット
実行ユニット
実行ユニット
実行ユニット
実行ユニット
実行ユニット
実行ユニット
実行ユニット
レジスタファイル
DPE = 8 SIMD* と大容量RF(通常のCPUコアの100倍)
DPU: 16 DPE* = 128 SIMD
* 単精度浮動小数点
プロセッサ レジスタ、$
UNIX SPARC64 XII RF+$
HPC SPARK64 Xifx RF+セクター$
AI DLU 大容量RF
ソフトウェア制御可能性
47
Deep Learning Integer
ディープラーニングを8~16 bit の整数演算で実現省電力化
16 bit で単精度浮動小数点並みの精度
Copyright 2017 FUJITSU LABORATORIES LTD.48
DLU のまとめ
ディープラーニングに特化したプロセッサ
演算器の高並列化
キャッシュなし、大量レジスタファイル
演算精度の最適化
高い演算性能と、電力あたり演算性能比を目指す
2017年 ISC 発表
2016年11月プレスリリース (http://pr.fujitsu.com/jp/news/2016/11/29.html)
Copyright 2017 FUJITSU LABORATORIES LTD.49
次世代アーキテクチャ
Copyright 2017 FUJITSU LABORATORIES LTD.50
量子コンピュータ
デジタルアニーラ
Copyright 2017 FUJITSU LABORATORIES LTD.
注1: 与えられた条件の中で色々な選択肢の中から一番良い解を選ぶ問題の総称 注2: 巡回セールスマン問題によるベンチマーク評価における 解を求めるまでにかかる時間
デジタルアニーラ
量子現象に着想を得たデジタル回路により、一般的なコンピュータでは解けない組み合わせ最適化問題1を瞬時に解く
プロトタイプ性能評価2において、一般的なコンピュータ比12,000倍に高速化
量子コンピュータを実用性で超える新アーキテクチャーを開発 (2016年10月発表)
MAX-CUT問題 巡回セールスマン問題 ナップサック問題
組み合わせ最適化問題
• 小規模の問題のみ適用• 拡張が困難• 量子状態維持が難しく、大型装置が必要
• 実用規模の問題に適用• 拡張が容易• デジタルのため安定動作、小型化が容易
51
デジタルアニーラの実問題適用に向けて
Copyright 2017 FUJITSU LABORATORIES LTD.
富士通と1QBit1、量子コンピュータ技術を応用したAIクラウドで協業を
開始(2017年5月)
クラウドでデジタルアニーラのトライアル提供を開始(2017年8月)
注1: 1QB Information Technologies Inc.(本社:カナダ バンクーバー市)
応用領域の明確化が進み、準備段階が完了
デジタルアニーラ
ハード
16年10月発表
組み合わせ最適化問題
基本アルゴリズム
イジングモデルへの変換
1QBit社協業
ソフト
17年5月発表デジタル
マーケティング
リコメンデーション
医療
放射線治療
金融
ポートフォリオ最適化
化学・製薬
分子類似性検索
エネルギー
需給ギャップ調整
52
実問題への適用における課題
Copyright 2017 FUJITSU LABORATORIES LTD.
組み合わせ最適化手法の根本課題
扱う問題の種類ごとに、数週間単位の長い準備期間がかかる
最適解が得られるパラメーター設定1を、試行錯誤により繰り返し探索
多数のパラメーター設定の中から最適設定を決定
デジタルアニーラ
(基本回路)
数万回以上の繰り返し計算
注1:アニーリング(焼きなまし)法における温度の冷まし方(初期温度、勾配など)
デジタルアニーラ技術を進化させ根本課題を解決
パラメーター1パラメーター2パラメーター3 パラメーターN
応用問題の種類ごとに数週間
53
新規デジタルアニーラを開発
Copyright 2017 FUJITSU LABORATORIES LTD.
パラメーター探索を不要とする技術により、数週間の準備期間を1日未満に短縮
基本回路を並列動作させ、複数の初期パラメーターを与えて同時探索
各回路の動作状態1に応じて、パラメーターを自動制御
最適解
応用問題の種類ごとに1日未満
状態を観測・制御
新規デジタルアニーラ
新技術により実問題への適用を容易に
注1:アニーリング法における最適化対象となるエネルギーの状態
54
必要な特性の分子を発見し新材料を設計
Copyright 2017 FUJITSU LABORATORIES LTD.
4000万以上の既知材料から、求める特性の分子を探索デジタルアニーラで50原子規模の分子同士の類似性検索を実現
50原子規模の分子比較1京 x 1京 x 1京 通り以上の組み合わせ
比較元分子デジタルアニーラ
構造特性の比較
新素材開発や創薬への適用を開始
既知材料
既知材料の中からSimilarity Scoreの高い順に出力
55
ポートフォリオを最適化し投資リスクを削減
Copyright 2017 FUJITSU LABORATORIES LTD.
膨大な組み合わせの中から、価格変動で似た傾向をもつ銘柄同士をクラスタ化し、資産を適切に分散するポートフォリオを構成
金融危機の影響回避、安定運用に適用
銘柄
投資割合
(%)
最適ポートフォリオ
0 100 200 300 4000
0.2
0.4
0.6
0.8
1.0
1.2
500銘柄の並べ替え1京 x 1京 通り以上の組み合わせ
デジタルアニーラにより500銘柄の最適化に成功
0 100 200 300 400
100
200
300
400
銘柄
銘柄
0 100 200 300 400
100
200
300
400
銘柄
銘柄
デジタルアニーラ
銘柄間の相関データ クラスタ化後の相関データ
56
アニーラーの応用
通常のコンピュータに、量子アニーラーをアクセラレータとして付加する方法
ボルツマンマシンの学習において、パラメータの更新に必要な計算に量子サンプリング結果を利用する方法が提案されている
Copyright 2017 FUJITSU LABORATORIES LTD.
h1
v1
v2
v3
v4
h2
h3
1
1
1
h1
h2
2
2
w11
w11
w43
w32
1
1
2
2
v:入力データw:求めるパラメータ(他に、各ニューロンに割り振られたバイアスも求める)
“Application of Quantum Annealing to Training of Deep Neural Networks”, S.H.Adachi, Maxwell P. Jenderon
57
デジタルアニーラまとめ
Copyright 2017 FUJITSU LABORATORIES LTD.
最適化問題に特化したプロセッサを開発、効果を検証
問題によっては、汎用プロセッサの1万倍以上の高速化
2016年10月、2017年9月プレスリリース( http://pr.fujitsu.com/jp/news/2016/10/20-1.html ,http://pr.fujitsu.com/jp/news/2017/09/20-2.html )
58
まとめ
Copyright 2017 FUJITSU LABORATORIES LTD.59
まとめ
富士通のAI:Human Centric AI 「Zinrai」
AIサービスを加速させるZinraiプラットフォームサービスを提供中
富士通の AI に対する取り組みの紹介
ディープラーニングの高速化
•① Distributed caffe (画像認識プログラムの分散並列化)
•②分散並列データ供給技術
•③ Deep Tensor (グラフデータ学習プログラムのアルゴリズム最適化)
•④ディープラーニング専用プロセッサ DLU
次世代アーキテクチャ
•⑤最適化問題専用プロセッサ Digital Annealer
Copyright 2017 FUJITSU LABORATORIES LTD.
富士通は新しいコンピューティング技術でお客様の課題解決に貢献して行きます
60
Copyright 2017 FUJITSU LABORATORIES LTD.