Tensor flow usergroup 2016 (公開版)

2値化CNNなDQNをFPGAで動かしてみた

中原啓貴東京⼯業⼤学

⾃⼰紹介• Hiroki Nakahara (中原啓貴)• 36歳 (若⼿…︖)• JK@⽇本⼀モテない⼤学の教員• FPGA/ディープラーニングは⽣活の糧• FPGAは専⾨ではありません

(HDLを書くようになったのは学位を取ってから, ⾼位合成を始めたのは去年)• 多値論理と論理関数の複雑度が専⾨

Custom Computing Machine

Multi‐valued logic Pattern matching circuit• Regular expressionmatching circuit

• Packet classifier• IP address look‐up

Radio telescopeDeep neural network

今⽇のお話

4Source: TensorFlow Tutorial, Strata NYC, 2016

FPGAも仲間に⼊れて︕

今回の前提• 学習済みニューラルネットワークをFPGAに組込む話

FPGA?• Field(現場で)• Programmable(書き換えができる)

• Gate(論理ゲートの)• Array(集合体)

PCIに刺してGPUの代わりにアクセラレータ (Altera社)

指先よりも小さいよ！(Lattice社)

ラズパイにのっけて高速化(Xilinx社)

iPhone7にも！！

FPGA=その場でプログラム︕

某国民的ゲーム機に

Ubuntuが走るよ

Arduino(ATMEGA)を乗せてみました

電波望遠鏡用の信号処理装置

FPGAの基本的な構造

SB SB SB SB

LUT LUT LUT

IO IO IO IO IO IO

Look-UpTable (LUT)

I/O Block

Channels

Switch Blocks

LUTを使った論理ゲートの実現x0 x1 x2 y0 0 0 00 0 1 00 1 0 00 1 1 01 0 0 01 0 1 01 1 0 01 1 1 1

x0 x1 x2 y0 0 0 00 0 1 10 1 0 10 1 1 11 0 0 11 0 1 11 1 0 11 1 1 1

LUTの出⼒を書き換えて様々な論理ゲートを実現

ChannelとSwitch Block

LUTどちらもトランジスタのスイッチ

Programmable=メモリ書き換え

SB SB SB SB

LUT LUT LUT

IO IO IO IO IO IO

FPGAの対象=論理回路

module hoge(input a, b, c;output d);

assign d = (a & b) | c;

endmodule

Xilinx社

Altera社

実現したい論理回路をハードウェア記述⾔語で書く(Verilog HDL/ VHDL)

FPGAベンダーが提供するCADツールでビットストリームに合成する

FPGAにビットストリームを送信して回路が実現︕

ギャップ…

module hoge(input a, b, c;output d);

assign d = (a & b) | c;

endmodule

実現したい論理回路をハードウェア記述⾔語でもっっっっっっっっっっのすごーく⼤量のHDLで書く(Verilog HDL/ VHDL)

Y = X.dot(W)+B

学習したディイイイプなニューラルネットワークの⾏列演算をあっさり１⾏で書いてしまう

⾏列演算を例に

Y = X.dot(W)+Bビヘイビア→データフロー→FSM→ハードウェア

ここまでやってようやくHDLのコーディング

まずは⾏列の計算

Cとかだとループを回して完了！

データパスを書きましょう

16データの入出力をすべて展開して書く

スケジューリングしましょう

17今回はMAC演算器を使いまわす設計に(MAC: Multiply-ACcumulation)

一気に並列演算だと

完全に逐次処理だと

状態遷移図を起こしましょう

S0を実行しようとしたら、まずw00とw10を読み出して、、次に、積和演算を実行っと…

状態遷移図を書いた︕

と思ったら

積和演算中に次の重みを読み込んでもよくね…？依存関係のない処理を

同じ状態に押し込む！↓各状態に符号を割り当て

FSMをハードウェアに落とし込んで…

メモリや乗算器に割り当てましょう

制御部

データパス部

HDLに起こした結果どうしてこうなった

Y = X.dot(W)+B

C/C++: 10⾏

Python: 1⾏

Verilog-HDL: 66⾏

ということで、スケジューリングに…

パトラッシュ、、僕は疲れたよ、、、

さらに検証が加わると地獄ですよ

シミュレーション波形とデータシートを見比べながら永遠と続く…

どうしよう…

実現したい論理回路をハードウェア記述⾔語でもっっっっっっっっっっのすごーく⼤量のHDLで書く(Verilog HDL/ VHDL)

Y = X.dot(W)+B

学習したディイイイプなニューラルネットワークの⾏列演算をあっさり１⾏で書いてしまう

ということでHigh-Level Synthesis (HLS)• C/C++が⼀般的な⼊⼒• ファミコンを1週間で作ったよ• 2値化Neural netを1か⽉で作ったよ短TATというFPGAのメリットを引き出す

⾼位合成のフロー(従来はこれをすべて⼈⼿で⾏っていた)

Input Behavioral Spec. Dataflow Scheduling Data‐path generation

Controller (FSM) GenerationMapping to resources

(Binding)

RTL(HDL)達⼈ v.s HLS達⼈

29J. Cong et. al, “High‐level synthesis for FPGAs: From prototyping to deployment,” IEEE Trans. on CAD, 2011.

Deep Convolutional Neural NetworkのHLS実装• 依存性のない7重ループの最適化→⾼位合成でも最適化しやすい

120 nodes10 nodes

16 F. maps5x5

16 F. maps10x10

6 F. maps14x14

6 Feature maps28x28Gray scale

image32x32

5x52x2

5x52x2 5x5

1 2 12 4 21 2 1

⑤⑥

あともう少し…

⾏列演算ライブラリの中⾝をC/C++で書くただし、HDLよりは抽象的(演算器スケジューリング・

FSMは不要)

Y = X.dot(W)+B

⾏列演算をあっさり１⾏で

Y=0;for(i=0; i < m; i++){for( j = 0; j < n; j++){Y += X[i][j]*W[j][i];}}

⾼位合成ツールがHDLを吐いてくれるので従来のフローを通してFPGAに実現できる

今回作ったもの

⾏列演算ライブラリの中⾝をC/C++で書くただし、HDLよりは抽象的(演算器スケジューリング・

FSMは不要)

Y = X.dot(W)+bias

ディープニューラルネットワークをさっくり記述

Y=0;for(i=0; i < m; i++){for( j = 0; j < n; j++){Y += X[i][j]*W[j][i];}}

⾼位合成ツールがHDLを吐いてくれるので従来のフローを通してFPGAに実現できる

ここを⾃動⽣成＋α

なんでTensorFlowなのよ︖• (もちろんChainer (Caffe), Theano版も作ってますよ)

でもね…

• 分散学習が可能（スケールする）• クラウドで動く（計算機管理が不要になる）• みんな使ってる（研究結果を役⽴ててもらえる）

Artificial Neuron (AN)

w0 (Bias)

f(u)u y

xi: Input signalwi: Weightu: Internal statef(u): Activation function (Sigmoid, ReLU, etc.)y: Output signal

y f (u)

u wixii0

積和演算を何とかしたい…

2値化ニューラルネットワーク• ⼆値(-1/+1)の乗算• 乗算器をXNORゲートで

x1 x2 Y

‐1 ‐1 1

‐1 +1 ‐1

+1 ‐1 ‐1

+1 +1 1

x1 x2 Y

XNORによる2値化CNN

w0 (Bias)

fsgn(Y)Y

2値化CNNの効果

w0 (Bias)

fsgn(Y)Y

短精度(4〜8)ビットを2値に置き換え→メモリ帯域の圧縮乗算器をXNORに置き換え→回路⾯積の削減

2値化CNNの認識精度• 浮動⼩数点CNNとほぼ同じ

# of epochs

Classification error (%)

(a) float32 bit precision CNN

1 80 160 2000

# of epochsClassification error (%)

(b) Binarized CNN

1 80 160 200

単に2値化した場合

提案⼿法

約6%の誤差(VGG‐16を使⽤)H. Nakahara et al., “A memory‐based binarized convolutional deep neural network,”FPT2016 (to appear).

2値化CNN on FPGA• Raspberry Pi3 Model B

• ARMv8@1.2GHz quad-core• 1GB RAM• Mnist CNNの処理速度: 85.81 msec/image(Cソースに変換後, gccを⽤いてコンパイル, 1コア動作)• 消費電⼒: 2Watt

• Digilent社 Nexys4 DDR• FPGA Xilinx社Artix-7100T@100MHz• 2880 Kb BRAM• Mnist CNNの処理速度: 1.56 msec/image• 消費電⼒: 1Watt未満(ワットチェッカーでは測定不能でした…)

デモ１: ⼿書き⽂字認識

Deep Q-learning Network• 全部の⼿を試すのは不可能• 報酬を最⼤にする⾏動をDeep Neural Networkで予測Deep Neural Network

＋Q-learning

↓Deep Q-learning Network (DQN)

AtariのPongをゲームするDQN

...512 neurons

3 neurons→上・下・待機

4x43x3

Arcade Learning Environment(ALE)とかOpenAI Gym

６層のConvolutional Deep Neural Network

操作ゲーム画⾯

記録しておく

AtariのPongを勉強するDQN

...512 neurons

4x43x3

Arcade Learning Environment(ALE)とかOpenAI Gym

６層のConvolutional Deep Neural Network

得点が上がる操作(最⼤とはしない)

を学習

ゲーム画⾯

シャッフルする

デモ2: FPGA DQN

...512 neurons

4x43x3

６層の学習済みConvolutional Deep Neural Network

操作 by UART

ゲーム画⾯by UART

Digilent社 Nexys4 DDR(Xilinx社 Artix7 100T搭載)

On-going Work• 特定FPGAボード向けのプラットフォームを開発中• TensorFlowで設計したCNNを直接Pythonでたたける(もちろんハードウェアも)Arduinoを乗せたり、ARMでLinuxを⾛らせたりして…

• ボードを取り寄せ中

Terasic社DE0-nano-SoC Kit

(Atlas-SoC Kit)$99 (academic $90)

※ARM搭載

Terasic社DE10-Lite Board

$85 (academic $55)

Digilent社PYNQ-Z1 Board

$229 (academic $65?)※ARM搭載

Digilent社Arty Board

まとめ• FPGAをさっくり解説

• HDLのまま設計したら…⼤変だよ• 2値化CNNを実装• TensorFlowからFPGAに⼀気に落とすことが可能に

• 公開まであとちょっと待ってね

(おまけ)FPGA関連お勧め書籍

FPGAについて基礎から解説

Verilog-HDLの⽂法書として Cからハードウェアに落とす⽅法を書いた数少ない良書

Tensor flow usergroup 2016 (公開版)

Engineering

Was tut sich in der RedDot Usergroup? Hannover, 25.06.2007

(Train) Model HTML Request ' GET POST Github Sample Codes Facebook Facebook API (request) DNN&CNN TensorFlow Tensor DNN Tensor (Vector) CNN Tensor , Flow Gradient Descent Backpropagation

Tensor flow唐揚サーバーロボット rev1

SharePoint UserGroup Session 2013

Sargentos • Tensor rápido • Tensor neumático • Tensor magnéticogastelutools.com/docs/demm/07sargentostensores.pdf · 2017. 8. 28. · Sargentos Un sargento para cada ángulo

Tensor flow usergroup 2016 (公開版)

Tensor modelacionsw4

The Evolution of the Weyl Tensor under the Ricci Flow · 2019. 2. 7. · THE EVOLUTION OF THE WEYL TENSOR UNDER THE RICCI FLOW byGiovanniCATINO&CarloMANTEGAZZA(*) Abstract.—

UserGroup Logistik 2016 - orgacard.de · UserGroup Logistik 2016 Logistik modern – Neue Kollegen am Start 1. und 2. Dezember 2016, Landshut

Mempelajari Tensor

Tensor modelacionsw3

開発者からみたTensor flow

East of Toronto .NET Usergroup - Put the 5 in HTML

Tensor flowと機械学習に必要な数学を基礎から学ぶ会 lt_20170118

主婦は見た！Azureでtensor flow

2012-04-12 - AOP .NET UserGroup Niederrhein

SharePoint Usergroup 07/2010 - Visio Services

カーリングの局面評価関数を学習 WITH “TENSOR FLOW”

俺のtensorが全然flowしないのでみんなchainer使おう by DEEPstation

NET Usergroup Chemnitz 20091210