Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
© Copyright 2017 Xilinx, Inc. Xilinx、 Xilinx のロゴ、 Artix、 ISE、 Kintex、 Spartan、 Virtex、 Vivado、 Zynq、 およびこの文書に含まれるその他の指定されたブラン ドは、 米国およびその他各国のザイリンクス社の商標です。 すべてのその他の商標は、 それぞれの保有者に帰属します。
この資料は表記のバージ ョ ンの英語版を翻訳したもので、 内容に相違が生じる場合には原文を優先します。 資料によっては英語版の更新に対応していないものがあります。 日本語版は参考用と してご使用の上、 最新情報につきましては、 必ず最新英語版をご参照く ださい。
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 1
さまざまなアプリ ケーシ ョ ンや市場において、 UltraScale アーキテクチャは完全に接続可能な独立したロジッ ク と柔軟なインターコネクト を搭載したデバイス ポート フォ リオを提供し、 高い性能と コンパク ト な使用率を実現しています。
ホワイ ト ペーパー : UltraScale アーキテクチャ
WP496 (v1.0.1) 2017 年 8 月 8 日
デバイスの性能と使用率の測定: 競合比較の概要
著者: Frederic Rivoallon
概要
Vivado® Design Suite を用いた場合、 UltraScale™ アーキテクチャはデバイス使用率が 100% に近い場合でも高クロ ッ ク レート デザインを実現します。
このホワイ ト ペーパーでは、 一般に公開されている OpenCores デザインをベースに、Kintex® UltraScale FPGA で得た結果を Intel 社 (旧 Altera 社) の Arria 10 と比較します。 それぞれのデザインについて、 性能と使用率を表す詳細なグラフを示します。 これらのデータは、 ザイ リ ンクス デバイスが 2 スピード グレード分高速で、 かつ 20% 多いデザイン コンテンツを実装できるこ とを裏付けています。
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 2
デバイスの性能と使用率の測定: 競合比較の概要
はじめにOpenCores デザインをベース と した検証可能な結果から、 ザイ リ ンクス UltraScale アーキテクチャは、 競合デバイスに比べて 2 スピード グレード分性能が高く、 かつ 20% 多いデザイン コンテンツを実装できるこ とが証明されました。 これは、 最も近い競合製品を 1 世代リードするこ とに匹敵します。
ULTRASCALE アーキテクチャと高度なデザイン ツールザイ リ ンクスの 16nm ファ ミ リおよび 20nm ファ ミ リは、 業界初の All Programmable UltraScale アーキテクチャをベース と して、 プレーナから FinFET テク ノ ロジ以降におよぶ複数のノードに対応するだけでなく、 モノ リ シッ クから 3D IC まで拡張可能な柔軟性を備えています。 ザイ リ ンクスは、 20nm で初めての ASIC ク ラス All Programmable アーキテクチャを開発し、 数百ギガビッ ト /秒レベルのシステム性能を可能にしました。 16nm では、 UltraScale+™ ファ ミ リに新しいメモ リ、 3D-on-3D、 マルチプロセッシング SoC (MPSoC) 技術を統合しました。
Vivado Design Suite は単独で、SoC デバイスに対応した IP およびシステム中心型の開発環境を提供します。 この強力なデザイン プラ ッ ト フォームと、 UltraScale アーキテクチャの柔軟性および目標消費電力の実現性を組み合わせるこ とで、 システム レベルの統合と インプリ メンテーシ ョ ンにおける複雑な生産性のボ トルネッ クを特定し、 即座に対処して取り除く こ とができます。
効率に優れたデバイス集積度
UltraScale アーキテクチャを Vivado ツール スイート と併用する と、 競合デバイス とは異なりデバイス ロジッ クが持つ潜在能力を最大限に活用できます。 これは、 コス ト と消費電力の大幅な削減に直結します。
アーキテクチャ とツールは、 最も効率の高い結果をもたらすよ うに連動する必要があ り ます。 この原則を満たしていないと、デザインの効率が大き く失われかねません。 これを表しているのが図 1 です。 この図から、 競合デバイスは、 LUT 使用率がまだかなり低い状態であっても、 追加のロジッ クを受け入れなくなるこ とがわかり ます。
デバイスを比較した場合、 UltraScale アーキテクチャは、 Vivado ツール スイートの高度なアルゴ リズムによって、 よ り多くのロジッ クをパッ クできます。 すべてのデザインで平均する と、 デバイス使用率が最大のと きに使用できる LUT の割合が、UltraScale デバイスでは 86% であるのに対して競合デバイスでは 65% に留ま り ます。
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 3
デバイスの性能と使用率の測定: 競合比較の概要
Vivado ツールによるデバイス使用率の向上UltraScale アーキテクチャでは LUT が完全に独立しているため、 Vivado ツールを使用してきわめて高い使用率でこれらを配線できます。 デザイン コンテンツを反復的に追加するベンチマークでは、 Vivado ツールによって 99% の LUT 使用率を達成しながら、 デザインを配置配線し、 タイ ミ ングを満たすこ とができます。 一方、 競合デバイスは十分なデバイス使用率を達成できず、 配置配線ツールも使用可能な LUT を多く残したままの段階でデザインをインプ リ メン トできな くな り ます。
優れたアーキテクチャによる優れた LUT 使用率競合他社では、 物理ク ラスター (適応型ロジッ ク モジュール (ALM)) の接続上の制約が原因となってク ラスター内の一方の LUT のみが使用され、 も う一方が使用されないままになるこ とが多いこ とから、 LUT 使用率が十分なレベルに到達できないのは当然と言えます。
Arria 10 では、 物理ク ラスター (ALM) に 2 つの 6 入力 LUT (LUT6) を含めるこ とができます。 ただし、 この 2 つの LUT は、 ほとんど実現不可能な接続上の制約の下で 1 つの ALM にパッ クするしかないため、 追加の ALM が必要となるこ とが少なくあり ません。 Kintex UltraScale デバイスでは、 LUT6 は独自の入力を持ち、 物理クラスター内のほかの LUT とは独立してロジックをインプリ メン トできます。 図 2 を参照してください。
X-Ref Target - Figure 1
図 1: 標準的なデバイスの LUT 使用率とデザイン コンテンツの関係
X-Ref Target - Figure 2
図 2: LUT アーキテクチャの違い
WP496_01_071117
100%
LUTs
Device Utilization
ALUTs
Device Utilization
80
60
40
20
X Axis - Increased Design Content (Number of Instances)0
Kintex UltraScalehigh LUT utilization
Arria 10 reaches capacitywith lower LUT utilization
WP496_02_080217
LUT6
LUT6
2 6-Input LUTs UltraScale
Architecture
LUT6
LUT6
4
4
4
2 6-Input LUTs Arria 10
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4
デバイスの性能と使用率の測定: 競合比較の概要
図 2 を見る と、 Kintex UltraScale デバイスでは 2 つの 6 入力 LUT が完全に独立しています。 Arria 10 では 2 つの 6 入力 LUT は 4 つの入力を共有する場合にのみ ALM 内で共存できます。
Vivado 配置配線ツール テク ノ ロジと UltraScale アーキテクチャは、 高密度で難しいデザインに対応できるよ うに設計され、 高い LUT 使用率を達成できるため、 ユーザーはよ り多くのロジッ クをデバイスに組み込むこ とができます。 ロジッ ク使用率の高い大きなデバイスでも、 Vivado ツールのインプリ メンテーシ ョ ン エンジンによって、 使用率の低いデバイス と変わらない結果を得るこ とができます。 Vivado ツールは、 デザインに多くのインスタンスが追加された場合でも、 性能を適切に維持し、毎回の実行で一貫した結果を得られるよ うにします。
結果を予測できる安定した性能
Vivado Design Suite には、 高性能を実現する最先端の配置配線アルゴ リズムが備わっています。 現在と将来のテク ノ ロジ (20nm 以下) では、 インターコネク トが最大のボ トルネッ ク となる傾向があ り ます。 Vivado の配置配線ツールは、 複数の変動要素 (タイ ミ ング、 インターコネク ト使用率、 配線長) を同時に最適化するこ とで、 予測可能なデザイン ク ロージャを実現します。 一連の OpenCores デザインから、 UltraScale アーキテクチャの平均的な性能 (FMAX) は、 Arria 10 デバイス と比べて平均で 25% 高速である と測定されました (図 3 の各データ ポイン ト を参照)。
X-Ref Target - Figure 3
図 3: 1 つのインスタンスで測定した OpenCores デザインの FMAX
WP496_03_080217
OC_read_solomon_decoder
OC_trigonometric_functions
OC_quadrature_oscillator
OC_huffman_decoder
OC_wishbone_fir
OC_open_tv80
OC_fm
OC_wrap_tmu
OC_image_wrap
OC_potato_processor
0 50 100 150
UltraScale
Performance (FMAX)
200 250 300 350 400 450 500
Arria 10
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 5
デバイスの性能と使用率の測定: 競合比較の概要
OPENCORES デザイン
ベンチマークのセッ トアップ
こ こでは、 ザイ リ ンクスの 20nm デバイス と、競合他社のツールで公に利用可能な最新のノード (2017 年 6 月時点) を比較してデータ結果を生成しました。 デザインには、 現在の市場ニーズを代表する OpenCores デザインを選択し、 さまざまなデバイス リ ソース タイプ (ロジッ ク、 RAM、 および DSP) を動作させました。 選択したデバイスは、 Kintex UltraScale XCKU115-FLVF1924-3 FPGA と Arria 10 10AX115U1F45E1SG です。 スピード グレードは、 共にそれぞれのツール パッケージ (Vivado Design Suite 2017.1 および Quartus® Prime v16.1) で最速です。 次に、 各デザインを繰り返しスタンプして、 増えたロジッ クをツールがインプリ メン トできな くなるまで、 徐々にデバイスを埋めていきました。 この実験は、 ツールのデフォルトのオプシ ョ ンを使用し、 厳しいタイ ミ ング制約の下で実施されました。 シフ ト レジスタを含む最上位ラ ッパーを使用して、スタンプあたりの最上位入力ポート と最上位出力ポートの数がそれぞれ 1 つになるまで I/O 数を減らしました。 すべてのインスタンスの接続では、 各コアのクロ ッ クをスタンプされたすべてのコアが共有するグローバル バッファーにマップするこ とで、 どのラ ッパー ロジッ クにも性能上のボ トルネッ クが発生しないよ うにしました (図 4 を参照)。
X-Ref Target - Figure 4
図 4: I/O 数を減らすためのメカニズム (5 回スタンプする場合)
WP496_04_080217
I/O Reduction for InputsI/O Reduction for Outputs
Instances (Stamps)
shift_in
Dout[7:0]CLKAux_CLK
Din[4:0]Dout[4:0]
Din0stamp1
sys_clk_refsys_rst_n
stamp2
sys_clk_refsys_rst_n shift_out
stamp3
sys_clk_refsys_rst_n
stamp4
sys_clk_refsys_rst_n
stamp5
sys_clk_refsys_rst_n
CLKRST
shift_in
Dout[7:0]CLKDin1
shift_out
Dout 0CLK
1
2
Dout
Din[7:0]
shift_out
DoutCLK
3
Din[7:0]
shift_out
DoutCLK
4
Din[7:0]
shift_out
DoutCLKDin[7:0]
shift_in
Dout[7:0]CLKDin2
shift_in
Dout[7:0]CLKDin3
shift_in
Dout[7:0]CLKDin4
CLKDin[7:0]
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 6
デバイスの性能と使用率の測定: 競合比較の概要
各デザインの使用率と性能の表
表 1 は、 今回の比較で使用した OpenCores デザインの一覧です。 この表に示す www.opencores.org ウェブサイ トへのリ ンクから各デザインの詳細を確認し、 HDL ソース コードをダウンロードできます。 表 1 には、 最大 LUT 使用率とスタンプされたインスタンスの実数を示しています。 スタンプされたインスタンスの数が多いほど、 デバイスに組み込まれたデザイン コンテンツが多いこ とを表します。 右端の列は、 スタンプされたインスタンスの最大数における競合デバイスに対する UltraScale デバイスの優位性を示しています。
この結果から、 Vivado ツールがほとんどのデザインで高い LUT 使用率 (最大 99%) を実現するこ とがわかり ます。 Quartus Prime の平均 LUT 使用率が 65% であるこ とからも、 今回選択したすべてのデザインで UltraScale デバイスがいかに多くのスタンプをパッ クするかが見て取れます。
表 1: ベンチマーク比較で使用した Open Cores デザイン
# OpenCores デザイン名 デザイン機能
最大 LUT 使用率/最大インスタンス数 UltraScale の
エリアの優位性UltraScale Arria 10
1OC_reed_solomon_decoder エラー訂正 95%/200 75%/183 +9%
URL: https://opencores.org/project,reed_solomon_decoder
2OC_wishbone_fir 有限インパルス応答
フ ィルター99%/80 62%/45 +63%
URL: https://opencores.org
3OC_huffman_decoder データ圧縮 69%/360 44%/120 +200%
URL: https://opencores.org/project,huffmandecoder
4OC_quadrature_oscillator 通信 90%/565 76%/85 +564%
注記 1 を参照
5OC_image_warp 画像処理 83%/230 65%/190 +8%
URL: https://opencores.org/project,warp
6OC_tmu ビデオ合成 86%/230 66%/197 +17%
注記 1 を参照
7OC_potato_processor プロセッサ 88%/240 53%/130 +84%
URL: https://opencores.org/project,potato https://github.com/skordal/potato
8OC_open_tv80 マイクロコン ト ローラー 97%/125 72%/120 +4%
URL: https://opencores.org/project,tv80
9OC_trigonometric_functions 数値演算 69%/360 80%/190 +89%
URL: https://opencores.org/project,trigonometric_functions_in_double_fpu
10OC_fm 無線デザイン 95%/250 70%/140 +78%
URL: https://opencores.org/project,simple_fm_receiver
平均 LUT % (幾何平均): 86% 65%
注記:1. このデザインは OpenCores のウェブサイ トから リ ンク されなくな り ましたが、 要望に応じて提供されます。
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 7
デバイスの性能と使用率の測定: 競合比較の概要
表 2 は、 各 OpenCores デザインでの性能情報を示しています。 右端の列は、 UltraScale デバイス と競合デバイスの平均 FMAX 性能の差分を示しています。 これは、 両デバイスで正常に結果が得られたすべての実行を基に計算されています (個々の性能の数値については、 「OpenCores 集計結果の詳細」 のグラフを参照)。
表 2: 性能情報
# OpenCores デザイン名 デザイン機能1 つのコアでの FMAX UltraScale
FMAX の優位性 (スタンプさ
れた実行全体の幾何平均)UltraScale Arria 10
1 OC_reed_solomon_decoder エラー訂正 441MHz 336MHz +13%
2 OC_wishbone_fir 有限インパルス応答フ ィルター
254MHz 186MHz +35%
3 OC_huffman_decoder データ圧縮 285MHz 221MHz +18%
4 OC_quadrature_oscillator 通信/変調 297MHz 234MHz +35%
5 OC_image_warp 画像処理 314MHz 276MHz +8%
6 OC_tmu ビデオ合成 327MHz 227MHz +8%
7 OC_potato_processor プロセッサ 156MHz 117MHz +23%
8 OC_open_tv80 マイ クロコン ト ローラー 243MHz 198MHz +6%
9 OC_trigonometric_functions 数値演算 422MHz 318MHz +61%
10 OC_fm 無線デザイン 241MHz 233MHz +0%
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 8
デバイスの性能と使用率の測定: 競合比較の概要
OpenCores 集計結果の詳細
このセクシ ョ ンでは、 ベンチマークで測定された個々のデータ ポイン トについて説明します。 それぞれのデザインについて 2 つのグラフを示しています。 1 つは性能のグラフ、 も う 1 つはデバイス と LUT の使用率のグラフで、 スタンプされたインスタンスの数で測定される実際のデザイン コンテンツを X 軸と しています。 後者のグラフで描画されている 2 本の線のうち 1 本はデバイス使用率 (コンフ ィギャラブル ロジッ ク ブロ ッ ク (CLB) または ALM の割合) を表し、 も う 1 本は LUT 使用率を表します。 LUT 使用率はデバイス使用率よ り も粒度の細かいメ ト リ クスであるため、 その線は常にデバイス使用率の線の下に位置します。
OC_reed_solomon_decoder
分析: このデザインでは UltraScale デバイスにインスタンスが 200 個まで追加され、最終的な LUT 使用率は 95% です。使用率グラフ (図 5 の下) からわかるよ うに、 Vivado ツールは、 LUT を最大限に使用するまで UltraScale デバイスの CLB へのロジックのパッ ク密度を上げています。
Arria 10 の LUT 使用率のピークは 75% です。 このポイン ト を超える と、 Quartus は追加のロジッ クを受け入れられなくな り ます。
直接比較できるインスタンスについては、 いずれも UltraScale デバイスの FMAX が Arria 10 を上回っています。 UltraScale デバイスの性能は、 LUT 使用率が 95% のデザインでも 300MHz を超えたまま となっています。
X-Ref Target - Figure 5
図 5: OC_reed_solomon_decoder の結果
WP496_05_080217
500
450
400
350
300
250
200
150
100
100
80
60
40
20
0
50
0 50 100
X Axis: Instances
150
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
2000
X Axis: Instances
0 10 30 50 70 90 110 130 150 170 182 200186184
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 9
デバイスの性能と使用率の測定: 競合比較の概要
OC_wishbone_fir
分析: デバイスにパッ クできるインスタンス数に、 顕著な違いが見られます。 Quartus では、 ロジッ クのインプリ メン トに使用する ALM が不足しているこ とが早い段階で報告されます。一方 UltraScale デバイスの LUT 使用率は、競合デバイスが 62% であるのに対し、 99.5% に達しています。 図 6 を参照してください。
UltraScale デバイスは性能面でも勝っています。 UltraScale デバイスは、 フルになった状態 (80 個のインスタンス) でも、 スタンプが 1 回のみの Arria 10 よ り も高い FMAX で稼働しています。
X-Ref Target - Figure 6
図 6: OC_wishbone_fir の結果
WP496_06_080217
300
250
200
150
100
50
100
70
50
30
10
20
40
60
80
90
0
0 20 3010 40 50 70
X Axis: Instances
60
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
800
X Axis: Instances
1 10 15 20 25 3530 40 45 50 55 60 80757065
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 10
デバイスの性能と使用率の測定: 競合比較の概要
OC_huffman_decoder
分析: 各デバイスに配置配線できるインスタンス数も大き く異な り ます。 UltraScale デバイスには Arria 10 の 3 倍のインスタンスを配置できます (Arria 10 が 120 個であるのに対して 360 個)。 Arria 10 デバイスでの最後の実行では、 ALM 使用率は 90% ですが、 使用されている LUT はわずか 44% です。 これは、 一連の実行で測定された中で最大のギャップです。 図 7 を参照してください。
性能面でも UltraScale デバイスが優位に立っており、 競合デバイスの結果が得られる個々のすべての実行で UltraScale デバイスの方が優れた性能を示しています。
X-Ref Target - Figure 7
図 7: OC_huffman_decoder の結果
WP496_07_080217
300
250
200
150
100
50
100
70
50
30
10
20
40
60
80
90
0
60-40 260
X Axis: Instances
160
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
3600
X Axis: Instances
1 40 80 120 160 240200 280 320 360
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 11
デバイスの性能と使用率の測定: 競合比較の概要
OC_quadrature_oscillator
分析: この VHDL デザインについては、 FMAX と ロジッ ク容量の両方で UltraScale デバイスが勝っています。 このデザインでは、 インスタンスごとにメモ リ ブロッ クが 1 つしか使用されません。 LUT とキャ リー チェーン (算術演算に使用) が混在するロジッ ク インターコネク ト といったタイ ミ ング ク リ ティカルなパスには影響しません。 図 8 を参照して ください。
次に示す結果から、 2 つのデバイスに著しい違いがあるこ とがわかり ます。 これは、 Kintex UltraScale デバイスが、 VHDL で記述される メモ リの 1 つを単一の RAM ブロ ッ ク と してインプリ メン トするためです。競合デバイスでは、 このメモリが LUT とフ リ ップフロ ップにマップされます。 Arria 10 デバイスでスタンプごとに多くのリ ソースが使用されるのはそのためです。
X-Ref Target - Figure 8
図 8: OC_quadrature_oscillator の結果
WP496_08_080217
300
250
200
150
100
50
100
70
50
30
10
20
40
60
80
90
0
1000 300 400 500
X Axis: Instances
200
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
0
X Axis: Instances
0 100 200 300 400 500
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 12
デバイスの性能と使用率の測定: 競合比較の概要
OC_image_warp
分析: 最大 LUT 使用率は、 UltraScale デバイスで 83% であるのに対して Arria 10 では 65% です。 このデザインでは、 統合された DSP ブロ ッ ク とブロ ッ ク RAM ブロ ッ ク も使用されています。 図 9 を参照してください。
タイ ミ ング ク リ ティカルなパスは、 ブロ ッ ク RAM から DSP48 セル、 そして複数レベルの LUT におよびます。結果を見る と、こ こでも比較可能なすべてのケースで FMAX は UltraScale デバイスが勝っています。
X-Ref Target - Figure 9
図 9: OC_image_warp の結果
WP496_09_080217
350
300
250
200
150
100
50
100
70
50
30
10
20
40
60
80
90
0
40200 120 140 160 170 180 200
X Axis: Instances
80 10060
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
0
X Axis: Instances
1 20 40 8060 100 120 160 200180140 220
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 13
デバイスの性能と使用率の測定: 競合比較の概要
OC_tmu
分析: UltraScale デバイスが LUT 使用率と インスタンス数の点で明らかに優位に立っています。UltraScale デバイスが 86% (230 スタンプ) であるのに対して Arria 10 は 66% (197 スタンプ) です。 このデザインでも、 統合されたブロッ ク RAM と DSP が使用されています。 図 10 を参照してください。
ほとんどのク リ ティカル パスは、 インターコネク ト と LUT に基づいており、 「エッジ ト レース」 レベルの階層に含まれています。
X-Ref Target - Figure 10
図 10: OC_tmu の結果
WP496_10_080217
350
300
250
200
150
100
50
100
70
50
30
10
20
40
60
80
90
0
3020 130 180 230
X Axis: Instances
80
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
0
X Axis: Instances
1 50 100 200150 250
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 14
デバイスの性能と使用率の測定: 競合比較の概要
OC_potato_processor
分析: 配置配線可能なインスタンスの最大数は、 UltraScale デバイスが 240 であるのに対して Arria 10 は 130 です。 また、 LUT の最大使用率は、 UltraScale が 88% でしたが Arria 10 はわずか 53% でした。 UltraScale デバイスでは、 ブロ ッ ク RAM と分散 RAM (CLB ベース) の両方が利用されています。 図 11 を参照して ください。
プロセッサ デザインでよ く見られるよ うに、 ク リ ティカル パスには多数のレベルのロジッ ク (21) があるため、 FMAX の数値は比較的低くな り ます。 ただし、 UltraScale デバイスはどの実行でも常に 100MHz を超え、比較可能なケースでは常に Arria 10 を上回っています。
X-Ref Target - Figure 11
図 11: OC_potato_processor の結果
WP496_11_080217
180
160
140
120
100
800
60
40
20
100
70
50
30
10
20
40
60
80
90
0
30-10 140 190 240
X Axis: Instances
90
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScale Arria 10
0
X Axis: Instances
1 40 80 160 200120 240
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 15
デバイスの性能と使用率の測定: 競合比較の概要
OC_tv80
分析: 2 つのデバイスは性能とエ リ アの両方で接近していますが、 どちらのケースでも引き続き UltraScale デバイスが優位に立っています。 このデザインではブロ ッ ク RAM ブロ ッ ク も DSP ブロ ッ ク も使用されず、 ク リ ティカル パスのロジッ ク レベル数は約 13 です。 図 12 を参照してください。
使用率のグラフを見る と、 110 個のインスタンスで CLB 使用率がほぼ 100% に達していますが、 Vivado ツールによってロジックのク ラスター化が制御されて、 さ らに多くのインスタンスがインプリ メン ト されています。
X-Ref Target - Figure 12
図 12: OC_tv80 の結果
WP496_12_080217
300
250
200
150
100
50
100
70
50
30
10
20
40
60
80
90
0
25 75 100 125
X Axis: Instances
50
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
0
X Axis: Instances
1 50 100 125
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 16
デバイスの性能と使用率の測定: 競合比較の概要
OC_trigonometric_functions
分析: UltraScale デバイスでは、 このデザインは、 複数の LUT6 がフルで利用される純粋なインターコネク トです。 Arria 10 に比べて使用率の面で上回っているのはこのためです。 Arria 10 のアーキテクチャでは、 ク ラスターがすぐに不足して 6 入力 LUT 機能を効率よ く使用できません。 デバイス と LUT のグラフを見る と、 Arria 10 の ALM 使用率が非常に早い段階でほぼ 100% に達し、 200 個のインスタンスをインプリ メン トできないのに対し、 UltraScale では難なく 300 個のインスタンスを超えています。 図 13 を参照してください。
性能面でも明らかな違いがあ り ます。 このデザインのよ うに 5 レベルのロジッ クを必要とするデザインでは、 UltraScale デバイスは 400MHz を超えるこ とが可能であ り、 場合によっては競合デバイスの結果を 150MHz 近く上回り ます。
X-Ref Target - Figure 13
図 13: OC_trigonometric_functions の結果
WP496_13_080217
450
400
350
250
200
100
150
50
300
100
70
50
30
10
20
40
60
80
90
0
40 32028024080 160 200 360
X Axis: Instances
120
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
0
X Axis: Instances
1 120 30024030 180150 2702109060 360
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 17
デバイスの性能と使用率の測定: 競合比較の概要
OC_fm
分析: このデザインには多数の加算器ツ リーがあり ますが、 Vivado ツールは UltraScale デバイスの 2 つの LUT6 出力を活用して、これらのツ リーをきわめて効率よ く インプリ メン ト します。 これによ り、 非常にコンパク ト なロジッ クで高性能のデザインが実現します。 図 14 を参照してください。
UltraScale デバイスがインプリ メン トするスタンプの数は、 Arria 10 を 100 以上も上回り ます。
X-Ref Target - Figure 14
図 14: OC_fm の結果
WP496_14_080817
300
250
200
100
50
150
100
80
60
40
20
10
30
50
70
90
0
0 20015050 100 250
X Axis: Instances
FMAX MHzUltraScaleArria 10
Percentage CLB/ALM/LUTUltraScaleArria 10
0
X Axis: Instances
1 50 150100 200 250
WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 18
デバイスの性能と使用率の測定: 競合比較の概要
まとめデバイスが最大限に埋まるまで徐々にスタンプされる複数の OpenCores デザインを使用した結果、 Kintex UltraScale FPGA の LUT 使用率は 69% から 99% であるのに対し、 Arria 10 では 44% から 80% でした。 高い LUT 使用率は、 ザイ リ ンクス デバイスにはよ り多くのデザイン コンテンツを組み込むこ とができるこ とを意味します。 一方、 Arria 10 ではク ラスターのコネクティビティに制限があるために、 LUT 使用率が低く コンテンツも少なくな り ます。
また、 Kintex UltraScale デバイスは、場合によっては 2 スピード グレード上の高い性能 (FMAX) を示し、 かつ利用可能な リ ソースを有効に活用して実際のデザイン コンテンツを 20% 多く組み込みます。 これは、 OC_wishbone_fir、OC_quadrature_oscillator、 OC_trigonometric_functions のケースで確認できます (表 2 を参照)。
卓越した回路アーキテクチャ と制限のない LUT コネクティビティに高度なツールを組み合わせるこ とで、 ザイ リ ンクスは競合を圧倒するきわめて効率的なデザインを実現します。
改訂履歴次の表に、 この文書の改訂履歴を示します。
免責事項本通知に基づいて貴殿または貴社 (本通知の被通知者が個人の場合には 「貴殿」、 法人その他の団体の場合には 「貴社」。 以下同じ ) に開示され
る情報 (以下 「本情報」 といいます) は、 ザイ リ ンクスの製品を選択および使用するこ とのためにのみ提供されます。 適用される法律が許容す
る最大限の範囲で、 (1) 本情報は 「現状有姿」 、 およびすべて受領者の責任で (with all faults) とい う状態で提供され、 ザイ リ ンクスは、 本通知
をもって、 明示、 黙示、 法定を問わず (商品性、 非侵害、 特定目的適合性の保証を含みますがこれらに限られません)、 すべての保証および条
件を負わない (否認する ) ものと します。 また、 (2) ザイ リ ンクスは、本情報 (貴殿または貴社による本情報の使用を含む) に関係し、起因し、関
連する、 いかなる種類・性質の損失または損害についても、責任を負わない (契約上、不法行為上 (過失の場合を含む)、 その他のいかなる責任
の法理によるかを問わない) ものと し、 当該損失または損害には、 直接、 間接、 特別、 付随的、 結果的な損失または損害 (第三者が起こした行
為の結果被った、 データ、 利益、 業務上の信用の損失、 その他あらゆる種類の損失や損害を含みます) が含まれるものと し、 それは、 たとえ
当該損害や損失が合理的に予見可能であった り、 ザイ リ ンクスがそれらの可能性について助言を受けていた場合であったと しても同様です。
ザイ リ ンクスは、 本情報に含まれるいかなる誤り も訂正する義務を負わず、 本情報または製品仕様のアップデート を貴殿または貴社に知らせ
る義務も負いません。事前の書面による同意のない限り、貴殿または貴社は本情報を再生産、変更、頒布、 または公に展示してはなり ません。
一定の製品は、 ザイ リ ンクスの限定的保証の諸条件に従う こ と となるので https://japan.xilinx.com/legal.htm#tos で見られるザイ リ ンクスの販売
条件を参照して ください。 IP コアは、 ザイ リ ンクスが貴殿または貴社に付与したライセンスに含まれる保証と補助的条件に従う こ とになり ま
す。 ザイ リ ンクスの製品は、 フェイルセーフと して、 または、 フェイルセーフの動作を要求するアプリ ケーシ ョ ンに使用するために、 設計さ
れたり意図されたり していません。 そのよ うな重大なアプリ ケーシ ョ ンにザイ リ ンクスの製品を使用する場合のリ スク と責任は、 貴殿または
貴社が単独で負う ものです。 https://japan.xilinx.com/legal.htm#tos で見られるザイ リ ンクスの販売条件を参照してください。
自動車用のアプリケーシ ョ ンの免責条項オー ト モーテ ィブ製品 (製品番号に 「XA」 が含まれる ) は、 ISO 26262 自動車用機能安全規格に従った安全コンセプ ト または余剰性の機能
( 「セーフティ設計」 ) がない限り、 エアバッグの展開における使用または車両の制御に影響するアプ リ ケーシ ョ ン ( 「セーフティ アプリ ケー
シ ョ ン」 ) における使用は保証されていません。 顧客は、 製品を組み込むすべてのシステムについて、 その使用前または提供前に安全を目的
と して十分なテス ト を行う ものと します。 セーフティ設計なしにセーフティ アプリ ケーシ ョ ンで製品を使用する リ スクはすべて顧客が負い、
製品の責任の制限を規定する適用法令および規則にのみ従う ものと します。
この資料に関するフ ィードバッ クおよびリ ンクなどの問題につきましては、 [email protected] まで、 または各ページの右下にある
[フ ィードバッ ク送信] ボタンをク リ ッ クする と表示されるフォームからお知らせください。 いただきましたご意見を参考に早急に対応させて
いただきます。 なお、 このメール アドレスへのお問い合わせは受け付けており ません。 あらかじめご了承ください。
日付 バージョ ン 内容
2017 年 8 月 8 日 1.0.1 誤植の修正
2017 年 8 月 7 日 1.0 初版