18
© Copyright 2017 Xilinx, Inc. XilinxXilinx のロゴ、 ArtixISEKintexSpartanVirtexVivadoZynq、 およびこの文書に含まれるその他の指定されたブランドは、 米 国およびその他各国のザイ リ ンクス社の商標です。 すべてのその他の商標は、 それぞれの保有者に帰属します。 この資料は表記のバージ ョ ンの英語版を翻訳したもので、 内容に相違が生じる場合には原文を優先します。 資料によっては英語版の更新に対応していないものがありま す。 日本語版は参考用と し てご使用の上、 最新情報につきま し ては、 必ず最新英語版をご参照 く だ さい。 WP496 (v1.0.1) 2017 8 8 japan.xilinx.com 1 さ まざまなアプ リ ケーシ ョ ンや市場において、 UltraScale アーキテク チャは完全に接続可能な独立したロジックと柔軟なインターコネク ト を搭載したデバイス ポート フォ リオを提供し、 高い性能と コンパ ク ト な使用率を実現しています。 ホワイ ト ペーパー : UltraScale アーキテクチャ WP496 (v1.0.1) 2017 8 8 デバイスの性能と使用率の測定: 競合比較の概要 著者: Frederic Rivoallon 概要 Vivado® Design Suite を用いた場合、 UltraScale™ アーキテクチャはデバイス使用率が 100% に近い場合で も 高 ク ロ ッ ク レート デザインを実現します。 このホワイト ペーパーでは、 一般に公開されている OpenCores デザインをベースに、 Kintex® UltraScale FPGA で得た結果を Intel (Altera ) Arria 10 と比較します。 それ ぞれのデザインについて、 性能と使用率を表す詳細なグラフを示します。 これらのデータ は、 ザ イ リ ン ク ス デバイスが 2 スピード グレード分高速で、 かつ 20% 多いデザ イ ン コン テンツを実装できるこ とを裏付けています。

デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

© Copyright 2017 Xilinx, Inc. Xilinx、 Xilinx のロゴ、 Artix、 ISE、 Kintex、 Spartan、 Virtex、 Vivado、 Zynq、 およびこの文書に含まれるその他の指定されたブラン ドは、 米国およびその他各国のザイリンクス社の商標です。 すべてのその他の商標は、 それぞれの保有者に帰属します。

この資料は表記のバージ ョ ンの英語版を翻訳したもので、 内容に相違が生じる場合には原文を優先します。 資料によっては英語版の更新に対応していないものがあります。 日本語版は参考用と してご使用の上、 最新情報につきましては、 必ず最新英語版をご参照く ださい。

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 1

さまざまなアプリ ケーシ ョ ンや市場において、 UltraScale アーキテクチャは完全に接続可能な独立したロジッ ク と柔軟なインターコネクト を搭載したデバイス ポート フォ リオを提供し、 高い性能と コンパク ト な使用率を実現しています。

ホワイ ト ペーパー : UltraScale アーキテクチャ

WP496 (v1.0.1) 2017 年 8 月 8 日

デバイスの性能と使用率の測定: 競合比較の概要

著者: Frederic Rivoallon

概要

Vivado® Design Suite を用いた場合、 UltraScale™ アーキテクチャはデバイス使用率が 100% に近い場合でも高クロ ッ ク レート デザインを実現します。

このホワイ ト ペーパーでは、 一般に公開されている OpenCores デザインをベースに、Kintex® UltraScale FPGA で得た結果を Intel 社 (旧 Altera 社) の Arria 10 と比較します。 それぞれのデザインについて、 性能と使用率を表す詳細なグラフを示します。 これらのデータは、 ザイ リ ンクス デバイスが 2 スピード グレード分高速で、 かつ 20% 多いデザイン コンテンツを実装できるこ とを裏付けています。

Page 2: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 2

デバイスの性能と使用率の測定: 競合比較の概要

はじめにOpenCores デザインをベース と した検証可能な結果から、 ザイ リ ンクス UltraScale アーキテクチャは、 競合デバイスに比べて 2 スピード グレード分性能が高く、 かつ 20% 多いデザイン コンテンツを実装できるこ とが証明されました。 これは、 最も近い競合製品を 1 世代リードするこ とに匹敵します。

ULTRASCALE アーキテクチャと高度なデザイン ツールザイ リ ンクスの 16nm ファ ミ リおよび 20nm ファ ミ リは、 業界初の All Programmable UltraScale アーキテクチャをベース と して、 プレーナから FinFET テク ノ ロジ以降におよぶ複数のノードに対応するだけでなく、 モノ リ シッ クから 3D IC まで拡張可能な柔軟性を備えています。 ザイ リ ンクスは、 20nm で初めての ASIC ク ラス All Programmable アーキテクチャを開発し、 数百ギガビッ ト /秒レベルのシステム性能を可能にしました。 16nm では、 UltraScale+™ ファ ミ リに新しいメモ リ、 3D-on-3D、 マルチプロセッシング SoC (MPSoC) 技術を統合しました。

Vivado Design Suite は単独で、SoC デバイスに対応した IP およびシステム中心型の開発環境を提供します。 この強力なデザイン プラ ッ ト フォームと、 UltraScale アーキテクチャの柔軟性および目標消費電力の実現性を組み合わせるこ とで、 システム レベルの統合と インプリ メンテーシ ョ ンにおける複雑な生産性のボ トルネッ クを特定し、 即座に対処して取り除く こ とができます。

効率に優れたデバイス集積度

UltraScale アーキテクチャを Vivado ツール スイート と併用する と、 競合デバイス とは異なりデバイス ロジッ クが持つ潜在能力を最大限に活用できます。 これは、 コス ト と消費電力の大幅な削減に直結します。

アーキテクチャ とツールは、 最も効率の高い結果をもたらすよ うに連動する必要があ り ます。 この原則を満たしていないと、デザインの効率が大き く失われかねません。 これを表しているのが図 1 です。 この図から、 競合デバイスは、 LUT 使用率がまだかなり低い状態であっても、 追加のロジッ クを受け入れなくなるこ とがわかり ます。

デバイスを比較した場合、 UltraScale アーキテクチャは、 Vivado ツール スイートの高度なアルゴ リズムによって、 よ り多くのロジッ クをパッ クできます。 すべてのデザインで平均する と、 デバイス使用率が最大のと きに使用できる LUT の割合が、UltraScale デバイスでは 86% であるのに対して競合デバイスでは 65% に留ま り ます。

Page 3: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 3

デバイスの性能と使用率の測定: 競合比較の概要

Vivado ツールによるデバイス使用率の向上UltraScale アーキテクチャでは LUT が完全に独立しているため、 Vivado ツールを使用してきわめて高い使用率でこれらを配線できます。 デザイン コンテンツを反復的に追加するベンチマークでは、 Vivado ツールによって 99% の LUT 使用率を達成しながら、 デザインを配置配線し、 タイ ミ ングを満たすこ とができます。 一方、 競合デバイスは十分なデバイス使用率を達成できず、 配置配線ツールも使用可能な LUT を多く残したままの段階でデザインをインプ リ メン トできな くな り ます。

優れたアーキテクチャによる優れた LUT 使用率競合他社では、 物理ク ラスター (適応型ロジッ ク モジュール (ALM)) の接続上の制約が原因となってク ラスター内の一方の LUT のみが使用され、 も う一方が使用されないままになるこ とが多いこ とから、 LUT 使用率が十分なレベルに到達できないのは当然と言えます。

Arria 10 では、 物理ク ラスター (ALM) に 2 つの 6 入力 LUT (LUT6) を含めるこ とができます。 ただし、 この 2 つの LUT は、 ほとんど実現不可能な接続上の制約の下で 1 つの ALM にパッ クするしかないため、 追加の ALM が必要となるこ とが少なくあり ません。 Kintex UltraScale デバイスでは、 LUT6 は独自の入力を持ち、 物理クラスター内のほかの LUT とは独立してロジックをインプリ メン トできます。 図 2 を参照してください。

X-Ref Target - Figure 1

図 1: 標準的なデバイスの LUT 使用率とデザイン コンテンツの関係

X-Ref Target - Figure 2

図 2: LUT アーキテクチャの違い

WP496_01_071117

100%

LUTs

Device Utilization

ALUTs

Device Utilization

80

60

40

20

X Axis - Increased Design Content (Number of Instances)0

Kintex UltraScalehigh LUT utilization

Arria 10 reaches capacitywith lower LUT utilization

WP496_02_080217

LUT6

LUT6

2 6-Input LUTs UltraScale

Architecture

LUT6

LUT6

4

4

4

2 6-Input LUTs Arria 10

Page 4: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4

デバイスの性能と使用率の測定: 競合比較の概要

図 2 を見る と、 Kintex UltraScale デバイスでは 2 つの 6 入力 LUT が完全に独立しています。 Arria 10 では 2 つの 6 入力 LUT は 4 つの入力を共有する場合にのみ ALM 内で共存できます。

Vivado 配置配線ツール テク ノ ロジと UltraScale アーキテクチャは、 高密度で難しいデザインに対応できるよ うに設計され、 高い LUT 使用率を達成できるため、 ユーザーはよ り多くのロジッ クをデバイスに組み込むこ とができます。 ロジッ ク使用率の高い大きなデバイスでも、 Vivado ツールのインプリ メンテーシ ョ ン エンジンによって、 使用率の低いデバイス と変わらない結果を得るこ とができます。 Vivado ツールは、 デザインに多くのインスタンスが追加された場合でも、 性能を適切に維持し、毎回の実行で一貫した結果を得られるよ うにします。

結果を予測できる安定した性能

Vivado Design Suite には、 高性能を実現する最先端の配置配線アルゴ リズムが備わっています。 現在と将来のテク ノ ロジ (20nm 以下) では、 インターコネク トが最大のボ トルネッ ク となる傾向があ り ます。 Vivado の配置配線ツールは、 複数の変動要素 (タイ ミ ング、 インターコネク ト使用率、 配線長) を同時に最適化するこ とで、 予測可能なデザイン ク ロージャを実現します。 一連の OpenCores デザインから、 UltraScale アーキテクチャの平均的な性能 (FMAX) は、 Arria 10 デバイス と比べて平均で 25% 高速である と測定されました (図 3 の各データ ポイン ト を参照)。

X-Ref Target - Figure 3

図 3: 1 つのインスタンスで測定した OpenCores デザインの FMAX

WP496_03_080217

OC_read_solomon_decoder

OC_trigonometric_functions

OC_quadrature_oscillator

OC_huffman_decoder

OC_wishbone_fir

OC_open_tv80

OC_fm

OC_wrap_tmu

OC_image_wrap

OC_potato_processor

0 50 100 150

UltraScale

Performance (FMAX)

200 250 300 350 400 450 500

Arria 10

Page 5: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 5

デバイスの性能と使用率の測定: 競合比較の概要

OPENCORES デザイン

ベンチマークのセッ トアップ

こ こでは、 ザイ リ ンクスの 20nm デバイス と、競合他社のツールで公に利用可能な最新のノード (2017 年 6 月時点) を比較してデータ結果を生成しました。 デザインには、 現在の市場ニーズを代表する OpenCores デザインを選択し、 さまざまなデバイス リ ソース タイプ (ロジッ ク、 RAM、 および DSP) を動作させました。 選択したデバイスは、 Kintex UltraScale XCKU115-FLVF1924-3 FPGA と Arria 10 10AX115U1F45E1SG です。 スピード グレードは、 共にそれぞれのツール パッケージ (Vivado Design Suite 2017.1 および Quartus® Prime v16.1) で最速です。 次に、 各デザインを繰り返しスタンプして、 増えたロジッ クをツールがインプリ メン トできな くなるまで、 徐々にデバイスを埋めていきました。 この実験は、 ツールのデフォルトのオプシ ョ ンを使用し、 厳しいタイ ミ ング制約の下で実施されました。 シフ ト レジスタを含む最上位ラ ッパーを使用して、スタンプあたりの最上位入力ポート と最上位出力ポートの数がそれぞれ 1 つになるまで I/O 数を減らしました。 すべてのインスタンスの接続では、 各コアのクロ ッ クをスタンプされたすべてのコアが共有するグローバル バッファーにマップするこ とで、 どのラ ッパー ロジッ クにも性能上のボ トルネッ クが発生しないよ うにしました (図 4 を参照)。

X-Ref Target - Figure 4

図 4: I/O 数を減らすためのメカニズム (5 回スタンプする場合)

WP496_04_080217

I/O Reduction for InputsI/O Reduction for Outputs

Instances (Stamps)

shift_in

Dout[7:0]CLKAux_CLK

Din[4:0]Dout[4:0]

Din0stamp1

sys_clk_refsys_rst_n

stamp2

sys_clk_refsys_rst_n shift_out

stamp3

sys_clk_refsys_rst_n

stamp4

sys_clk_refsys_rst_n

stamp5

sys_clk_refsys_rst_n

CLKRST

shift_in

Dout[7:0]CLKDin1

shift_out

Dout 0CLK

1

2

Dout

Din[7:0]

shift_out

DoutCLK

3

Din[7:0]

shift_out

DoutCLK

4

Din[7:0]

shift_out

DoutCLKDin[7:0]

shift_in

Dout[7:0]CLKDin2

shift_in

Dout[7:0]CLKDin3

shift_in

Dout[7:0]CLKDin4

CLKDin[7:0]

Page 6: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 6

デバイスの性能と使用率の測定: 競合比較の概要

各デザインの使用率と性能の表

表 1 は、 今回の比較で使用した OpenCores デザインの一覧です。 この表に示す www.opencores.org ウェブサイ トへのリ ンクから各デザインの詳細を確認し、 HDL ソース コードをダウンロードできます。 表 1 には、 最大 LUT 使用率とスタンプされたインスタンスの実数を示しています。 スタンプされたインスタンスの数が多いほど、 デバイスに組み込まれたデザイン コンテンツが多いこ とを表します。 右端の列は、 スタンプされたインスタンスの最大数における競合デバイスに対する UltraScale デバイスの優位性を示しています。

この結果から、 Vivado ツールがほとんどのデザインで高い LUT 使用率 (最大 99%) を実現するこ とがわかり ます。 Quartus Prime の平均 LUT 使用率が 65% であるこ とからも、 今回選択したすべてのデザインで UltraScale デバイスがいかに多くのスタンプをパッ クするかが見て取れます。

表 1: ベンチマーク比較で使用した Open Cores デザイン

# OpenCores デザイン名 デザイン機能

最大 LUT 使用率/最大インスタンス数 UltraScale の

エリアの優位性UltraScale Arria 10

1OC_reed_solomon_decoder エラー訂正 95%/200 75%/183 +9%

URL: https://opencores.org/project,reed_solomon_decoder

2OC_wishbone_fir 有限インパルス応答

フ ィルター99%/80 62%/45 +63%

URL: https://opencores.org

3OC_huffman_decoder データ圧縮 69%/360 44%/120 +200%

URL: https://opencores.org/project,huffmandecoder

4OC_quadrature_oscillator 通信 90%/565 76%/85 +564%

注記 1 を参照

5OC_image_warp 画像処理 83%/230 65%/190 +8%

URL: https://opencores.org/project,warp

6OC_tmu ビデオ合成 86%/230 66%/197 +17%

注記 1 を参照

7OC_potato_processor プロセッサ 88%/240 53%/130 +84%

URL: https://opencores.org/project,potato https://github.com/skordal/potato

8OC_open_tv80 マイクロコン ト ローラー 97%/125 72%/120 +4%

URL: https://opencores.org/project,tv80

9OC_trigonometric_functions 数値演算 69%/360 80%/190 +89%

URL: https://opencores.org/project,trigonometric_functions_in_double_fpu

10OC_fm 無線デザイン 95%/250 70%/140 +78%

URL: https://opencores.org/project,simple_fm_receiver

平均 LUT % (幾何平均): 86% 65%

注記:1. このデザインは OpenCores のウェブサイ トから リ ンク されなくな り ましたが、 要望に応じて提供されます。

Page 7: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 7

デバイスの性能と使用率の測定: 競合比較の概要

表 2 は、 各 OpenCores デザインでの性能情報を示しています。 右端の列は、 UltraScale デバイス と競合デバイスの平均 FMAX 性能の差分を示しています。 これは、 両デバイスで正常に結果が得られたすべての実行を基に計算されています (個々の性能の数値については、 「OpenCores 集計結果の詳細」 のグラフを参照)。

表 2: 性能情報

# OpenCores デザイン名 デザイン機能1 つのコアでの FMAX UltraScale

FMAX の優位性 (スタンプさ

れた実行全体の幾何平均)UltraScale Arria 10

1 OC_reed_solomon_decoder エラー訂正 441MHz 336MHz +13%

2 OC_wishbone_fir 有限インパルス応答フ ィルター

254MHz 186MHz +35%

3 OC_huffman_decoder データ圧縮 285MHz 221MHz +18%

4 OC_quadrature_oscillator 通信/変調 297MHz 234MHz +35%

5 OC_image_warp 画像処理 314MHz 276MHz +8%

6 OC_tmu ビデオ合成 327MHz 227MHz +8%

7 OC_potato_processor プロセッサ 156MHz 117MHz +23%

8 OC_open_tv80 マイ クロコン ト ローラー 243MHz 198MHz +6%

9 OC_trigonometric_functions 数値演算 422MHz 318MHz +61%

10 OC_fm 無線デザイン 241MHz 233MHz +0%

Page 8: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 8

デバイスの性能と使用率の測定: 競合比較の概要

OpenCores 集計結果の詳細

このセクシ ョ ンでは、 ベンチマークで測定された個々のデータ ポイン トについて説明します。 それぞれのデザインについて 2 つのグラフを示しています。 1 つは性能のグラフ、 も う 1 つはデバイス と LUT の使用率のグラフで、 スタンプされたインスタンスの数で測定される実際のデザイン コンテンツを X 軸と しています。 後者のグラフで描画されている 2 本の線のうち 1 本はデバイス使用率 (コンフ ィギャラブル ロジッ ク ブロ ッ ク (CLB) または ALM の割合) を表し、 も う 1 本は LUT 使用率を表します。 LUT 使用率はデバイス使用率よ り も粒度の細かいメ ト リ クスであるため、 その線は常にデバイス使用率の線の下に位置します。

OC_reed_solomon_decoder

分析: このデザインでは UltraScale デバイスにインスタンスが 200 個まで追加され、最終的な LUT 使用率は 95% です。使用率グラフ (図 5 の下) からわかるよ うに、 Vivado ツールは、 LUT を最大限に使用するまで UltraScale デバイスの CLB へのロジックのパッ ク密度を上げています。

Arria 10 の LUT 使用率のピークは 75% です。 このポイン ト を超える と、 Quartus は追加のロジッ クを受け入れられなくな り ます。

直接比較できるインスタンスについては、 いずれも UltraScale デバイスの FMAX が Arria 10 を上回っています。 UltraScale デバイスの性能は、 LUT 使用率が 95% のデザインでも 300MHz を超えたまま となっています。

X-Ref Target - Figure 5

図 5: OC_reed_solomon_decoder の結果

WP496_05_080217

500

450

400

350

300

250

200

150

100

100

80

60

40

20

0

50

0 50 100

X Axis: Instances

150

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

2000

X Axis: Instances

0 10 30 50 70 90 110 130 150 170 182 200186184

Page 9: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 9

デバイスの性能と使用率の測定: 競合比較の概要

OC_wishbone_fir

分析: デバイスにパッ クできるインスタンス数に、 顕著な違いが見られます。 Quartus では、 ロジッ クのインプリ メン トに使用する ALM が不足しているこ とが早い段階で報告されます。一方 UltraScale デバイスの LUT 使用率は、競合デバイスが 62% であるのに対し、 99.5% に達しています。 図 6 を参照してください。

UltraScale デバイスは性能面でも勝っています。 UltraScale デバイスは、 フルになった状態 (80 個のインスタンス) でも、 スタンプが 1 回のみの Arria 10 よ り も高い FMAX で稼働しています。

X-Ref Target - Figure 6

図 6: OC_wishbone_fir の結果

WP496_06_080217

300

250

200

150

100

50

100

70

50

30

10

20

40

60

80

90

0

0 20 3010 40 50 70

X Axis: Instances

60

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

800

X Axis: Instances

1 10 15 20 25 3530 40 45 50 55 60 80757065

Page 10: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 10

デバイスの性能と使用率の測定: 競合比較の概要

OC_huffman_decoder

分析: 各デバイスに配置配線できるインスタンス数も大き く異な り ます。 UltraScale デバイスには Arria 10 の 3 倍のインスタンスを配置できます (Arria 10 が 120 個であるのに対して 360 個)。 Arria 10 デバイスでの最後の実行では、 ALM 使用率は 90% ですが、 使用されている LUT はわずか 44% です。 これは、 一連の実行で測定された中で最大のギャップです。 図 7 を参照してください。

性能面でも UltraScale デバイスが優位に立っており、 競合デバイスの結果が得られる個々のすべての実行で UltraScale デバイスの方が優れた性能を示しています。

X-Ref Target - Figure 7

図 7: OC_huffman_decoder の結果

WP496_07_080217

300

250

200

150

100

50

100

70

50

30

10

20

40

60

80

90

0

60-40 260

X Axis: Instances

160

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

3600

X Axis: Instances

1 40 80 120 160 240200 280 320 360

Page 11: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 11

デバイスの性能と使用率の測定: 競合比較の概要

OC_quadrature_oscillator

分析: この VHDL デザインについては、 FMAX と ロジッ ク容量の両方で UltraScale デバイスが勝っています。 このデザインでは、 インスタンスごとにメモ リ ブロッ クが 1 つしか使用されません。 LUT とキャ リー チェーン (算術演算に使用) が混在するロジッ ク インターコネク ト といったタイ ミ ング ク リ ティカルなパスには影響しません。 図 8 を参照して ください。

次に示す結果から、 2 つのデバイスに著しい違いがあるこ とがわかり ます。 これは、 Kintex UltraScale デバイスが、 VHDL で記述される メモ リの 1 つを単一の RAM ブロ ッ ク と してインプリ メン トするためです。競合デバイスでは、 このメモリが LUT とフ リ ップフロ ップにマップされます。 Arria 10 デバイスでスタンプごとに多くのリ ソースが使用されるのはそのためです。

X-Ref Target - Figure 8

図 8: OC_quadrature_oscillator の結果

WP496_08_080217

300

250

200

150

100

50

100

70

50

30

10

20

40

60

80

90

0

1000 300 400 500

X Axis: Instances

200

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

0

X Axis: Instances

0 100 200 300 400 500

Page 12: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 12

デバイスの性能と使用率の測定: 競合比較の概要

OC_image_warp

分析: 最大 LUT 使用率は、 UltraScale デバイスで 83% であるのに対して Arria 10 では 65% です。 このデザインでは、 統合された DSP ブロ ッ ク とブロ ッ ク RAM ブロ ッ ク も使用されています。 図 9 を参照してください。

タイ ミ ング ク リ ティカルなパスは、 ブロ ッ ク RAM から DSP48 セル、 そして複数レベルの LUT におよびます。結果を見る と、こ こでも比較可能なすべてのケースで FMAX は UltraScale デバイスが勝っています。

X-Ref Target - Figure 9

図 9: OC_image_warp の結果

WP496_09_080217

350

300

250

200

150

100

50

100

70

50

30

10

20

40

60

80

90

0

40200 120 140 160 170 180 200

X Axis: Instances

80 10060

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

0

X Axis: Instances

1 20 40 8060 100 120 160 200180140 220

Page 13: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 13

デバイスの性能と使用率の測定: 競合比較の概要

OC_tmu

分析: UltraScale デバイスが LUT 使用率と インスタンス数の点で明らかに優位に立っています。UltraScale デバイスが 86% (230 スタンプ) であるのに対して Arria 10 は 66% (197 スタンプ) です。 このデザインでも、 統合されたブロッ ク RAM と DSP が使用されています。 図 10 を参照してください。

ほとんどのク リ ティカル パスは、 インターコネク ト と LUT に基づいており、 「エッジ ト レース」 レベルの階層に含まれています。

X-Ref Target - Figure 10

図 10: OC_tmu の結果

WP496_10_080217

350

300

250

200

150

100

50

100

70

50

30

10

20

40

60

80

90

0

3020 130 180 230

X Axis: Instances

80

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

0

X Axis: Instances

1 50 100 200150 250

Page 14: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 14

デバイスの性能と使用率の測定: 競合比較の概要

OC_potato_processor

分析: 配置配線可能なインスタンスの最大数は、 UltraScale デバイスが 240 であるのに対して Arria 10 は 130 です。 また、 LUT の最大使用率は、 UltraScale が 88% でしたが Arria 10 はわずか 53% でした。 UltraScale デバイスでは、 ブロ ッ ク RAM と分散 RAM (CLB ベース) の両方が利用されています。 図 11 を参照して ください。

プロセッサ デザインでよ く見られるよ うに、 ク リ ティカル パスには多数のレベルのロジッ ク (21) があるため、 FMAX の数値は比較的低くな り ます。 ただし、 UltraScale デバイスはどの実行でも常に 100MHz を超え、比較可能なケースでは常に Arria 10 を上回っています。

X-Ref Target - Figure 11

図 11: OC_potato_processor の結果

WP496_11_080217

180

160

140

120

100

800

60

40

20

100

70

50

30

10

20

40

60

80

90

0

30-10 140 190 240

X Axis: Instances

90

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScale Arria 10

0

X Axis: Instances

1 40 80 160 200120 240

Page 15: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 15

デバイスの性能と使用率の測定: 競合比較の概要

OC_tv80

分析: 2 つのデバイスは性能とエ リ アの両方で接近していますが、 どちらのケースでも引き続き UltraScale デバイスが優位に立っています。 このデザインではブロ ッ ク RAM ブロ ッ ク も DSP ブロ ッ ク も使用されず、 ク リ ティカル パスのロジッ ク レベル数は約 13 です。 図 12 を参照してください。

使用率のグラフを見る と、 110 個のインスタンスで CLB 使用率がほぼ 100% に達していますが、 Vivado ツールによってロジックのク ラスター化が制御されて、 さ らに多くのインスタンスがインプリ メン ト されています。

X-Ref Target - Figure 12

図 12: OC_tv80 の結果

WP496_12_080217

300

250

200

150

100

50

100

70

50

30

10

20

40

60

80

90

0

25 75 100 125

X Axis: Instances

50

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

0

X Axis: Instances

1 50 100 125

Page 16: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 16

デバイスの性能と使用率の測定: 競合比較の概要

OC_trigonometric_functions

分析: UltraScale デバイスでは、 このデザインは、 複数の LUT6 がフルで利用される純粋なインターコネク トです。 Arria 10 に比べて使用率の面で上回っているのはこのためです。 Arria 10 のアーキテクチャでは、 ク ラスターがすぐに不足して 6 入力 LUT 機能を効率よ く使用できません。 デバイス と LUT のグラフを見る と、 Arria 10 の ALM 使用率が非常に早い段階でほぼ 100% に達し、 200 個のインスタンスをインプリ メン トできないのに対し、 UltraScale では難なく 300 個のインスタンスを超えています。 図 13 を参照してください。

性能面でも明らかな違いがあ り ます。 このデザインのよ うに 5 レベルのロジッ クを必要とするデザインでは、 UltraScale デバイスは 400MHz を超えるこ とが可能であ り、 場合によっては競合デバイスの結果を 150MHz 近く上回り ます。

X-Ref Target - Figure 13

図 13: OC_trigonometric_functions の結果

WP496_13_080217

450

400

350

250

200

100

150

50

300

100

70

50

30

10

20

40

60

80

90

0

40 32028024080 160 200 360

X Axis: Instances

120

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

0

X Axis: Instances

1 120 30024030 180150 2702109060 360

Page 17: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 17

デバイスの性能と使用率の測定: 競合比較の概要

OC_fm

分析: このデザインには多数の加算器ツ リーがあり ますが、 Vivado ツールは UltraScale デバイスの 2 つの LUT6 出力を活用して、これらのツ リーをきわめて効率よ く インプリ メン ト します。 これによ り、 非常にコンパク ト なロジッ クで高性能のデザインが実現します。 図 14 を参照してください。

UltraScale デバイスがインプリ メン トするスタンプの数は、 Arria 10 を 100 以上も上回り ます。

X-Ref Target - Figure 14

図 14: OC_fm の結果

WP496_14_080817

300

250

200

100

50

150

100

80

60

40

20

10

30

50

70

90

0

0 20015050 100 250

X Axis: Instances

FMAX MHzUltraScaleArria 10

Percentage CLB/ALM/LUTUltraScaleArria 10

0

X Axis: Instances

1 50 150100 200 250

Page 18: デバイスの性能と使用率の測定: 競合比較の概要 (W 496) - XilinxWP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 4 デバイスの性能と使用率の測定:

WP496 (v1.0.1) 2017 年 8 月 8 日 japan.xilinx.com 18

デバイスの性能と使用率の測定: 競合比較の概要

まとめデバイスが最大限に埋まるまで徐々にスタンプされる複数の OpenCores デザインを使用した結果、 Kintex UltraScale FPGA の LUT 使用率は 69% から 99% であるのに対し、 Arria 10 では 44% から 80% でした。 高い LUT 使用率は、 ザイ リ ンクス デバイスにはよ り多くのデザイン コンテンツを組み込むこ とができるこ とを意味します。 一方、 Arria 10 ではク ラスターのコネクティビティに制限があるために、 LUT 使用率が低く コンテンツも少なくな り ます。

また、 Kintex UltraScale デバイスは、場合によっては 2 スピード グレード上の高い性能 (FMAX) を示し、 かつ利用可能な リ ソースを有効に活用して実際のデザイン コンテンツを 20% 多く組み込みます。 これは、 OC_wishbone_fir、OC_quadrature_oscillator、 OC_trigonometric_functions のケースで確認できます (表 2 を参照)。

卓越した回路アーキテクチャ と制限のない LUT コネクティビティに高度なツールを組み合わせるこ とで、 ザイ リ ンクスは競合を圧倒するきわめて効率的なデザインを実現します。

改訂履歴次の表に、 この文書の改訂履歴を示します。

免責事項本通知に基づいて貴殿または貴社 (本通知の被通知者が個人の場合には 「貴殿」、 法人その他の団体の場合には 「貴社」。 以下同じ ) に開示され

る情報 (以下 「本情報」 といいます) は、 ザイ リ ンクスの製品を選択および使用するこ とのためにのみ提供されます。 適用される法律が許容す

る最大限の範囲で、 (1) 本情報は 「現状有姿」 、 およびすべて受領者の責任で (with all faults) とい う状態で提供され、 ザイ リ ンクスは、 本通知

をもって、 明示、 黙示、 法定を問わず (商品性、 非侵害、 特定目的適合性の保証を含みますがこれらに限られません)、 すべての保証および条

件を負わない (否認する ) ものと します。 また、 (2) ザイ リ ンクスは、本情報 (貴殿または貴社による本情報の使用を含む) に関係し、起因し、関

連する、 いかなる種類・性質の損失または損害についても、責任を負わない (契約上、不法行為上 (過失の場合を含む)、 その他のいかなる責任

の法理によるかを問わない) ものと し、 当該損失または損害には、 直接、 間接、 特別、 付随的、 結果的な損失または損害 (第三者が起こした行

為の結果被った、 データ、 利益、 業務上の信用の損失、 その他あらゆる種類の損失や損害を含みます) が含まれるものと し、 それは、 たとえ

当該損害や損失が合理的に予見可能であった り、 ザイ リ ンクスがそれらの可能性について助言を受けていた場合であったと しても同様です。

ザイ リ ンクスは、 本情報に含まれるいかなる誤り も訂正する義務を負わず、 本情報または製品仕様のアップデート を貴殿または貴社に知らせ

る義務も負いません。事前の書面による同意のない限り、貴殿または貴社は本情報を再生産、変更、頒布、 または公に展示してはなり ません。

一定の製品は、 ザイ リ ンクスの限定的保証の諸条件に従う こ と となるので https://japan.xilinx.com/legal.htm#tos で見られるザイ リ ンクスの販売

条件を参照して ください。 IP コアは、 ザイ リ ンクスが貴殿または貴社に付与したライセンスに含まれる保証と補助的条件に従う こ とになり ま

す。 ザイ リ ンクスの製品は、 フェイルセーフと して、 または、 フェイルセーフの動作を要求するアプリ ケーシ ョ ンに使用するために、 設計さ

れたり意図されたり していません。 そのよ うな重大なアプリ ケーシ ョ ンにザイ リ ンクスの製品を使用する場合のリ スク と責任は、 貴殿または

貴社が単独で負う ものです。 https://japan.xilinx.com/legal.htm#tos で見られるザイ リ ンクスの販売条件を参照してください。

自動車用のアプリケーシ ョ ンの免責条項オー ト モーテ ィブ製品 (製品番号に 「XA」 が含まれる ) は、 ISO 26262 自動車用機能安全規格に従った安全コンセプ ト または余剰性の機能

( 「セーフティ設計」 ) がない限り、 エアバッグの展開における使用または車両の制御に影響するアプ リ ケーシ ョ ン ( 「セーフティ アプリ ケー

シ ョ ン」 ) における使用は保証されていません。 顧客は、 製品を組み込むすべてのシステムについて、 その使用前または提供前に安全を目的

と して十分なテス ト を行う ものと します。 セーフティ設計なしにセーフティ アプリ ケーシ ョ ンで製品を使用する リ スクはすべて顧客が負い、

製品の責任の制限を規定する適用法令および規則にのみ従う ものと します。

この資料に関するフ ィードバッ クおよびリ ンクなどの問題につきましては、 [email protected] まで、 または各ページの右下にある

[フ ィードバッ ク送信] ボタンをク リ ッ クする と表示されるフォームからお知らせください。 いただきましたご意見を参考に早急に対応させて

いただきます。 なお、 このメール アドレスへのお問い合わせは受け付けており ません。 あらかじめご了承ください。

日付 バージョ ン 内容

2017 年 8 月 8 日 1.0.1 誤植の修正

2017 年 8 月 7 日 1.0 初版