37
温温温温温温温温温温温温温 温温温温温 温温温温温温温温温温 温温温温 温温温温‡ 温温温温‡ 温温温温温温温 温温温温温温温温温 温温温温温温温 温温温温温温温温温温温 1

温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

Embed Size (px)

DESCRIPTION

温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価. 花田高彬 †  井上弘士 ‡  村上和彰 ‡ † 九州大学大学院 システム情報科学府 ‡ 九州大学大学院 システム情報科学研究院. 発表内容. 研究背景 三次元積層マルチコア・プロセッサ 温度問題 評価実験 プロセッサ想定 温度解析 温度制約下における性能評価 発表のまとめ. 三次元積層技術. プロセッサの性能向上を実現する手段の一つ 三次元積層集積回路の特徴: 三次元積層の利点 ダイ面積を維持しつつ搭載可能トランジスタ数を向上 三次元方向配線&積層ダイの薄膜化により 総配線長を短縮. - PowerPoint PPT Presentation

Citation preview

Page 1: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

温度制約を考慮した積層構造マルチコア・プロセッサの性能

評価

花田高彬† 井上弘士‡ 村上和彰‡† 九州大学大学院 システム情報科学府

‡ 九州大学大学院 システム情報科学研究院

1

Page 2: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

発表内容

• 研究背景–三次元積層マルチコア・プロセッサ–温度問題

• 評価実験–プロセッサ想定–温度解析–温度制約下における性能評価

• 発表のまとめ

2

Page 3: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

三次元積層技術• プロセッサの性能向上を実現する手段の一つ• 三次元積層集積回路の特徴:

• 三次元積層の利点• ダイ面積を維持しつつ搭載可能トランジスタ数を向上• 三次元方向配線&積層ダイの薄膜化により

総配線長を短縮3

三次元積層 16Gbit NAND Flash(Samsung Electronics)

集積回路同士を積層し接合

積層回路間は垂直に配線※ここでは例として  層間金属柱 Through-Silicon Via (TSV) による  垂直方向配線

Page 4: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

• 主記憶 DRAM 積層プロセッサ [Loi’06][Loh’08]

–オンチップ主記憶アクセスの実現

–多数本の層間配線によって広いバス幅を確保可能

• 3D マルチコア・プロセッサ–小さい実装面積に積層ダイ数

に比例したプロセッサ・コアを搭載可能

–高速なプロセッサ・コア間通信

実現が期待されている三次元積層 (3D) プロセッサ

4

積層プロセッサダイ

積層DRAM

メモリコントローラ

プロセッサ・ダイ

発表者はこちらの 3D プロセッサに着目している

Proc. die

DRAM. die

Page 5: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

3D プロセッサの温度問題

• 3D プロセッサは2つの要因により高温化–温度上昇要因• ダイ面積当たりの消費電力密度の増加• 垂直方向熱抵抗の増加

–積層ダイ数に伴い増加

5

放熱の方向

L2$ Core

2D プロセッサ

4 層 3D プロセッサ

発熱発熱発熱

発熱発熱

放熱の方向

積層ダイ数に比例し熱抵抗増加

積層ダイの消費電力が追加

積層ダイの消費電力が追加

積層ダイ数増加に伴い消費電力密度が増加

Page 6: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

温度制約下における3D マルチコア・プロセッサの性能

例えば,以下の想定を置く 温度制約を満たしつつ 3D マルチコア・プロセッサ

を動作⇒温度低減のため動作周波数を調整

この時,積層ダイが増えると…

6

2 層積層コア数は倍 !

4 層積層 コア数さらに倍 !!

プロセッサ・コア数(並列度)低 高

動作周波数高 低

並列度と動作周波数のトレード・オフ関係⇒積層ダイ数増加によって性能向上するかどうかわからな

い !!

Page 7: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

性能評価の目的と手順

• 目的:温度制約下における 3D マルチコア・プロセッサの性能評価–プロセッサ・ダイ積層によるコア数増加が

性能へ与える影響を明らかにする• 評価手順:

1.温度解析⇒温度制約を満たす動作周波数を得る

2.温度制約下における性能評価7

Page 8: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

発表内容

• 研究背景–三次元積層マルチコア・プロセッサ–温度問題

• 評価実験–プロセッサ想定–温度解析–温度制約下における性能評価

• 発表のまとめ

8

Page 9: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

• 積層構造

• フロアプラン

3D マルチコア・プロセッサの想定

9

層間接続構造想定プロセッサ断面図( 4 層構成)

ヒートスプレッダ Size: 3 x 3 x 0.1cm 熱伝導率 : 400 W/m℃

層間接合層厚 : 2um 熱伝導率 : 60.24W/m℃

ヒートシンク Size: 10 x 10 x 2.5cm 熱伝導率 : 240 W/m℃

L2 Shared Cache

L1Cache

FPU

Int

Core #1

MMUCore #2Non-Flip Flip

プロセッサ・ダイのフロアプラン(各層)2 種類の積層パタン ( 4 層 8 コアの場合)

ホットスポットになり易い

※パラメータは既存研究 [Black’06] にて扱われた値を用いた

Page 10: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

温度解析実験の概要

• 目的:  温度制約を満たす 3D マルチコア・プロセッサの最大動作周波数を得る

• 手段:

10

温度 [℃]

動作周波数[Hz]

● ● ● ●●

●●

■■

■■

 1.熱伝導シミュレーションより,   動作周波数と温度の   相関プロットを作成

 2.プロットより,近似曲線を作成 3.近似曲線より,制限

温度   での動作周波数を求める

制限温度

2 コア (2D)8 コア (3D) ※熱伝導シミュレーションには,  プロセッサ熱伝導シミュレータ “ HotSpot-5.0”[Skadron’03] を用いる

Page 11: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

• 消費電力 (@1.2GHz) : 120.11W× { ダイ数 }–各ダイの消費電力内訳

• 基準動作周波数: 1.2GHz• 基準電源電圧: 1.5V

消費電力,動作周波数,電源電圧の想定

11※コア, L2キャッシュの消費電力は, Alpha21364 のピーク消費電力 [Jain’01] を参考にした

Core #255.27W

Core #155.27W

L2 Cache 9.17W

Page 12: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

消費電力と電源電圧の動作周波数依存想定

• 消費電力と動作周波数,電源電圧の関係

• 動作周波数を 120MHz変動させる毎に電源電圧は 0.05V変動すると想定

12

2ddfVP f: 動作周波数

V: 電源電圧

Page 13: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

温度解析結果

13

• コア数増加(積層ダイ数増加)に伴い温度上昇• 熱分散を考慮に入れた積層パタンでは比較的低温

Page 14: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

温度解析結果

14

プロセッサ・コア数

2Cores(2D)

4Cores(3D 2Layers) 8Cores(3D 4Layers) 16Cores(3D 8Layers)

Non-Flip Flip Non-Flip Flip Non-Flip Flip

動作周波数 (GHz)(@ 制限温度 ) 2.00 0.98 1.18 0.61 0.75 0.37 0.47

Page 15: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

FPU(87.58 deg C)

ヒートシンク側

FPU(87.25 deg C)

Non-Flip

Flip

FPU(86.59 deg C)

FPU(85.60 deg C)

Int. Exe. Unit (72.04 deg C)

L1 Cache の一部分(71.76 deg C)

Int. Exe. Unit(71.33 deg C)

L1 Cache の一部分(70.68 deg C)

ホットスポット(温度)

ホットスポット

(温度)

第 1 層 第 2 層 第 3 層 第 4 層

Flip による熱分散効果( 3D , 8 コア@0.6GHz )

※赤字はそのプロセッサ内で最も高温となった部分(と,その温度)

Page 16: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

発表内容

• 研究背景–三次元積層マルチコア・プロセッサ–温度問題

• 評価実験–温度解析–温度制約下における性能評価

• 発表のまとめ

16

Page 17: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

性能評価実験環境

• 評価方法:性能モデルを用いた評価–指標: 1秒間当たりのギガ命令実行数 (GIPS)–モデル:

• プロセッサ・シミュレータ: M5• ベンチマーク・プログラム:

Splash-2 より 6 種のプログラムを選択

17

DFIPCGIPS 3

温度制約下動作周波数[GHz]

実ベンチマーク・プログラムを用いたプロセッサ・シミュレーションから求め

※ GIPS: Giga Instructions Per Second, IPC: Instructions Per Cycle

Page 18: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

シミュレータに与えたアーキテクチャ想定パラメータ 

• プロセッサ・コア–命令発行方式: In-Order, 発行幅 =1– L1命令/データ・キャッシュ: 32KB, 2Ways–コア数: { ダイ数 }×2 コア

• 共有 L2キャッシュ–容量 : { ダイ数 }×2MB–連想度 : 8ways– L2 アクセス時間 :

10.4nsec, 13.2nsec, 17.7nsec, 24.6nsec

18

2D 2 コア

3D 4 コア

3D 8 コア

3D 16 コア

Page 19: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

性能評価結果

19

■■■: GIPS値( Non - Flip )□□□: GIPS値( Flip )  + : IPC値

正規化 GIPS 正規化IPC

Page 20: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

性能評価結果

20

コア数増加につれて性能向上 !!

コア数増加に伴う IPC 向上率が大きい※具体的には, (IPC 向上>動作周波数低下 ) の関係が成り立っている

But.. コア数増加に見合った性能向上は得られていない

正規化 GIPS 正規化IPC

Page 21: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

性能評価結果

21

  コア数増加につれて性能低下…

コア数増加に伴う IPC 向上率が小さい※具体的には, (IPC 向上<動作周波数低下 ) の関係が成り立っている

正規化 GIPS 正規化IPC

Page 22: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

発表のまとめ• 概要:

温度制約下における 3D マルチコア・プロセッサの性能評価

• 結論:–性能を高めるには熱を分散するフロアプランが有効

–動作周波数削減による温度低減においては,コア数増加に見合う性能向上は望みにくい

• 今後の予定:–低消費電力なプロセッサをベースとした性能評価– Dynamic Thermal Management のように性能への影響

の少ない温度低減手法を取り入れた場合の性能評価22

Page 23: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

御清聴ありがとうございました

23

Page 24: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

参考文献

• 3D-NAND写真の出典: {http://www.i-micronews.com/}

• [Black’06]:– B. Black, et al. ,”Die Stacking (3D) Microarchitecture,”

MICRO, 2006.

• [Jain’01]:– A. Jain, et al. , ”A 1.2 GHz Alpha microprocessor

with 44.8 GB/s chip pin bandwidth,” ISSCC, 2001.

• [Loi’06]:– G. L. Loi, et. al. , “A Thermally-Aware Performance

Analysis of Vertically Integrated (3-D) Processor-Memory Hierarchy,” DAC, 2006. 24

Page 25: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

参考文献• [Loh’08]:– G. L. Loh. “3D-Stacked Memory Architectures for

Multi-Core Processors,” ISCA, 2008

• [Skadron’03]:– K. Skadron, et al. , ”Temperature-Aware

Microarchitecture,” ISCA, 2003.

• [橋口’ 09]–橋口慎哉 , 小野貴継 , 井上弘士 , 村上和彰 .

“3 次元 DRAM‐ プロセッサ積層実装を対象としたオンチップ・メモリ・アーキテクチャの提案と評価 ,” 情報処理学会研究報告 , 2009. 25

Page 26: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

ナノメートル・オーダーにおける微細化の問題点

26

1/2面積縮小⇒配線抵抗増

配線遅延の増加

Gate Length

LeakageOFF

リーク電流の増加

Current

• 近年,微細化による副作用が顕著になっている–グローバル配線遅延の増加–サブスレッショルド・リーク電流の増加

微細化に依らない集積度向上を実現する技術が期待されている

Page 27: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

3D プロセッサの温度低減の方法

27

大幅な温度低減のためには処理速度を落としてでも消費電力削減を行う必要がある

 プロセッサ定常温度の算出式 

大幅な温度低減は苦手

ambtsteady TPRT

• 以下の式より 3 つに大別できる

–放熱先温度の低減(例: 部屋の温度を下げる)

• 問題点:温度低減幅につれてコスト大–熱抵抗値の削減(例: 熱伝導用層間金属柱の挿入)

• 問題点:削減幅が素材によって制限–消費電力の削減(例: 動作周波数の制限)

• 問題点:処理速度への影響を伴う

Page 28: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

既存研究:温度制約下におけるメモリ積層プロセッサの性能評価 [Loi’06]

• 評価対象:主記憶 DRAM 積層プロセッサ– 3D 積層技術により主記憶 DRAM をプロセッサに

積層• 利点:メモリ・アクセス性能の向上• 欠点:高温化

⇒温度低減のため動作周波数低下

• 評価結果:(どちらも 100℃ を超えない動作周波数で動作)

28

プログラム[email protected]

(主記憶オフチップ)

[email protected](主記憶オンチッ

プ)

mcf 2.5 (nesc/Inst.)   0.65 (nsec/Inst.)

twolf 0.35 (nesc/Inst.) 0.41 (nesc/Inst.)※nsec/Inst: 平均命令実行時間 (値が小さいほど嬉しい)

2D に性能が劣る場合がある !!

主記憶積層プロセッサ

積層DRAM

Page 29: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

• 3D マルチコア・プロセッサ構造

プロセッサ想定:積層構造

29

層間接続構造想定プロセッサ断面図( 4 層構成)

ヒートシンク Size: 10cm x 10cm x 2.5cm 熱伝導率 : 240 W/m℃

ヒートスプレッダ Size: 3cm x 3cm x 0.1cm 熱伝導率 : 400 W/m℃

TSV 径 : 10um, 間隔 : 10um

層間接合層厚 : 2um 熱伝導率 : 60.24W/m℃

積層ダイ厚 : 33um,熱伝導率 : 28.09W/m℃

Page 30: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

消費電力と電源電圧の動作周波数依存想定

• 消費電力と動作周波数,電源電圧の関係

• 動作周波数を 120MHz変動させる毎に電源電圧は 0.05V変動すると想定

30

α: スイッチング確率 CL: 負荷容量 f: 動作周波数 V: 電源電圧

2ddL fVCP

Page 31: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

Flip による熱分散効果( 3D , 8 コア@0.6GHz )

• プリント基板に最も近い層の温度分布

31

L2 Cache

L1Int

FPUNon-Flip

最高温部 : FPU (87.58degC)Flip

最高温部 : Integer Exec. Unit (72.04degC)

Int

FPU

L1

L2 Cache

Flip は Non-Flip と比較して熱が分散されている⇒ ホットスポット部の温度が低い

Page 32: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

事前評価: Upper Bound を見積もる

• ピーク IPC=1 のシンプルなプロセッサ・コアを想定

32

GIPS

ピーク IPC における性能で比較した場合コア数を 8 倍にしても性能向上は高々

1.88 倍

DFIPCGIPS 3)( コア数

Page 33: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

本評価結果において未考慮な点 1

• Out-of-Order プロセッサモデルでのプロセッサ・シミュレーション–参考にしたピーク消費電力は OoO プロセッサの

消費電力⇒高精度な評価を行うためには  OoO 実行プロセッサのシミュレーションであるべき

– But.. 実験環境の問題で OoO プロセッサ・モデルでの実験を行えていない⇒今回は InOrder モデルでの評価を行った 33

Page 34: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

本評価結果において未考慮な点 2

• 三次元積層技術を用いた積層構造における共有 L2キャッシュへのアクセス時間–積層構造プロセッサの有効性を示すには,積層構

造を前提とした配線遅延時間を評価に入れた方が良い

– But.. 積層構造 L2共有バス部の配線遅延時間をどのような値にすれば良いか深く調査できていない⇒今回は 2D プロセッサにおける  L2キャッシュ・アクセス時間と同じとした

34

Page 35: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

プログラムの分類,及び3D 化による性能向上可能性

並列性:高 並列性:低

メモリ性能を要求

性能向上を望める・多コアでは IPC 向上幅が減少∵メモリ性能がボトルネック

性能向上を望みにくい・ IPC がコア数に比例して 向上しない・メモリ性能を改善できれば 性能向上も望める

メモリ性能を要求しない

性能向上を強く望める・多コアにおいても IPC 向上 

性能向上を望みにくい・ IPC がコア数に比例して 向上しない・メモリ性能の改善だけでは 性能向上は困難

35

(例:OceanContig )

(例:Barnes )

(例:Cholesky )

(例:Raytrace )

Page 36: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

性能評価結果( 2GHz – GIPS, 3D – IPC含む)

36

Page 37: 温度制約を考慮した積層構造 マルチコア・プロセッサの性能評価

OceanContig入力サイズを変更した場合

37