データ値の局所性を利用したライン共有キャッシュの提案

九州大学大学院　　　　　　　　○岡　慶太郎福本　尚人　　　　　　　　井上　弘士　　村上　和彰

キャッシュメモリの大容量化

• マルチコア・プロセッサが主流• メモリウォール問題の深刻化

– メモリアクセス要求増加– IOピンの制限

→大容量の LL(Last Level)キャッシュを搭載

2* http://www.atmarkit.co.jp/fsys/zunouhoudan/102zunou/corei7.html

Core i7のチップ写真*

8MBのL3キャッシュを

搭載

キャッシュメモリの大容量化の問題点

• リーク消費電力増加– 容量 1MB→8MBで 8倍 *

• アクセスレイテンシ増加– 容量 1MB→8MBで 2.1倍 *

大幅な面積増加を伴わず，オフチップメモリアクセス回数を削減する手法

が必要

* CACTIによりブロックサイズ 64B,連想度 8で実験した結果

• 研究背景• 着目点：データ値の局所性• ライン共有キャッシュ• 評価–ミス率，面積， L1ミスペナルティ

• まとめ• 今後の課題

• 従来型キャッシュメモリのキャッシング方法– 参照アドレスに基づいてブロックの格納場所を決定

• データ値の局所性が高いデータ値の局所性：メモリアドレスが異なる多数のデータが同一の値を有する性質

• 仮説– キャッシュ内に同一データ値を有するブロックが多数存在

タグ

ライン

001000

010011

LLキャッシュメモリインデック

100101110111

従来型キャッシュメモリは容量を無駄遣い！？

ブロックの格納場所

書込みブロック A

インデックス

タグ0100 001

参照アドレス

0100 A ブロック：キャッシュのレベル間で取り交わすデータ

データ値：ブロックのデータの値

タグ

ライン

001000

010011

LLキャッシュメモリインデック

100101110111

従来型キャッシュメモリは容量を無駄遣い！？

ブロックの格納場所

書込みブロック A

インデックス

タグ0000 101

参照アドレス

0100 A

データ値：ブロックのデータの値

0000 A

• 従来型キャッシュメモリのキャッシング方法– 参照アドレスに基づいてブロックの格納場所を決定

• データ値の局所性が高いデータ値の局所性：メモリアドレスが異なる多数のデータが同一の値を有する性質

• 仮説– キャッシュ内に同一データ値を有するブロックが多数存在

ブロック：キャッシュのレベル間で取り交わすデータ

従来型キャッシュメモリにおけるデータ値の局所性分析

多くのプログラムでキャッシュメモリ内のデータ値の局所性が高い

n:ブロック置き換え回数

平均圧縮率 =

キャッシュメモリ内のデータ値の局所性を平均圧縮率を用いて分析

Cholesky

BarnesFF

LUContig

LUNonco

OceanContig

WaterN

WaterSp

average

00.20.40.60.8

64B 32B 16B 8B

平均圧縮率

キャッシュメモリ

圧縮率 =

キャッシュ容量 :1MB

ブロックサイズ

平均圧縮率が低い程，キャッシュメモリ内のデータ値の局所性が高い

研究概要

• 着目点–キャッシュメモリ内に同一値を有するデータが多く存在

• 研究目的– LLキャッシュメモリの面積を大きく増加することなくLLキャッシュミス率を削減

• 提案手法–同一データ値を有するラインを共有し，容量を効率的に利用

–同容量の従来型キャッシュと比較し，最大でミス率を 18ポイント削減可能

• 研究背景• 着目点：データ値の局所性• ライン共有キャッシュ• 評価–ミス率，面積， L1ミスペナルティ

ライン共有キャッシュの概念LSC(Line Sharing Cache)

従来型キャッシュに比べ，より多くのデータ値をキャッシュメモリに格納可能

従来型キャッシュ

タグアレイ

データアレイ

タグアレイ

…Ａ

データアレイ

タグのエントリ数増

参照アドレスに基づきブロックを格納するラインを決定

同一データ値を有するブロックを格納するラインを 1箇所に限定

ライン共有キャッシュ

解決すべき課題その 1～如何にしてタグとラインを紐付けるか ?～

データアレイ

ライン

タグ

タグアレイ

各タグは対応するラインを特定できない

• タグに対応するラインを特定する必要あり• 問題点：各タグに対応するラインを特定不可能• 解決策：行番号によるラインの区別と各タグに行ポインタ

配置

データアレイ

ライン000

001010011100101110111

行番号

タグ

タグアレイ

• タグに対応するラインを特定する必要あり• 問題点：各タグに対応するラインを特定不可能• 解決策：行番号によるラインの区別と各タグに行ポインタ

配置

各タグは対応するラインを特定できない

• タグに対応するラインを特定する必要あり• 問題点：各タグに対応するラインを特定不可能• 解決策：行番号によるラインの区別と各タグに行ポインタ配置

タグ・ポインタアレイ

タグ

行ポインタ

データアレイ

ライン000

001010011100101110111

行番号タグアレイ

解決すべき課題その 2～如何にして効率の良いデータ検索を実現するか ?～

• 書込み動作：データアレイの全ラインを探索する必要あり

• 問題点：検索コストが大• 解決策：データ値を用いたハッシング

000001010011100101110111

データアレイ行番号

タグインデックス

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス

=一致

書き込みデー

タ値の検索

ライン

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス

行番号とデータ値の下位 3ビットを対応付けてブロックを配置

000001010011100101110111

書き込みデー

タ値の検索

ライン

行番号のサイズ

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス

書込みデータ値の下位 3ビット

に対応する行番号にアクセス

=一致

000001010011100101110111

書き込みデー

タ値の検索

ライン

書込みデータ値がラインに存在

(データ値ヒット )

行ポインタ0000

000100100011

111111101101110010111001書込みブロッ

ク 11111

インデックス

タグ0100 0001

参照アドレス111

000001010011100101110111

データアレイライン

行番号を行ポインタに書込み

書込みデータ値がラインに存在

(データ値ヒット )

• データアレイ：各行番号に 1ラインを対応付け• 問題点：ブロックの追出しが頻発• 解決策：データアレイの水平分割と列ポインタの導入

0110…

行ポインタ0000

000100100011

111111101101110010111001

データアレイ

000001010011100101110111

ライン

解決すべき課題その 3～如何にしてデータアレイでの書込み競合を回避する

か ?～

書込みブロック 00111

indextag0100 0001

参照アドレス

=一致

行番号

0110…

行ポインタ0000

000100100011

111111101101110010111001

か ?～

indextag0100 0001

参照アドレス

データアレイ

000001010011100101110111

ライン

書込みデータ値がラインに非存在

(データ値ミス )

ブロックの追出しが必要

行番号

か ?～

indextag0100 0001

参照アドレス

データアレイ

000001010011100101110111

ライン

行番号

0110…

行ポインタ0000

000100100011

111111101101110010111001

か ?～• データアレイ：各行番号に 1ラインを対応付け• 問題点：ブロックの追出しが頻発• 解決策：データアレイの水平分割と列ポインタの導入

indextag0100 0001

参照アドレス 00011011

行番号

データアレイ

ライン

0110…

行ポインタ0000

000100100011

111111101101110010111001

各行番号に複数のラインを対応付け

0110…

行ポインタ0000

000100100011

111111101101110010111001

か ?～

indextag0100 0001

参照アドレス

データアレイ

00011011 11111

ライン

行番号

列番号0

列番号1

ライン

行番号，列番号によりラインを区別

indextag0100 0001

参照アドレス

データアレイ

00011011 11111

ライン

行番号

列番号0

列番号1

列ポインタ

ライン

行ポインタ

タグインデックス 0000

000100100011

111111101101110010111001

0110…

列番号を格納するために

列ポインタの導入23

0110…

インデックス 0000

000100100011

111111101101110010111001 一致

indextag0100 0001

参照アドレス

データアレイ

00011011 11111

ライン

行番号

列番号0

列番号1

列ポインタ

ブロックを追い出すことなく書込み

…ライン

タグ行ポインタ

データ値ミス

読み出し動作読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

indextag0100 0001

参照アドレス

データアレイ

00011011

ライン

行番号

列番号0

列番号1

0110…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

…ライン

読み出し動作読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

indextag0100 0001

参照アドレス

データアレイ

00011011

ライン

行番号

列番号0

列番号1

0110…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

=一致

ライン

読み出し動作

indextag0100 0001

参照アドレス

データアレイ

00011011

ライン

行番号

列番号0

列番号1

0110…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

同時に動作可能

ライン

読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

読み出し動作

indextag0100 0001

参照アドレス

データアレイ

00011011

ライン

行番号

列番号0

列番号1

0110…

行ポインタ0000

000100100011

111111101101110010111001

列ポインタ

同時に動作可能

01 0 11101

ライン

読出し要求発行後の動作1. インデックスアクセス2. タグ比較3. ポインタ読出し4. ブロック読出し

従来型キャッシュ VSライン共有キャッシュ

LSC の従来型キャッシュに対す

る違い理由

ミス率減少データアレイ容量を有効利用

読出しレイテンシ

変化なしタグとポインタを同時に読み出し

書込みレイテンシ

増加• 書込みデータ値の探索• 追出しの動作が複雑化

データアレイに対する書込み回数

減少データ値ヒットの場合データアレイに対する書込みを行わない

• 研究背景• データ値の局所性• ライン共有キャッシュ• 評価–ミス率，面積， L1ミスペナルティ

評価指標と求め方• 面積

– 実装に必要な SRAMビット数で評価• L1ミスペナルティ

– モデルにより評価• L2アクセスレインテンシ→キャッシュメモリシミュレータCACTI

• キャッシュミス率– 従来型キャッシュのミス率と平均圧縮率からの見積もりにより評価

• 従来型キャッシュのミス率→マルチコアシミュレータM5

LSCのミス率の評価方法

splash2M5によるシミュレーショ

L2アクセス

トレース

容量平均圧縮率

容量

ミス率

従来型キャッシュの L2ミス率

平均圧縮率

LSCのミス率に換算

ベンチマーク・プログラム

L2キャッシュサイズ

L2キャッシュミ

ス率評価方法

• 面積：ミス率を従来型キャッシュ 8MBにおける値に固定• ミス率：データアレイ容量を 1MBに固定• L1ミスペナルティ：データアレイ容量を 1MBに固定

8MBLSCの容量

必要ビット数

L2キャッシュミ

ス率

従来型キャッシュのミス率

LSCのミス率

面積の比較ミス率および L1ミスペナルティの比較

コア数 8

L1 キャッシュ

サイズ： 32KB, 連想度 :2, ブロックサイズ :64B

L2 キャッシュ

連想度： 8 ブロックサイズ :64B

M5の評価環境

データメモリ :1MB

従来型キャッシュ

データメモリ :1MB

base LSC base LSC base LSC base LSC base LSC base LSCCholesky Barnes FFT FMM LUCon OceanCon

データアレイ容量ポインタアレイ容量

必要メモリ容量

キャッシュミス率一定とした場合の面積削減効果

33圧縮率が低い程 ,面積を大幅に削減

52%面積削減

ブロックサイズ 64B,従来型キャッシュ容量 8MB

0.21 0.69 0.43 0.48 0.86 0.55圧縮率

データアレイ容量を一定とした場合のミス率削減効果

すべてのプログラムでミス率を削減

Cholesky

BarnesFF

LUNonco

OceanCon

OceanNonco

WaterN

WaterSp

atialRadix

Raytrace

1base LSC

キャッシュミス率

18ポイント削減

ブロックサイズ 64B，データアレイ容量 1MB

圧縮率0.21

ミス率を大幅に

削減できない

容量を増加するとミス率がすぐに飽和

L2キャッシュ容量 [MB]

L2キャッシュミス率

1 32168

容量を増加した場合，ミス率の減少幅小

すべてのプログラムでミス率を削減

Cholesky

BarnesFF

LUNonco

OceanCon

OceanNonco

WaterN

WaterSp

atialRadix

Raytrace

1base LSC

圧縮率0.55

ミス率を 18ポイント削減

00.10.20.30.40.50.60.7

L2キャッシュミス率

容量を増加する場合，ミス率の減少幅大

1 32168

データアレイ容量一定とした場合のL1ミスペナルティ削減効果

00.20.40.60.8

L1ミスペナルティ比

アクセス時間を考慮した場合でもL1ミスペナルティを大幅に削減

従来型キャッシュの L1ミスペナルティで正規化L1ミスペナル

ティ 30%削減

まとめ

• データ値の局所性を利用したライン共有キャッシュを提案–ミス率一定条件において• 面積：最大 52%削減

–容量一定条件において• ミス率：最大 18ポイント削減• L1ミスペナルティ：最大 30%削減

• ライン共有キャッシュの有効性を確認

今後の課題

• ライン共有キャッシュの詳細な評価–キャッシュミス率–アクセスレイテンシ–アクセスあたりの消費電力

• ライン共有キャッシュの適用範囲を拡張– LSCはデータアレイへの書込み回数を削減→不揮発性メモリに利用

• 既存研究との比較

ご清聴ありがとうございました

バックアップスライド

既存研究Frequent Value Compression in Data Cache• 目的– L1キャッシュの消費電力大

• アプローチ– L1キャッシュに CC(Compression Cache)を導入

• ブロックのデータ値が FVT(Frequent Value Table)に存在→ブロックを半分に圧縮し格納

• 結果– ミス率，消費電力，オフチップのトラフィックを大幅に削減

• LSCとの違い– 圧縮対象のデータを予め決定

41Jun Yang,et al.”Frequent Value Compression in Data Caches”,MICRO’00

既存研究Dynamic Zero Compression for Cache Energy Reduction

• 目的– L1キャッシュの消費電力大

• アプローチ– L1キャッシュに FVC(Frequent Value Cache)を導入

• 結果– ミス率，消費電力，オフチップのトラフィックを大幅に削減

• LSCとの違い– 圧縮対象データを予め決定

42Jun Yang,et al.”Frequent Value Compression in Data Caches”,MICRO’00

質問内容• ミス率の求め方について

– 質問圧縮率で大丈夫なのか（ A,A,A,B,C），（ A,A,B,B,C）だと圧縮率が同じ

– 解答今のままではダメ

• 手法について– 質問データ値が０のやつばっかりだったら意味なくない？

– 解答その通りだがデータにより示されている．

• 圧縮率について– 質問具体的にはどんなデータを圧縮しているのか？（浮動小数点？アドレスポインタ？）

ライン共有キャッシュアーキテクチャ

タグポインタv

タグウェイ 0

ライン

データウェイ 0（列番号 0）

データウェイ 1（列番号 1）

行番号

データアレイタグ・ポインタアレイ

ポインタセット

ラインセット

インデッ

クス

110114567

ラインCA

Mタグポインタv

タグウェイ 1

データ値の局所性に着目• データ値の局所性

– メモリアドレスが異なるデータが同一の値を持つ性質• 同一データ値の書込み頻度分析

1. 書込みデータ値のごとに書込み回数を取得• 書込みデータ値：プロセッサがストアする 64bitのデータ

2. 書込み回数が多い順に並び替え3. 書込み回数を累計4. 書込みデータ値の種類数と累計書込み回数をプロット

データ書込み回数書込み回数累計書込み回数

データ

1 2 3 40

38回D 3回

同一データ値の書込み頻度分析

多くのプログラムでデータ値の局所性が高い

Cholesky Barnes FFT

FMM LUContig OceanContig書込みデータ値の種類数

累計書き込み回数 75% 70% 65%

50%25%

20% 20% 20%

すべてのベンチマークでミス率を削減

Cholesky

BarnesFF

LUNonco

OceanCon

OceanNonco

WaterN

WaterSp

atialRadix

Raytrace

1base LSC

18ポイント削減

0.720.44

0.550.58

0.37 0.55

容量の影響L2キャッシュミス率

Cholesky FFT LUContig OceanContig

base LSC

• ミス率削減ポイント増加 FFT　容量を増加するとミス率削減幅大• ミス率削減ポイント低下： LUContig,OceanContig　容量を増加するとミス率削減度合い小

キャッシュミス

ブロックサイズ :64B

容量の影響L1ミスペナルティ

Cholesky FFT LUContig OceanContig

00.10.20.30.40.50.60.70.80.9

L1ミスペナルティはキャッシュミス率と同じ傾向

• ミス率削減ポイント増加 FFT　• ミス率削減ポイント低下：

LUContig,OceanContig　 49

ブロックサイズ :64B

ブロックサイズの影響L2キャッシュミス率

8 16 32 64 8 16 32 64 8 16 32 64 8 16 32 64Cholesky FFT LUContig OceanContig

base LSC

• ブロックサイズ減少• ミス率削減： Cholesky,FFT• ミス率増加： LUContig,OceanContig

空間的局所性を利用できないため効果が低い

キャッシュミス

19%ミス率削減

12%ミス率削減 17%ミ

ス率削減

18%ミス率削減

L2キャッシュ容量1MB

ブロックサイズの影響L1ミスペナルティ

8 16 32 64 8 16 32 64 8 16 32 64 8 16 32 64Cholesky FFT LUContig OceanContig

00.20.40.60.8

11.21.4

• ブロックサイズ減少• ミス率削減： Cholesky,FFT• ミス率増加： LUContig,OceanContig

L1ミスペナルティはキャッシュミス率と同じ傾向

ブロックサイズ 64Bの L1ミスペナルティで正規化L1ミスペナル

ティ17%削減L1ミスペナル

ティ22%削減

L1ミスペナルティ

18%削減

L1ミスペナルティ

25%増加

L1ミスペナル

ティ

L2キャッシュ容量1MB

L1ミスペナルティのモデル

動作フロー

読み出し開始

アドレス入力

ポインタアレイから読出し対象の

行ポインタと列ポインタを読み出し

データアレイから

読出し対象データ読み出し

Tag比較？

終了

書き込み操作

主記憶からデータ読み出し

終了

タグ入替え

書きこみ開始

アドレスとデータ入力

主記憶からデータ読出し

Tag一致？

書き込み操作

終了

タグ更新

書きこみ操作

評価

評価環境L1ミスペナルティ

• 周波数 :2GHz• L2レイテンシ :7cc• L2アクセス時間 :3.37179ns• 主記憶アクセスレイテンシ :200cc

テクノロジサイズ 90nm

キャッシュ容量 1MB

ブロックサイズ 64B

バス幅 256B

Cactiの設定値

圧縮率の求め方

ライン共有キャッシュの面積の見積もり方法

• LSCのデータアレイ容量– 圧縮率 ×従来型キャッシュのデータアレイ容量

• ポインタアレイ容量–ポインタのビット数 ×セット数 ×連想度• ポインタのビット数

– Log(LSCのデータアレイ容量 /(ブロックサイズ ))

• セット数，連想度– 従来型キャッシュにおけるセット数と同じ

• タグアレイ–従来型キャッシュの容量と同じ

ライン共有キャッシュにおけるL2キャッシュミス率の見積もり方法

LSC容量 :2MBにおける L2キャッシュミス率を求める場合

従来型キャッシュの容量と圧縮率 CRの関係を求める

① ②

従来型キャッシュ容量 [MB]

従来型キャッ

シュ

に対する圧縮率

LSCキャッシュの容量

LSCキャッシュ

に対する圧縮率

LSCの容量と圧縮率 CRの関係を求める

L2キャッシュ

ミス率

容量と L2キャッシュミス率の関係からL2キャッシュミス率を求める

CR圧縮率容量見かけ容量＝

2見かけ容量＝

LSCの見かけ容量を求める

4Mミス率

データ値の局所性を利用したライン共有キャッシュの提案

Documents

生産現場のデータ収集は三菱電機のロギング製品に...事務所イントラネット・インターネット稼動中ライン稼動中ライン検査工程

EnterpriseOne 8 - Oracle Help Center APIセット.....238 JDECACHEの処理.....240 インデックスの設定.....241 キャッシュの初期 ... 408 フォームのクローズ.....408

初心者のためのDNS運用入門トラブルとその解決の …...Question 権威 DNS サーバキャッシュ DNS クライアントサーバ • クライアントからキャッシュDNSサーバーへのクエリ

Fact Book FY2018...2019/09/13 · キャッシュ・コンバージョン・サイクル Cash Conversion Cycle （ /Days）キャッシュ・コンバージョン・サイクル

CacheShadow ファイルシステム：仮想ディスクと VM 内キャッシュの統合

情報指向ネットワークにおけるキャッシュ利用効率 …icn/wp-content/uploads/2017/12/...情報指向ネットワークにおけるキャッシュ利用効率向上のための

マスク両サイドの加工により、顔のラインにジャストフィッ …サイド特殊加工マスク両サイドの特殊加工で、顔のラインにジャスト

CPU 記憶の階層 - Keio UniversityCPU L1キャッシュ L2キャッシュ L3キャッシュ SRAM 主記憶 DRAM ～64KB 1-2clock ～256KB 3-10clock 2M～16MB 10-20clock 16～256GB

電子調達システム利用者環境トラブルシューティング · 【確認】 Internet ExplorerとJavaのキャッシュを削除します【Internet Explorerのキャッシュ削除方法】

Okura Yusoki Co., Ltd....169 UNI-CON Jr. 中2階の搬送ラインプッシャ装置パーフェクトベヤ－の排出ライン直角合流空ケース返却ライン天井吊り搬送ライン

HPE BladeSystem c-Class Server HPE ProLiant BL460c ......キャッシュメモリ/CPU 1×35 MB L3キャッシュ 1×45 MB L3キャッシュ 1×55 MB L3キャッシュ Hyper-Threading(HT)

初心者のためのDNS運用入門トラブル事例とその解 …...2014/06/26 · キャッシュDNS サーバークライアントサーバー • クライアントからキャッシュDNSサーバーへのクエリ

Cisco Nexus 9500 プラットフォームラインカードおよび ......Cisco Nexus 9504、9508、および 9516 スイッチは、包括的なモジュララインカードの選択

分散キャッシュテクノロジー “Velocity”

第 11 章インテル® Optane™ DC パーシステント・メモリー · モジュールのダイレクトマップ・キャッシュとして使用されます。これは、プロセッサーのキャッシュとは異なり、キャッ

コマンドラインインタフェースユーザガイド...コマンドラインインタフェースへのアクセス 5 パラメータ値パリティなしストップ

2．キャッシュ・フローの通貨を変換SIGMA INVESTMENT SCHOOL 60 2．キャッシュ・フローの通貨を変換（1）通貨スワップによる外貨建債券の円ベースへの変換

「日本企業のグローバル・キャッシュ・マネジメン …...「日本企業のグローバル・キャッシュ・マネジメントと金融法制の課題」企業の資金調達の円滑化に関する協議会

2015中期経営計画 - Hitachi2015年度はキャッシュ拡大に向け施策強化 1,000 キャッシュの拡大のため利益と ⇒売上原価とSG&Aの低減＋1,000億円

キャッシュ・フロー計算書の概要解説...4. キャッシュ・フロー計算書の表示の特徴従来の資金情報では、収入総額（資金の源泉）と支出総額（資金の使途）を

データ値の局所性を利用した ライン共有キャッシュの提案

データ値の局所性を利用したライン共有キャッシュの提案