多核共享缓存犫犪狀犽冲突分析及其延迟最小化 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/zjz-2016823103914.pdf · 2016. 8. 23. · 书第39卷第 9期 2016年9月

书书书

第３９卷　第９期

２０１６年９月

计　　算　　机　　学　　报

ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ

Ｖｏｌ．３９Ｎｏ．９

Ｓｅｐｔ．２０１６

　

收稿日期：２０１４１１１６；在线出版日期：２０１５０７２３．本课题得到国家自然科学基金（６１３７００６２）资助．张吉赞，男，１９７３年生，博士研究生，

主要研究方向为计算机体系结构、计算机网络．Ｅｍａｉｌ：ｚｈａｎｇ＿ｚｈａｏ＿ｚｈａｎｇ＠１６３．ｃｏｍ．古志民（通信作者），男，１９６４年生，博士，教授，中

国计算机学会（ＣＣＦ）会员，主要研究领域为多核／众核优化．Ｅｍａｉｌ：ｚｍｇｕ＠ｘ２６３．ｎｅｔ．

多核共享缓存犫犪狀犽冲突分析及其延迟最小化

张吉赞１），２）

　　古志民１）

１）（北京理工大学计算机科学技术学院　北京　１０００８１）

２）（鲁东大学数学与信息学院　山东烟台　２６４０２５）

摘　要　在硬实时多核系统中，共享资源冲突的问题为硬实时任务的最差情况下执行时间（ＷＣＥＴ）分析带来了新

挑战．虽然现有的共享缓存冲突分析技术在ｓｔｏｒａｇｅ冲突方面已取得研究进展，但对于ｂａｎｋ冲突而言，现有研究仍

局限于通过界定ｂａｎｋ冲突延迟上限来分析和处理ｂａｎｋ冲突．该文通过优化核ｂａｎｋ映射关系来使硬实时多核系

统中的ｂａｎｋ冲突延迟最小化，即在对ｂａｎｋ冲突延迟进行分析的基础上，首先通过优化核ｂａｎｋ之间的映射关系来

消除ｂａｎｋ冲突；若无法消除，则需要寻找能使ｂａｎｋ冲突延迟最小化的核ｂａｎｋ映射关系解，并为此设计了一种基

于多核总线请求时间序列的ｂａｎｋ冲突延迟求解算法．最后，文中设计了能够对总线访问延迟进行消重的多核硬实

时任务ＷＣＥＴ估算方法．实验结果表明：文中所提的优化方法可消除这类ｂａｎｋ冲突或使其延迟最小化，文中所提

的ＷＣＥＴ估算方法与现有估算方法相比可获得更精确的最差情况下执行时间（ＷＣＥＴ）．

关键词　多核系统；硬实时任务；优化；核到ｂａｎｋ映射；ｂａｎｋ冲突延迟；最差情况下执行时间

中图法分类号ＴＰ３０３　　　犇犗犐号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０１６．０１８８３

犃狀犪犾狔狕犻狀犵犅犪狀犽犃犮犮犲狊狊犆狅狀犳犾犻犮狋犪狀犱犕犻狀犻犿犻狕犻狀犵犅犪狀犽犆狅狀犳犾犻犮狋犇犲犾犪狔

犳狅狉犛犺犪狉犲犱犆犪犮犺犲犻狀犕狌犾狋犻犮狅狉犲

ＺＨＡＮＧＪｉＺａｎ１），２）　ＧＵＺｈｉＭｉｎ

１）

１）（犛犮犺狅狅犾狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲牔犜犲犮犺狀狅犾狅犵狔，犅犲犻犼犻狀犵犐狀狊狋犻狋狌狋犲狅犳犜犲犮犺狀狅犾狅犵狔，犅犲犻犼犻狀犵　１０００８１）

２）（犇犲狆犪狉狋犿犲狀狋狅犳犕犪狋犺犲犿犪狋犻犮狊牔犐狀犳狅狉犿犪狋犻狅狀，犔狌犱狅狀犵犝狀犻狏犲狉狊犻狋狔，犢犪狀狋犪犻，犛犺犪狀犱狅狀犵　２６４０２５）

犃犫狊狋狉犪犮狋　Ｉｎｔｅｒｔａｓｋｉｎｔｅｒｆｅｒｅｎｃｅｓｏｎｔｈｅｓｈａｒｅｄｒｅｓｏｕｒｃｅｓｏｆｈａｒｄｒｅａｌｔｉｍｅｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍｓ

ｂｒｉｎｇａｎｅｗｃｈａｌｌｅｎｇｅｔｏＷＣＥＴａｎａｌｙｓｉｓ．Ｔｈｅｉｎｔｅｒｔａｓｋｉｎｔｅｒｆｅｒｅｎｃｅｓｒｅｌａｔｅｄｔｏｔｈｅｓｈａｒｅｄｃａｃｈｅ

ａｒｅｓｔｏｒａｇｅｉｎｔｅｒｆｅｒｅｎｃｅａｎｄｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔ．Ｕｐｔｏｎｏｗ，ｓｔｏｒａｇｅｉｎｔｅｒｆｅｒｅｎｃｅｈａｓｂｅｅｎｓｏｌｖｅｄ

ｗｅｌｌ．Ｉｎｅｘｉｓｔｉｎｇｒｅｓｅａｒｃｈ，ｈｏｗｅｖｅｒ，ｔｈｅｔｒｅａｔｍｅｎｔｏｆｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔｉｓｏｎｌｙｃｏｎｆｉｎｅｄｔｏ

ｂｏｕｎｄｉｎｇｕｐｐｅｒｂｏｕｎｄｏｆｔｈｅｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙｓｕｆｆｅｒｅｄｂｙｏｎｅｒｅｑｕｅｓｔ．Ａｓｃｈａｎｇｉｎｇｔｈｅｃｏｒｅ

ｔｏｂａｎｋｍａｐｐｉｎｇｃａｎｃｈａｎｇｅｔｈｅｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔｉｎａｈａｒｄｒｅａｌｔｉｍｅｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍｕｓｉｎｇａ

ｂａｎｋｐａｒｔｉｔｉｏｎｅｄｓｈａｒｅｄｃａｃｈｅ，ｗｅｏｐｔｉｍｉｚｅｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇｔｏｍｉｎｉｍｉｚｅｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙ

ｉｎｔｈｉｓｐａｐｅｒ．Ｗｅｆｉｒｓｔｌｙｏｐｔｉｍｉｚｅｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇｔｏｅｌｉｍｉｎａｔｅｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔ．Ｉｆ

ｃａｎｎｏｔｅｌｉｍｉｎａｔｅｔｈｅｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔ，ｗｅｏｐｔｉｍｉｚｅｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇｔｏｍｉｎｉｍｉｚｅｂａｎｋ

ｃｏｎｆｌｉｃｔｄｅｌａｙ．Ｔｏｓｏｌｖｅｔｈｅｏｐｔｉｍｉｚａｔｉｏｎｐｒｏｂｌｅｍ，ｗｅｄｅｓｉｇｎａｎａｌｇｏｒｉｔｈｍｕｓｉｎｇｔｈｅｔｉｍｉｎｇ

ｓｅｑｕｅｎｃｅｓｏｆｔｈｅｂｕｓｒｅｑｕｅｓｔｓｔｏｃｏｍｐｕｔｅｔｈｅｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙｏｎｏｎｅｓｈａｒｅｄｂａｎｋ．Ｗｅａｌｓｏ

ｄｅｓｉｇｎａｍｅｔｈｏｄｔｏｅｓｔｉｍａｔｅｔｈｅＷＣＥＴｓｏｆｈａｒｄｒｅａｌｔｉｍｅｔａｓｋｓｉｎｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍｓ，ｗｈｉｃｈｃａｎ

ｒｅｄｕｃｅｔｈｅｔｉｍｅｏｖｅｒｌａｐｐｉｎｇａｍｏｎｇｔｈｅｅｘｅｃｕｔｉｏｎｔｉｍｅｉｎｐｉｐｅｌｉｎｅ，ｂｕｓａｃｃｅｓｓｄｅｌａｙａｎｄｔｈｅｌａｔｅｎｃｙｏｆ

ｍｅｍｏｒｙｓｙｓｔｅｍ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｏｕｒａｐｐｒｏａｃｈｏｆｏｐｔｉｍｉｚｉｎｇｃｏｒｅｔｏｂａｎｋ

ｍａｐｐｉｎｇｃａｎｍｉｎｉｍｉｚｅｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙａｎｄｏｕｒａｐｐｒｏａｃｈｅｓｔｏｅｓｔｉｍａｔｅＷＣＥＴａｒｅｍｏｒｅｅｆｆｅｃｔｉｖｅ

ｔｈａｎｅｘｉｓｔｉｎｇａｐｐｒｏａｃｈｅｓ．

犓犲狔狑狅狉犱狊　ｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍ；ｈａｒｄｒｅａｌｔｉｍｅｔａｓｋ；ｏｐｔｉｍｉｚａｔｉｏｎ；ｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇ；ｂａｎｋ

ｃｏｎｆｌｉｃｔｄｅｌａｙ；ｗｏｒｓｔｃａｓｅｅｘｅｃｕｔｉｏｎｔｉｍｅ（ＷＣＥＴ）

１　引　言

硬实时系统对硬实时任务的执行时间有着严格

要求，每个硬实时任务必须在确定的截止期之前完

成．硬实时任务的最差情况下的执行时间（ＷＣＥＴ）

是判断硬实时任务是否能够安全运行的重要依据［１］，

迄今为止，针对硬实时单核系统的ＷＣＥＴ估算技术

已取得重大的研究进展［２］，然而，随着嵌入式多核

技术（如ＡＲＭ１１ＭＰＣｏｒｅ①，ＱｏｒＩＱＰ４０８０② 等）在

硬实时系统领域的广泛应用，这类硬实时多核系统

中往往存在着任务之间可以共享的资源，如共享的

片上高速缓存和片上总线等，同时运行的硬实时任

务在使用这些共享资源时可能会发生ｂａｎｋ冲突、

总线访问冲突等．这些冲突会给硬实时任务的执行

带来不可预测的额外执行时间，这为ＷＣＥＴ估算带

来了新的技术挑战［３］．

由于基于单核的传统ＷＣＥＴ估算技术无法支持

对这类冲突的时间分析［４５］，为了获取安全的ＷＣＥＴ，

我们在对多核系统上的硬实时任务进行ＷＣＥＴ估

算时，必须重新估算这些冲突对执行时间带来的

影响．

目前，多ｂａｎｋ结构已成为共享缓存设计的主

要方向［６８］，例如一个多ｂａｎｋ结构的Ｌ２缓存由多

个ｂａｎｋ组成，当多个请求同时到达Ｌ２缓存的一个

ｂａｎｋ时，只能有一个请求使用这个ｂａｎｋ，其他请

求必须等待，此时就发生了ｂａｎｋ访问冲突．在对

ｂａｎｋ访问冲突的处理上，现有技术（如Ｐａｏｌｉｅｒｉ［９］和

Ｙｏｏｎ［１０］等）主要采用界定每个请求遭受的ｂａｎｋ冲

突延迟上限的方法．这种方法虽然可以简化ＷＣＥＴ

的估算，但需要借助于特殊的总线结构或总线仲裁

策略将ｂａｎｋ冲突延迟限制在一定范围内，如两层

总线仲裁策略（ｔｗｏｈｉｅｒａｒｃｈｉｃａｌｂｕｓａｒｂｉｔｒａｔｉｏｎ）［９］、

和谐的轮询总线仲裁策略（ｈａｒｍｏｎｉｃｒｏｕｎｄｒｏｂｉｎ

ｂｕｓａｒｂｉｔｒａｔｉｏｎ）［１０］等；然而，其他一些常见的总线结

构或总线仲裁策略，如简单轮询策略（ｐｕｒｅｒｏｕｎｄ

ｒｏｂｉｎａｒｂｉｔｒａｔｉｏｎ），与这类特殊的总线仲裁策略完

全不同，采用上述ｂａｎｋ冲突延迟上限界定法就无

法有效界定每个请求遭受的ｂａｎｋ冲突延迟上限．

另外，这种界定ｂａｎｋ冲突延迟上限的方法对

硬实时任务的ＷＣＥＴ估算过高．无论请求遭受到

ｂａｎｋ访问冲突与否，该方法为每个访存请求增加一

个额外的ｂａｎｋ冲突延迟上限．实际上，并不是所有

请求都会遭受到ｂａｎｋ访问冲突，并且即使在一组

请求中发生了ｂａｎｋ访问冲突，每个请求遭受的

ｂａｎｋ冲突延迟也不尽相同，如第１个访存请求就不

会遭受到ｂａｎｋ访问冲突．

在硬实时多核系统中，运行在同核上的硬实时

任务之间不存在ｂａｎｋ访问冲突，而在不同核上同

时运行的硬实时任务若因为共享某个ｂａｎｋ，则它们

之间可能存在ｂａｎｋ访问冲突．因此，不同的核到

ｂａｎｋ映射方式对应的ｂａｎｋ访问冲突不同，通过改

变核到ｂａｎｋ映射关系就可改变多核系统中ｂａｎｋ

访问冲突的情况．

本文的主要目的是通过优化核到ｂａｎｋ的映射

关系来优化硬实时多核系统中的ｂａｎｋ冲突延迟，

进而对硬实时多核系统进行ＷＣＥＴ估算．其中，硬

实时多核系统中的Ｌ２缓存采用了多ｂａｎｋ结构并

进行ｃｏｌｕｍｎ划分③，共享总线为采用简单轮询总线

仲裁策略的时分多路复用（ＴＤＭＡ）实时总线．本文

主要贡献如下：

（１）对采用简单轮询总线仲裁策略的硬实时多

核系统进行了ｂａｎｋ冲突延迟分析，给出了ｂａｎｋ访

问冲突发生的条件和ｂａｎｋ冲突延迟的计算方法；

（２）根据ｂａｎｋ访问冲突发生的条件，首先优化

核到ｂａｎｋ的映射关系以消除ｂａｎｋ访问冲突．若不

能消除ｂａｎｋ访问冲突，则进一步优化核到ｂａｎｋ的

映射关系使ｂａｎｋ冲突延迟最小化，并为该优化问

题提出了一种基于多核总线请求时间序列的ｂａｎｋ

冲突延迟求解算法；

（３）提出了多核硬实时任务的ＷＣＥＴ估算方

法，该方法综合考虑了任务在流水线上的执行时间、

访问存储系统的时间和总线访问延迟之间的相互影

响关系．

本文第２节介绍相关工作；第３节给出硬实时

多核系统模型，包括多核结构和应用模型；第４节分

４８８１计　　算　　机　　学　　报２０１６年

①

②

③

ＡＲＭ１１ＭＰＣｏｒｅＰｒｏｃｅｓｓｏｒ．ｈｔｔｐ：／／ｗｗｗ．ａｒｍ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ｐｒｏｃｅｓｓｏｒｓ／ｃｌａｓｓｉｃ／ａｒｍ１１／ａｒｍ１１ｍｐｃｏｒｅ．ｐｈｐ，２０１２，

６，１８ＦｒｅｅｓｃａｌｅＱｏｒＩＱＰ４０８０Ｐｒｏｃｅｓｓｏｒ，ｈｔｔｐ：／／ｗｗｗ．ｆｒｅｅｓｃａｌｅ．ｃｏｍ／ｗｅｂａｐｐ／ｓｐｓ／ｓｉｔｅ／ｐｒｏｄ＿ｓｕｍｍａｒｙ．ｊｓｐ？ｃｏｄｅ＝Ｐ４０８０，

２０１２，６，１８ＣｈｉｏｕＤ，ＲｕｄｏｌｐｈＬ，ＤｅｖａｄａｓＳ，ＡｎｇＢＳ．Ｄｙｎａｍｉｃｃａｃｈｅｐａｒｔｉｔｉｏｎｉｎｇｖｉａｃｏｌｕｍｎｉｚａｔｉｏｎ．ｈｔｔｐ：／／ｃｉｔｅｓｅｅｒｘ．ｉｓｔ．ｐｓｕ．ｅｄｕ／ｖｉｅｗｄｏｃ／ｓｕｍｍａｒｙ？ｄｏｉ＝１０．１．１．４２．５７６４，２０１３，３，１４

析ｂａｎｋ冲突延迟；第５节提出优化问题，并设计求

解算法；第６节设计多核硬实时任务的ＷＣＥＴ估算

方法；第７节给出实验环境及实验验证结果；第８节

得出结论．

２　相关工作

在硬实时多核系统中，与Ｌ２缓存相关的任务

间冲突主要包括ｓｔｏｒａｇｅ干扰和ｂａｎｋ访问冲突．由

于总线访问冲突与ｓｔｏｒａｇｅ干扰或ｂａｎｋ访问冲突

之间存在着相互影响，因此在分析ｓｔｏｒａｇｅ干扰或

ｂａｎｋ访问冲突时，一般需要结合总线访问冲突进行

分析．

一些现有的研究成果将共享总线设计和共享

缓存划分技术结合起来，对请求遭受的总线访问延

迟和ｂａｎｋ冲突延迟进行分析，但采用了界定每个请

求遭受的延迟上限的方法．如Ｐａｏｌｉｅｒｉ等人［９］在其工

作中，提出了一种二层总线仲裁的多核结构，用以界

定每个总线请求遭受的总线访问延迟和ｂａｎｋ冲突

延迟，共享Ｌ２缓存采用缓存划分或ｂａｎｋｉｚａｔｉｏｎ划

分，以消除ｓｔｏｒａｇｅ干扰或ｂａｎｋ访问冲突；在采用

ｂａｎｋｉｚａｔｉｏｎ划分时，要求任务独占分配的ｂａｎｋ以消

除ｂａｎｋ访问冲突，受ｂａｎｋ数目的影响，这种方法

受限制于硬实时多核系统的工作负荷．然而该方法

仅适用于这类特殊的多核结构，且ＷＣＥＴ估算方法

采用了界定延迟上限的方法．再如在Ｙｏｏｎ等人［１０］

的可调ＷＣＥＴ（ｔｕｎａｂｌｅＷＣＥＴ）、和谐的轮询总线

仲裁策略等工作中，共享Ｌ２缓存采用二级划分结

构，整个缓存被划分成多个ｂａｎｋ，每个ｂａｎｋ又进一

步被划分成多个ｃｏｌｕｍｎ．其中，核向ｂａｎｋ做映射，

硬实时任务向ｃｏｌｕｍｎ做映射且独占分配的ｃｏｌｕｍｎ

以消除ｓｔｏｒａｇｅ干扰．在优化时采用了界定ｂａｎｋ冲

突延迟和总线访问延迟上限的方法．然而该方法仅

适用于和谐的轮询总线仲裁策略，同时采用界定延

迟上限的方法造成ＷＣＥＴ估算过高．

另有一些研究成果是将ｓｔｏｒａｇｅ干扰分析和总

线访问冲突分析结合起来进行ＷＣＥＴ估算，但在

分析时却没有考虑ｂａｎｋ访问冲突问题．如Ａｎｄｒｅｉ

等人［１１］和Ｒｏｓéｎ等人［１２］提出的ＴＤＭＡ总线延迟

分析和ｓｔｏｒａｇｅｉｎｔｅｒｆｅｒｅｎｃｅ延迟，优化了总线调

度策略，其特点是，在这种ＴＤＭＡ总线中使用静态

调度分析，总线时槽被静态地分配给不同的核．

Ｃｈａｔｔｏｐａｄｈｙａｙ等人［１３］提出了融合共享缓存和总线

的ＷＣＥＴ分析框架，在分析总线访问延迟时让循环

的开始与总线调度周期的第一个时槽对齐，同时考

虑到Ｌ２缓存的ｓｔｏｒａｇｅ干扰，因此进行反复迭代与

调整，直到结果稳定．虽然这种方法比Ａｎｄｒｅｉ等

人［１１］提出的方法效率高，但是该方法对ＷＣＥＴ值

估算仍过高．Ｋｅｌｔｅｒ等人［１４］通过界定ＴＤＭＡ偏移

量（ＴＤＭＡｏｆｆｓｅｔ）上界的方法来进一步提高分析效

率，具体采用了Ｃｈａｔｔｏｐａｄｈｙａｙ等人［１３］提出的分析

框架来估算ＷＣＥＴ，并用全局收敛性分析（ｇｌｏｂａｌ

ｃｏｎｖｅｒｇｅｎｃｅａｎａｌｙｓｉｓ）来界定ＴＤＭＡ总线偏移量的

上限．Ｋｅｌｔｅｒ等人［１５］静态分析（ｓｔａｔｉｃａｎａｌｙｓｉｓ）了

ＴＤＭＡ总线给请求带来的总线访问延迟，并给出

了形式化证明．同时结合ｓｔｏｒａｇｅ干扰分析估算了

多核系统的ＷＣＥＴ．Ｃｈａｔｔｏｐａｄｈｙａｙ等人［１６］提出了

一种多核系统的ＷＣＥＴ分析框架，改进了文献［１３］

对循环结构的处理．在分析总线访问延迟时不再让

循环的开始与总线调度周期的第一个时槽对齐，

而是根据执行上下文（ｅｘｅｃｕｔｉｏｎｃｏｎｔｅｘｔ），令请求的

总线访问延迟为可能遭受的最大总线访问延迟．

Ｌｉ等人［１７］分析了并行任务的ＷＣＥＴ，首先使用信

息序列图（ＭｅｓｓａｇｅＳｅｑｕｅｎｃｅＣｈａｒｔ，ＭＳＣ）将并行

任务的生命期分成重叠（ｏｖｅｒｌａｐｐｉｎｇ）和非重叠

（ｎｏｎｏｖｅｒｌａｐｐｉｎｇ）两部分，对于重叠部分的分析，采

用Ｃｈａｔｔｏｐａｄｈｙａｙ等人［１３］提出的分析框架和Ｋｅｌｔｅｒ

等人［１４］提出的界定总线偏移量的方法．

还有一些研究成果将分析重点仅放在ｓｔｏｒａｇｅ

干扰上，均没有考虑ｂａｎｋ冲突延迟和总线访问延

迟对硬实时任务ＷＣＥＴ的影响．如Ｙａｎ等人［１８］根

据线程的程序控制流信息，计算线程在共享Ｌ２指

令缓存上的ｓｔｏｒａｇｅ干扰．Ｃｈｅｎ等人［１９］通过指令的

取指时间关系，分析了进程在共享缓存上的ｓｔｏｒａｇｅ

干扰．Ｄｉｎｇ等人［２０］提出了动态锁指令缓存以消除

ｓｔｏｒａｇｅ干扰，该方法可灵活锁定循环结构对应的缓

存空间．Ｌｉｕ等人［２１］应用锁缓存技术来消除ｓｔｏｒａｇｅ

干扰．

３　硬实时多核系统模型

３１　嵌入式多核模型

如图１所示的一个嵌入式多核处理器含有犖ｃｏｒｅ

个同构的有序（ｉｎｏｒｄｅｒ）核，表示为犆＝｛犮１，犮２，…，

犮犖ｃｏｒｅ｝．每个核有自己私有的第一级数据缓存和指令

缓存．由所有核共享使用的第二级缓存（ｕｎｉｆｉｅｄＬ２

ｃａｃｈｅ）采用多ｂａｎｋ结构，由犖ｂａｎｋ个大小相等的ｂａｎｋ

组成，表示为犅＝｛犫１，犫２，…，犫犖ｂａｎｋ｝，完成一次请求

５８８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

需要的时间为犔犕个时钟周期（ｃｙｃｌｅｓ）．使用Ｙｏｏｎ

等人［１０］提出的缓存两级划分方法将每个ｂａｎｋ进一

步划分成相等的犖ｃｏｌｕｍｎ个ｃｏｌｕｍｎｓ．连接Ｌ２缓存和

核的实时总线是全双工ＴＤＭＡ总线，该实时总线

采用简单轮询调度策略，每个总线调度周期有犔ｒｏｕｎｄ

个等长的总线时槽，表示为犚＝｛狊１，狊２，…，狊犔ｒｏｕｎｄ｝．

每个总线时槽的长度等于总线完成一次请求所需

要的时间，表示为犔犅个时钟周期．假设犔犕／犔犅是整

数，那么一个请求完成一次Ｌ２缓存访问至少需要

（犔犅＋犔犕）个时钟周期，设为犔犾犪狋．核到总线时槽的

映射是一一映射，且把核犮犻（∈犆）映射到总线时槽

狊犻（∈犚）上．请求访问Ｌ２缓存，发生缺失时需要访问

主存，假设请求访问主存需要的时间为犔Ｌ２ｐｅｎａｌ个时

钟周期．

图１　一个嵌入式多核处理器结构

３２　多任务应用模型

假设一组硬实时任务已经被分配到犖ｃｏｒｅ个核

上，这些任务在执行过程中不能在核间迁移，同核上

的任务将按顺序执行，那么某时间段内最多有犖ｃｏｒｅ

个任务均匀分布在犖ｃｏｒｅ核上且并发执行．在确定任

务到核的分配后，需要确定核需要的Ｌ２缓存大小，

设犎犜犻是分配到核犮犻的任务集合，任务τ犼（∈犎犜犻）

需要的Ｌ２缓存大小为犛犻狕犲犼个ｃｏｌｕｍｎｓ，则核犮犻需

要的Ｌ２缓存大小为犛犻狕犲犮犻＝ｍａｘ（犛犻狕犲犼｜１犼狀犻）

个ｃｏｌｕｍｎｓ，其中狀犻为集合犎犜犻中的任务数．

采用类似于Ｙｏｏｎ等人［１０］所提方法来作核到

ｂａｎｋ的映射和硬实时任务到ｃｏｌｕｍｎ的映射，按照

核需要的最大Ｌ２缓存大小向ｂａｎｋ作映射，当多个

核共享使用某个ｂａｎｋ时，在这些核上同时运行的

任务之间有可能存在ｂａｎｋ访问冲突．在作任务到

ｃｏｌｕｍｎ的映射时，任务独占分配给它的ｃｏｌｕｍｎ．故

不存在ｓｔｏｒａｇｅ干扰．

另外，采用Ｌｉ等人［１７］所提方法来处理任务间

的共享代码和任务间的通信．如果多个任务共享使

用某个函数或程序段，则为每个任务复制一份以取

消任务间的代码共享．若任务间需要通信则采用邮

箱机制来取消由同步带来的影响．

４　犅犪狀犽冲突延迟分析

设有犖犽犮犫（１犖犽犮犫犖ｃｏｒｅ）个核共享犫犽（∈犅），表

示为犆犫犽＝｛犮′１，犮′２，…，犮′犖犽犮犫｝，对应的总线时槽为犚犫犽＝

｛狊′１，狊′２，…，狊′犖犽犮犫｝，其中，犆犫犽犆，犚犫犽犚．令犫犮犱犻犼表示

运行在犮′犻（∈犆犫犽）上的硬实时任务在第犼个总线周

期中遭受的ｂａｎｋ冲突延迟．如图２所示，当犻≠１时

犫犮犱犻犼可以用式（１）表示：

犫犮犱犻犼＝犫犮犱（犻－１）犼＋犔犕－（狊′犻－狊′（犻－１））·犔犅，＞０

０，｛其他（１）

图２　运行在核犮′犻（∈犆犫犽）（犻≠１）上的任务在第犼个总线

周期上遭受的ｂａｎｋ冲突延迟

　　在第１个总线周期中，核犮′１（∈犆犫犽）所遭受的

ｂａｎｋ冲突延迟为０，即犫犮犱１１＝０．一般地，犫犮犱１犼如图３

所示，当犮′狆（∈犆犫犽）上的硬实时任务在第狇个总线周

期上有访问犫犽的请求，且该请求是运行在核犮′１上的

硬实时任务在第犼个总线周期上访问犫犽的前一个请

求，犫犮犱狆狇是运行在核犮′狆上的硬实时任务在第狇个总

线周期上遭受的ｂａｎｋ冲突延迟，狊′狆是其对应的总线

时槽，则运行在核犮′１上的硬实时任务在第犼个总线

周期上遭受的ｂａｎｋ冲突延迟可以表示为

犫犮犱１犼＝犫犮犱狆狇＋犔犕－（犼－狇－１）·犔ｒｏｕｎｄ·

犔犅－（犔ｒｏｕｎｄ－狊′狆＋狊′１）·犔犅，

进一步简化为式（２）．

犫犮犱１犼＝

犫犮犱狆狇＋犔犕－（（犼－狇）·犔ｒｏｕｎｄ＋狊′１－狊′狆）·犔犅，＞０

０，｛其他（２）

定义两核犮犻（∈犆）和犮犼（∈犆）之间的模距离为它们

对应总线时槽的最小距离，即犱犻犼＝ｍｉｎ（｜狊犼－狊犻｜，

６８８１计　　算　　机　　学　　报２０１６年

图３　运行在犮′１（∈犆犫犽）上的任务在第犼个总线周期上

遭受的ｂａｎｋ冲突延迟

犔ｒｏｕｎｄ－｜狊犼－狊犻｜）．为了判断一个ｂａｎｋ上是否存在

ｂａｎｋ访问冲突，给出定理１如下．

定理１．　犮′犻，犮′犼∈犆犫犽，若犱犻犼犔犕／犔犅，则在犫犽

上不存在ｂａｎｋ访问冲突．

证明．　由于犱犻犼犔犕／犔犅，在式（１）中，犔犕－

（狊′犻－狊′（犻－１））·犔犅０，在式（２）中，犔犕－（（犼－狇）·

犔ｒｏｕｎｄ＋狊′１－狊′狆）·犔犅０．由此可知，在访问犫犽的所有

请求中，后一个请求所遭受的ｂａｎｋ冲突延迟一定

小于或等于前一个请求所遭受的ｂａｎｋ冲突延迟．

由于在访问犫犽的请求序列中，第一个请求的ｂａｎｋ

冲突延迟为０，又因为ｂａｎｋ冲突延迟具有非负性，

因此所有请求的ｂａｎｋ冲突延迟都为０，即在犫犽上不

存在ｂａｎｋ访问冲突．证毕．

５　优化核到犫犪狀犽的映射

５１　优化问题的形式化描述

由定理１可知，在一个核到ｂａｎｋ的映射中，若

映射到任一个ｂａｎｋ上的任意两个核之间的模距离

大于等于犔犕／犔犅，则在整个系统上不存在ｂａｎｋ访

问冲突．用狓犻犽表示犫犽（∈犅）是否有ｃｏｌｕｍｎ分配给

犮犻（∈犆），若有（即犮犻∈犆犫犽），则狓犻犽＝１，否则狓犻犽＝０．

用狀犮狅犾犻犽表示犫犽分配给犮犻（∈犆）的ｃｏｌｕｍｎ数目，如

果狓犻犽＝１，则狀犮狅犾犻犽＞０，否则狀犮狅犾犻犽＝０，由于硬实时

任务独占分配给它的ｃｏｌｕｍｎ，因此狀犮狅犾犻犽是整数．以

狓犻犽和狀犮狅犾犻犽为决策变量，优化核到ｂａｎｋ的映射使系

统不存在ｂａｎｋ访问冲突的形式化描述如下．

目标函数：

犱犻犼犔犕／犔犅，犮′犻，犮′犼∈犆犫犽，犫犽∈犅（３）

约束：

犖ｂａｎｋ·犖ｃｏｌｕｍｎ∑

犖ｃｏｒｅ

犻＝１

犛犻狕犲犮犻（４）

犛犻狕犲犮犻＝∑

犖ｂａｎｋ

犽＝１

狀犮狅犾犻犽·狓犻犽，犮犻∈犆（５）

∑

犖ｃｏｒｅ

犻＝１

狀犮狅犾犻犽·狓犻犽犖ｃｏｌｕｍｎ，犫犽∈犅（６）

犛犻狕犲犮犻０，狀犮狅犾犻犽０，犮犻∈犆，犫犽∈犅（７）

其中，约束（４）是指在硬实时多核系统中Ｌ２缓存满

足硬实时任务的需求；约束（５）是指映射分配给每个

核的ｃｏｌｕｍｎ数需要满足每个核的需求；约束（６）是

指在每个ｂａｎｋ上分配的ｃｏｌｕｍｎ数不超过ｂａｎｋ的

大小；约束（７）是非负约束．

下面利用犖ｃｏｒｅ、犔犕／犔犅和犖ｃｏｌｕｍｎ参数来探讨通

过优化核到ｂａｎｋ的映射来消除ｂａｎｋ冲突的判据．

定理２．　已知犖ｃｏｒｅ、犔犕／犔犅和犖ｃｏｌｕｍｎ，且Ｌ２缓存

的容量大小满足需求，若犖ｃｏｒｅ／（犔犕／犔犅）＞犖ｃｏｌｕｍｎ，

则ｂａｎｋ访问冲突可以通过优化核到ｂａｎｋ的映射

去消除（证明过程见附录）．

用犛犻狕犲（犆犻）表示集合犆犻（犆）中，核需要的总

ｃｏｌｕｍｎ数．结合核需要的总ｃｏｌｕｍｎ数，可以给出当

犔犕／犔犅＝２时能够通过优化核到ｂａｎｋ的映射消除

ｂａｎｋ冲突的判据，如定理３．

定理３．　已知犆、犖ｃｏｒｅｍｏｄ２＝０、犔犕／犔犅＝２、

犖ｃｏｌｕｍｎ和犛犻狕犲犮犻＞０，１犻犖ｃｏｒｅ．将犆分割成两个互

不相交的子集犆０和犆１且满足：在任一子集中的任意

两个核之间的模距离大于等于犔犕／犔犅．若在每个子

集中能够找到一个核集合犆狊犻（犆犻），０犻１，且满

足犛犻狕犲（犆狊犻）犛犻狕犲（犆犻）ｍｏｄ犖ｃｏｌｕｍｎ，则ｂａｎｋ访问冲

突可以通过优化核到ｂａｎｋ的映射去消除（证明过

程见附录）．

定理２和３中的条件是判断ｂａｎｋ冲突是否可

以消除的充分条件，在许多应用场景中并不是所有

硬实时系统的ｂａｎｋ访问冲突都能够通过优化核到

ｂａｎｋ的映射消除，例如，在一个６核的硬实时多核

系统中，Ｌ２缓存被划分４个大小相等的ｂａｎｋ，每个

ｂａｎｋ又被划分成８个大小相等的ｃｏｌｕｍｎ，核到总

线时槽的映射及每个核需要的Ｌ２缓存的大小如

表１所示．在这个例子中，使用上述优化方法对核到

ｂａｎｋ的映射进行优化，就不能使共享每个ｂａｎｋ的

任意两核之间的模距离都大于等于犔犕／犔犅．在这种

情况中就无法通过上述优化方法来消除ｂａｎｋ访问

表１　硬实时多核系统的应用场景举例

核对应的总线时槽缓存大小／ｃｏｌｕｍｎ

犮１狊１４

犮２狊２２

犮３狊３２

犮４狊４１６

犮５狊５７

犮６狊６１

７８８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

冲突，但可通过优化核到ｂａｎｋ的映射使多核系统

遭受的ｂａｎｋ冲突延迟最小化．

设犖狉狅犮犻是运行在核犮犻（∈犆）上的硬实时任务

需要的总线周期数，犖狉狅犫犽＝ｍａｘ（犖狉狅犮犻｜犮′犻∈犆犫犽）

是共享犫犽的硬实时任务需要的最大总线周期数．根

据式（１）和（２），发生在犫犽上的所有ｂａｎｋ冲突延迟

可以表示为∑

犖狉狅犫犽

犼＝１∑犮′犻∈犆犫

犽

犫犮犱犻犼．由此，可得出式（８）．

ｍｉｎ∑

犖狉狅犮犻

犼＝１

犫犮犱犻犼｜犮犻∈（）犆ｍｉｎ∑

犖ｂａｎｋ

犽＝１∑

犖狉狅犫犽


犽

犫犮犱犻（）犼（８）

　　计算任务遭受的ｂａｎｋ冲突延迟需要关注硬实

时任务的执行特性，如访问Ｌ２缓存的时间、Ｌ２缓存

的地址等，即需要关注硬实时任务的主存块到Ｌ２

缓存的映射以及硬实时任务映射到Ｌ２缓存的哪些

ｃｏｌｕｍｎ上等．为了对ＷＣＥＴ进行安全估算，当多核

共享一个ｂａｎｋ时，假设这些核上的硬实时任务发

出的访问Ｌ２缓存的请求总是访问这个共享ｂａｎｋ．

在此基础上，通过优化核到ｂａｎｋ的映射来最小化每

个硬实时任务遭受的ｂａｎｋ冲突延迟，根据式（８），

该优化问题的形式化描述如下．

目标函数：

ｍｉｎ∑

犖ｂａｎｋ

犽＝１∑

犖狉狅犫犽


犽

犫犮犱犻（）犼（９）

约束：

犖ｂａｎｋ·犖ｃｏｌｕｍｎ∑

犖ｃｏｒｅ

犻＝１

犛犻狕犲犮犻（１０）

犛犻狕犲犮犻＝∑

犖ｂａｎｋ

犽＝１

狀犮狅犾犻犽·狓犻犽，犮犻∈犆（１１）

∑

犖ｃｏｒｅ

犻＝１

狀犮狅犾犻犽·狓犻犽犖ｃｏｌｕｍｎ，犫犽∈犅（１２）

犛犻狕犲犮犻０，狀犮狅犾犻犽０，犮犻∈犆，犫犽∈犅（１３）

５２　优化问题求解

目标函数（９）与目标函数（３）的区别在于在目标

函数（３）中不需要计算ｂａｎｋ冲突延迟，而目标函数

（９）中则需要计算ｂａｎｋ冲突延迟．

５．２．１　计算ｂａｎｋ冲突延迟

根据前面对ｂａｎｋ冲突延迟的分析，计算ｂａｎｋ

冲突延迟，需要事先确定多核硬实时任务的总线请

求时间序列．本文组合使用Ｃｈｒｏｎｏｓ［２２］和ｌｐ＿ｓｏｌｖｅ①

来获取同核上的硬实时任务的总线请求时间序列，

用犚犙犮犻（犮犻∈犆）表示核犮犻访问Ｌ２缓存的总线请求

时间序列，ｂａｎｋ冲突延迟的计算过程主要由以下

３部分组成．

（１）计算总线访问延迟，确定请求访问总线的

时间．设狋犼－１，狋犼（∈犚犙犮′犻）是来自核犮′犻（∈犆犫犽）的两个

相邻总线请求（分别表示为狉狇犼－１，狉狇犼）所对应的总

线请求时间，犫犪犱犼－１为请求狉狇犼－１遭受的总线访问延

迟．若狋犼＞（狋犼－１＋犫犪犱犼－１），狉狇犼遭受的总线延迟表示

为犫犪犱犼＝（犔ｒｏｕｎｄ·犔犅＋（狊′犻－１）犔犅－狋犼ｍｏｄ（犔ｒｏｕｎｄ·

犔犅））ｍｏｄ（犔ｒｏｕｎｄ·犔犅）；否则，犫犪犱犼＝犔ｒｏｕｎｄ·犔犅．

（２）确定当前ｂａｎｋ冲突延迟所在的总线周期．

设犚犜犽狀为犖犽犮犫个总线请求时间序列中的当前总线

请求时间的集合，令狋ｍｉｎ＝ｍｉｎ（狋犼｜狋犼∈犚犜犽狀）是

犚犜犽狀中的最小值，则当前总线周期的开始时间为

狋ｍｉｎ－狋ｍｉｎｍｏｄ（犔ｒｏｕｎｄ·犔犅）．

（３）计算ｂａｎｋ冲突延迟．如果当前总线周期为

第１个总线周期，则犚犜犽狀中第１个在该总线周期内

访问总线请求遭受的ｂａｎｋ冲突延迟为０，否则根据

式（２）计算；而犚犜犽狀中在该总线周期内其他的访问

总线请求所遭受的ｂａｎｋ冲突延迟根据式（１）计算．

算法１给出了发生在犫犽上的ｂａｎｋ冲突延迟的

计算方法．狊′犻为对应的总线时槽．在算法１的输出结

果中，犜＿犫＿犱犲犾犪狔［犻］是运行在核犮′犻（∈犆犫犽）上的硬实时

任务所遭受的总ｂａｎｋ冲突延迟，以便为估算硬实时

任务的ＷＣＥＴ做准备．第１、２行初始化，犮狌狉狉犲狀狋＿狇［犻］

表示当前处理的总线请求时间，狌狊犲犱［犻］标记是否可以

从请求序列里取第１个请求，若狌狊犲犱［犻］＝Ｔｒｕｅ，则

表示可以从请求序列里取第１个请求．第５行判断

是否可以从请求序列中取出第１个请求到狉狇，第８～

１４行计算总线访问延迟；第１５行更新犮狌狉狉犲狀狋＿狇［犻］

为当前请求访问总线的时间，为计算ｂａｎｋ冲突延

迟做准备，并将请求标记为处理．第１９、２０行确定总

线调度周期，狉狅狌狀犱１是该总线调度周期的开始时间．

第２２行判断请求是否落在当前总线调度周期内．第

２４、２５行计算当前总线周期内第１个请求的ｂａｎｋ

冲突延迟，第２７、２８行计算当前总线周期内其他请

求的ｂａｎｋ冲突延迟．第３０行更新犜＿犫＿犱犲犾犪狔［犻］，此

时，犜＿犫＿犱犲犾犪狔［犻］是运行在核犮′犻上的硬实时任务截

止目前遭受的所有ｂａｎｋ冲突延迟．第３５行为计算

在下一个总线周期中第１个请求所遭受的ｂａｎｋ冲

突延迟做准备．第３７行计算在ｂａｎｋ犫犽上发生的所

８８８１计　　算　　机　　学　　报２０１６年

① Ｌｐｓｏｌｖｅｖｅｒｓｉｏｎ５．５．ｈｔｔｐ：／／ｗｗｗ．ｃｏｍｐ．ｎｕｓ．ｅｄｕ．ｓｇ／～ｒｐｅｍｂｅｄ／ｃｈｒｏｎｏｓ／ｄｏｗｎｌｏａｄ．ｈｔｍｌ，２０１２，１０，２２

有ｂａｎｋ冲突总延迟．

算法１．　计算发生在犫犽上的ｂａｎｋ冲突延迟．

输入：犆犫犽，犚犙犮′

犻（犮′犻∈犆犫

犽），犔ｒｏｕｎｄ，狊′犻

输出：发生在犫犽上的各核ｂａｎｋ冲突总延迟犜狅狋犪犾＿犱犲犾犪狔［犽］，

核犮′犻（∈犆犫犽）所遭受的ｂａｎｋ冲突总延迟犜＿犫＿犱犲犾犪狔［犻］

１．犜狅狋犪犾＿犱犲犾犪狔［犽］＝０；

２．犜＿犫＿犱犲犾犪狔［犻］＝０，犮狌狉狉犲狀狋＿狇［犻］＝０，狌狊犲犱［犻］＝Ｔｒｕｅ，

１犻犖犽犮犫；

３．ＷＨＩＬＥ（存在一个犚犙犮′犻不为空）ＤＯ

４．ＦＯＲ（犻＝１；犻＜＝犖犽犮犫；犻＋＋）ＤＯ

５．ＩＦ（狌狊犲犱［犻］＝＝Ｔｒｕｅ）ＴＨＥＮ

６．从犚犙犮′犻中取第１个请求到狉狇；

７．删除犚犙犮′犻中的第１个请求；＼＼更新犚犙犮′

犻

８．ＩＦ（狉狇＜＝犮狌狉狉犲狀狋＿狇［犻］）ＴＨＥＮ

９．犫狌狊犱犲犾犪狔＝犔ｒｏｕｎｄ犔犅；

１０．ＥＬＳＥ

１１．犫狌狊犱犲犾犪狔＝（狊′犻－１）犔犅－狉狇ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

１２．犫狌狊犱犲犾犪狔＝犔ｒｏｕｎｄ犔犅＋犫狌狊犱犲犾犪狔；

１３．犫狌狊犱犲犾犪狔＝犫狌狊犱犲犾犪狔ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

１４．ＥＮＤＩＦ

１５．犮狌狉狉犲狀狋＿狇［犻］＝狉狇＋犫狌狊犱犲犾犪狔；

１６．狌狊犲犱［犻］＝Ｆａｌｓｅ；

１７．ＥＮＤＩＦ

１８．ＥＮＤＦＯＲ

１９．在犮狌狉狉犲狀狋＿狇［犖犽犮犫］中找最小值，存储到犕＿狇；

２０．狉狅狌狀犱１＝犕＿狇－犕＿狇ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

２１．ＦＯＲ（犻＝１；犻＜＝犖犽犮犫；犻＋＋）ＤＯ

２２．ＩＦ（犮狌狉狉犲狀狋＿狇［犻］＜＝（狉狅狌狀犱１＋（狊′犻－１）犔犅））ＴＨＥＮ

２３．ＩＦ（犮狌狉狉犲狀狋＿狇［犻］是第１个请求）ＴＨＥＮ

２４．犅＿犱犲犾犪狔＝犐狀犻狋＿犱犲犾犪狔－（狉狅狌狀犱１＋狊′犻犔犅）；

２５．ＩＦ（犅＿犱犲犾犪狔＜０）ＴＨＥＮ犅＿犱犲犾犪狔＝０；

２６．ＥＬＳＥ

２７．犅＿犱犲犾犪狔＝犅＿犱犲犾犪狔＋犔犕－（狊′犻－狆狉犲）犔犅；

２８．ＩＦ（犅＿犱犲犾犪狔＜０）ＴＨＥＮ犅＿犱犲犾犪狔＝０；

２９．ＥＮＤＩＦ

３０．犜＿犫＿犱犲犾犪狔［犻］＝犜＿犫＿犱犲犾犪狔［犻］＋犅＿犱犲犾犪狔；

３１．狆狉犲＝狊′犻；

３２．狌狊犲犱［犻］＝Ｔｒｕｅ；

３３．ＥＮＤＩＦ

３４．ＥＮＤＦＯＲ

３５．犐狀犻狋＿犱犲犾犪狔＝狉狅狌狀犱１＋犅＿犱犲犾犪狔＋犔犕＋狆狉犲犔犅；

３６．ＥＮＤＷＨＩＬＥ

３７．犜狅狋犪犾＿犱犲犾犪狔［犽］＝ ∑犮′犻∈

犆犫犽

犜＿犫＿犱犲犾犪狔［犻］；

３８．ＲＥＴＵＲＮ犜狅狋犪犾＿犱犲犾犪狔［犽］，犜＿犫＿犱犲犾犪狔［犻］；

５．２．２　优化问题的求解算法

设犣犽是共享犫犽（∈犅）的所有硬实时任务之间模

距离小于犔犕／犔犅的模距离的数．若犣犽＝０，则共享犫犽

所有硬实时任务之间的模距离都大于等于犔犕／犔犅，

根据定理１，在该ｂａｎｋ上不存在ｂａｎｋ访问冲突，否

则，在该ｂａｎｋ上可能存在ｂａｎｋ冲突．

算法２给出了该优化问题的求解算法．第４～２５

行按照犮＿狊犲狇［］依次做核到ｂａｎｋ的映射．根据式（１）

和（２）可知，ｂａｎｋ冲突延迟具有积累性，在做核到

ｂａｎｋ映射时，映射到一个ｂａｎｋ上的核应尽可能的

少；另外，算法１在计算ｂａｎｋ冲突延迟时不考虑一个

ｂａｎｋ中的ｃｏｌｕｍｎ在地址上的区别，因此核到ｂａｎｋ

的映射过程可以简化如下：犮＿狊犲狇［］中的核依次向

ｂａｎｋ犫１映射，犫１分配完后，再向犫２映射，犫２分配完后，

向犫３映射，依次类推，犮＿犫＿犿犪狆狆犻狀犵［犖ｃｏｒｅ］［犖ｂａｎｋ］存

放当前核到ｂａｎｋ的映射关系．第２６行计算所有的

犣犽，第２７行判断该映射是否存在ｂａｎｋ访问冲突．若

存在ｂａｎｋ访问冲突，第３２行调用算法１计算发生

在每个ｂａｎｋ上的ｂａｎｋ冲突延迟．第３６行计算总的

ｂａｎｋ冲突延迟．第３８、３９行更新最优结果．第４３～

４８行回溯搜索解空间．第５０～５４行是主过程，在第

５０行根据定理２、３进行判定，若ｂａｎｋ冲突不能消

除，则在第５２行调用犉＿犕＿犕犪狆狆犻狀犵（狀）求解．

算法２．　优化核到ｂａｎｋ的映射关系，使ｂａｎｋ

冲突延迟最小．

输入：犆，犖ｃｏｒｅ，犔犕，犔犅，犅，犖ｂａｎｋ，犖ｃｏｌｕｍｎ，犚犙犮犻，犛犻狕犲犮

犻，

犮犻∈犆

输出：最小的ｂａｎｋ冲突延迟（犕＿犱犲犾犪狔）、相应的核到

ｂａｎｋ的映射（犕＿犿犪狆狆犻狀犵）

１．设置犣犽、犕＿犱犲犾犪狔初值、狌狊犲犱［］为Ｆａｌｓｅ；

２．ＦＵＮＣＴＩＯＮ犉＿犕＿犕犪狆狆犻狀犵（狀）

３．ＩＦ（狀＞犖ｃｏｒｅ）ＴＨＥＮ

４．狀＿犫犪狀犽＝１，狀＿犮狅犾＝犖ｃｏｌｕｍｎ；

５．ＷＨＩＬＥ（犻＜＝犖ｃｏｒｅ）ＤＯ

６．将核犮＿狊犲狇［犻］在核集犆中对应的序号存放在犼

中，需要的ｃｏｌｕｍｎ数存放在狀＿犮狅狉犲；

７．ＩＦ（狀＿犮狅狉犲＞＝狀＿犮狅犾）ＴＨＥＮ

８．ＷＨＩＬＥ（狀＿犮狅狉犲＞＝狀＿犮狅犾）ＤＯ

９．犮＿犫＿犿犪狆狆犻狀犵［犼］［狀＿犫犪狀犽］＝狀＿犮狅犾；

１０．狀＿犮狅狉犲＝狀＿犮狅狉犲－狀＿犮狅犾；

１１．狀＿犫犪狀犽＋＋；

１２．狀＿犮狅犾＝犖ｃｏｌｕｍｎ；

１３．ＥＮＤＷＨＩＬＥ

１４．ＩＦ（狀＿犮狅狉犲＝＝０）ＴＨＥＮ犻＋＋；

１５．ＥＬＳＥ

１６．犮＿犫＿犿犪狆狆犻狀犵［犼］［狀＿犫犪狀犽］＝狀＿犮狅狉犲；

１７．狀＿犮狅犾＝狀＿犮狅犾－狀＿犮狅狉犲；

１８．犻＋＋；

９８８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

１９．ＥＮＤＩＦ

２０．ＥＬＳＥ

２１．犮＿犫＿犿犪狆狆犻狀犵［犼］［狀＿犫犪狀犽］＝狀＿犮狅狉犲；

２２．狀＿犮狅犾＝狀＿犮狅犾－狀＿犮狅狉犲；

２３．犻＋＋；

２４．ＥＮＤＩＦ

２５．ＥＮＤＷＨＩＬＥ

２６．计算犣犽，１犽犖ｂａｎｋ；

２７．ＩＦ（所有的犣犽都为０）ＴＨＥＮ

２８．犕＿犱犲犾犪狔＝０；

２９．ＥＬＳＥ

３０．ＦＯＲ（犽＝１；犽＜＝犖ｂａｎｋ；犽＋＋）ＤＯ

３１．ＩＦ（犣犽＞０）ＴＨＥＮ

３２．调用算法１计算发生在ｂａｎｋ犫犽上的ｂａｎｋ冲

突延迟犫＿犱犲犾犪狔［犽］；


３４．ＥＮＤＦＯＲ

３５．ＥＮＤＩＦ

３６．犫＿犱犲犾犪狔＝∑

犖ｂａｎｋ

犽＝１

犫＿犱犲犾犪狔［犽］；

３７．ＩＦ（犫＿犱犲犾犪狔＜犕＿犱犲犾犪狔）ＴＨＥＮ

３８．犕＿犱犲犾犪狔＝犫＿犱犲犾犪狔；

３９．犕＿犿犪狆狆犻狀犵［］［］＝犮＿犫＿犿犪狆狆犻狀犵［］［］；

４０．ＥＮＤＩＦ

４１．ＲＥＴＵＲＮ

４２．ＥＮＤＩＦ

４３．ＦＯＲ（犻＝１；犻＜＝犖ｃｏｒｅ；犻＋＋）ＤＯ

４４．ＩＦ（！狌狊犲犱［犻］）ＴＨＥＮ

４５．犮＿狊犲狇［狀］＝犮犻；狌狊犲犱［犻］＝Ｔｒｕｅ；

４６．犉＿犕＿犕犪狆狆犻狀犵（狀＋１）；狌狊犲犱［犻］＝Ｆａｌｓｅ；

４７．ＥＮＤＩＦ

４８．ＥＮＤＦＯＲ

４９．ＥＮＤＦＵＮＣＴＩＯＮ

／／以下为主过程

５０．利用定理２、３判断ｂａｎｋ冲突是否可以消除；

５１．ＩＦ（ｂａｎｋ冲突不能消除）ＴＨＥＮ

５２．犉＿犕＿犕犪狆狆犻狀犵（１）；

５３．ＥＮＤＩＦ

５４．ＲＥＴＵＲＮ犕＿犱犲犾犪狔，犕＿犿犪狆狆犻狀犵；

６　犠犆犈犜估算

６１　犠犆犈犜估算的预备知识

Ｔｈｅｉｌｉｎｇ等人［２３］提出的共享缓存的抽象解释

（ａｂｓｔｒａｃｔｉｎｔｅｒｐｒｅｔａｔｉｏｎ）分析法，是将指令根据访问

共享缓存是否命中分成：ＡｌｗａｙｓＨｉｔ（ＡＨ）、Ａｌｗａｙｓ

Ｍｉｓｓ（ＡＭ）、ＰｅｒＳｉｓｔｅｎｃｅ（ＰＳ）和ＮｏｔＣｌａｓｓｉｆｉｅｄ

（ＮＣ）四类．ＡＨ是指访问共享缓存总是命中的，ＡＭ

是指访问共享缓存总是缺失的，ＰＳ是指第１次访问

共享缓存是缺失而以后的访问都是命中的，而其他情

形则属于ＮＣ类．

一个五级流水线模型［２４］由取指（ＩＦ）、译码（ＩＤ）、

执行（ＥＸ）、写回（ＷＢ）和提交（ＣＭ）组成．在取指阶

段中，按指令在程序中的顺序将指令从存储系统中

依次取出，存放到取指缓存（Ｉｂｕｆｆｅｒ）；在译码阶段

中，将取指缓存中的指令进行译码操作并按在程序

中的顺序发送到ＲＯＢ（ＲｅＯｒｄｅｒＢｕｆｆｅｒ）．在执行阶

段，ＲＯＢ中的指令发送到相应的执行单元进行执

行．对于Ｌｏａｄ指令，执行阶段只计算有效存储地

址，在写回阶段取操作数．在写回阶段，一方面Ｌｏａｄ

指令从存储系统中取操作数，另一方面将执行阶段

的执行结果写回ＲＯＢ．在提交阶段，指令按照在程序

中的顺序提交．Ｌｉ等人［２５］提出了执行图（Ｅｘｅｃｕｔｉｏｎ

Ｇｒａｐｈ）的概念，该执行图描述了控制流图（ＣＦＧ）的

一个基本块（ｂａｓｉｃｂｌｏｃｋ）在五级流水线模型上执行

状态．

本文设计的多核多任务ＷＣＥＴ估算方法是在

Ｃｈｒｏｎｏｓ的基础上，增加了对多核共享资源冲突延

迟语义的分析支持．Ｃｈｒｏｎｏｓ是单核硬实时任务的

开源ＷＣＥＴ估算工具，该工具可对二进制执行文件

进行反汇编，以形成控制流图及执行图，并利用该图

对指令在流水线阶段间的依赖关系进行分析处理，

以及估算基本块的最差情况下执行时间．一般地，利

用Ｃｈｒｏｎｏｓ可获得如下内容：（１）基本块的最差情

况下执行时间；（２）任务的控制流图；（３）基本块中

每个请求的总线请求时间；（４）指令的ＡＨ、ＡＭ、ＰＳ

和ＮＣ分类等．

６２　犠犆犈犜估算方法

设犮犻（∈犆）的执行时间是指运行在犮犻上某硬实

时任务的执行时间．设犜狆犮犻是犮犻在流水线上的执行时

间，犜犿犮犻是犮犻访问主存所需要的时间，犜

Ｌ１犮犻是犮犻访问Ｌ１

缓存所需要的时间，狀狇犮犻是犮犻访问Ｌ２缓存的次数，

犇ｂｕｓ犮犻是犮犻遭受的所有总线访问延迟，犇

ｂａｎｋ犮犻是犮犻遭受的

所有ｂａｎｋ冲突延迟，犮犻在最差情况下的执行时间

可以表示为犠犆犈犜犮犻＝犜狆犮犻＋犜

犿犮犻＋犜

Ｌ１犮犻＋狀狇犮犻·犔犾犪狋＋

犇ｂｕｓ犮犻＋犇

ｂａｎｋ犮犻，其中，（犜狆犮犻＋犜

犿犮犻＋犜

Ｌ１犮犻＋狀狇犮犻·犔犾犪狋）可

以直接用单核ＷＣＥＴ估算工具估算，犇ｂａｎｋ犮犻可以用算

法１计算得到．令犠犆犈犜′犮犻＝犜狆犮犻＋犜

犿犮犻＋犜

Ｌ１犮犻＋狀狇犮犻·

犔犾犪狋＋犇ｂｕｓ犮犻．犠犆犈犜犮犻可以用式（１４）表示．

犠犆犈犜犮犻＝犠犆犈犜′犮犻＋犇ｂａｎｋ犮犻

（１４）

　　由于多核多任务在流水线、请求访问总线和请

０９８１计　　算　　机　　学　　报２０１６年

求访问存储系统中可以并发执行，那么某个任务在

流水线上的执行时间、总线访问延迟和存储系统访

问时间之间可能存在着时间重叠问题．另外，由于核

与ＴＤＭＡ总线时槽之间已确立对应关系，在计算

多核总线访问延迟时，总线访问冲突延迟可转换为

请求等待自己对应的总线时槽．

为此，我们在Ｃｈｒｏｎｏｓ基本块最差执行时间分

析模块的基础上，增加了对多核总线访问延迟、时间

消重等语义的支持，实现了下面的算法３．

算法３给出了估算一个基本块（记为犫犾犽）最差

情况下执行时间的方法，该算法是在Ｃｈｒｏｎｏｓ分析

工具中实现的．由于ＰＳ指令在第１次执行中是缺失

的且在后续执行中总是命中的，若一个基本块在循环

结构中，它的第１次执行和后续执行的最差情况下执

行时间是不同的．在算法３中，用ｆｉｒｓｔ标识基本块是

否为第１次执行，犳犻狉狊狋＝０表示该基本块的第１次

执行，犳犻狉狊狋＝１表示该基本块的非第１次执行．令

狅犳犳狊犲狋为基本块开始执行时对应的总线偏移量，若

基本块的开始时间为狋犫，对应的总线偏移量可以表

示为狅犳犳狊犲狋＝狋犫ｍｏｄ（犔ｒｏｕｎｄ·犔犅），且０狅犳犳狊犲狋＜

犔ｒｏｕｎｄ·犔犅，对于不同的狅犳犳狊犲狋值，基本块有一个最

差情况下执行时间与之对应，存放在犕犈犜［犳犻狉狊狋］

［犫犾犽］［狅犳犳狊犲狋］中．犜狊狋犪犵犲（犻）（狊狋犪）和犜狊狋犪犵犲（犻）（犳犻狀）分别

是指令犻在狊狋犪犵犲阶段的开始时间和完成时间，若指

令犻在狊狋犪犵犲阶段需要访存，则犜狊狋犪犵犲（犻）（狊狋犪）为请求

申请总线的时间．犜狀（犳犻狀）是基本块最后一条指令的

完成时间，犜１（狉犲犪犱狔）是基本块的第一条指令的准备

时间．第１～１０行定义计算总线访问延迟的函数

犆狅犿＿犫犱犲犾犪狔（），狆狉犲是前一个请求访问总线的时间，

其值为对应流水阶段的开始时间与总线访问延迟的

和．在第２～８行计算总线访问延迟，若当前请求申

请总线的时间小于或等于前一个请求访问总线的时

间，则消重，总线访问延迟为（犔ｒｏｕｎｄ·犔犅）个时钟周期

（第３行）．否则，在第６、７行计算总线访问延迟．第

１３行先利用Ｃｈｒｏｎｏｓ流水线分析对基本块犫犾犽进行

分析（包括Ｌ１缓存分析），可得到指令在各个流水

线阶段上的执行时间及依赖关系，但此时并未涉及

总线访问延迟的影响．对于基本块中的每条指令及

每个流水线阶段，第１９～２５行和第２７～３３行分别

处理ｆｉｒｓｔ取不同值的情况，第２０和２８行分别调用

函数犆狅犿＿犫犱犲犾犪狔（）计算总线访问延迟．在第２２、

２４、３０和３２行分别更新相应流水线阶段的完成时

间．使用Ｃｈｒｏｎｏｓ的原有处理依赖关系的方法，第

３６行更新指令犻在后续流水线阶段上的依赖关系，

第３８行更新指令犻的后续指令的依赖关系．第４０

行计算该基本块的最差情况下执行时间．

算法３．　多核环境下某任务基本块最差情况

下的执行时间分析．

输入：基本块犫犾犽的执行图，犔ｒｏｕｎｄ，对应的总线时槽狊′犼

输出：基本块犫犾犽最差情况下执行时间犕犈犜［犳犻狉狊狋］

［犫犾犽］［］

１．ＦＵＮＣＴＩＯＮ犆狅犿＿犫犱犲犾犪狔（狊狋犪狉狋，狅犳犳狊犲狋，狆狉犲）；

２．ＩＦ（狊狋犪狉狋＜＝狆狉犲）ＴＨＥＮ

３．犫狌狊犱犲犾犪狔＝犔ｒｏｕｎｄ犔犅；

４．ＥＬＳＥ

５．犮狌狉＝狊狋犪狉狋＋狅犳犳狊犲狋；

６．犫狌狊犱犲犾犪狔＝（狊′犼－１）犔犅－犮狌狉ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

７．犫狌狊犱犲犾犪狔＝（犔ｒｏｕｎｄ犔犅＋犫狌狊犱犲犾犪狔）ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

８．ＥＮＤＩＦ

９．ＲＥＴＵＲＮ犫狌狊犱犲犾犪狔；

１０．ＥＮＤＦＵＮＣＴＩＯＮ


１１．ＦＯＲ（犳犻狉狊狋＝０；犳犻狉狊狋＜＝１；犳犻狉狊狋＋＋）ＤＯ

１２．ＦＯＲ（狅犳犳狊犲狋＝０；狅犳犳狊犲狋＜（犔ｒｏｕｎｄ犔犅）；狅犳犳狊犲狋＋＋）

ＤＯ

１３．狆犻狆犲犾犻狀犲＿犪狀犪犾狔狊犻狊（）；

１４．狆狉犲＝０；

１５．ＦＯＲ（依次取犫犾犽中的每条指令犻）ＤＯ

１６．ＦＯＲ（狊狋犪犵犲＝０；狊狋犪犵犲＜狆犻狆犲＿狊狋犪犵犲狊；狊狋犪犵犲＋＋）

ＤＯ

１７．ＩＦ（犻在狊狋犪犵犲阶段访问存储系统）ＴＨＥＮ

１８．ＩＦ（犳犻狉狊狋＝＝０）ＴＨＥＮ

１９．ＩＦ（ＡＨ指令）ＴＨＥＮ

２０．犱犲犾犪狔＝犆狅犿＿犫犱犲犾犪狔（犜狊狋犪犵犲（犻）（狊狋犪），狅犳犳狊犲狋，

狆狉犲）；

２１．狆狉犲＝犜狊狋犪犵犲（犻）（狊狋犪）＋犱犲犾犪狔；

２２．犜狊狋犪犵犲（犻）（犳犻狀）＝犜狊狋犪犵犲（犻）（犳犻狀）＋犱犲犾犪狔＋犔犾犪狋；

２３．ＥＬＳＥ

２４．犜狊狋犪犵犲（犻）（犳犻狀）＝犜狊狋犪犵犲（犻）（犳犻狀）＋犔Ｌ２ｐｅｎａｌ；

２５．ＥＮＤＩＦ

２６．ＥＬＳＥ

２７．ＩＦ（ＡＨ指令或ＰＳ指令）ＴＨＥＮ

２８．犱犲犾犪狔＝犆狅犿＿犫犱犲犾犪狔（犜狊狋犪犵犲（犻）（狊狋犪），狅犳犳狊犲狋，

狆狉犲）；

２９．狆狉犲＝犜狊狋犪犵犲（犻）（狊狋犪）＋犱犲犾犪狔；

３０．犜狊狋犪犵犲（犻）（犳犻狀）＝犜狊狋犪犵犲（犻）（犳犻狀）＋犱犲犾犪狔＋犔犾犪狋；

３１．ＥＬＳＥ

３２．犜狊狋犪犵犲（犻）（犳犻狀）＝犜狊狋犪犵犲（犻）（犳犻狀）＋犔Ｌ２ｐｅｎａｌ；


３４．ＥＮＤＩＦＩＦ（犳犻狉狊狋＝＝０）ＴＨＥＮ


３６．更新后续流水线阶段上的依赖关系；

３７．ＥＮＤＦＯＲ

１９８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

３８．更新后续指令的依赖关系；

３９．ＥＮＤＦＯＲ

４０．犕犈犜［犳犻狉狊狋］［犫犾犽］［狅犳犳狊犲狋］＝犜狀（犳犻狀）－犜１（狉犲犪犱狔）；

４１．ＥＮＤＦＯＲ

４２．ＥＮＤＦＯＲ

４３．ＲＥＴＵＲＮ犕犈犜［犳犻狉狊狋］［犫犾犽］［］；

利用算法３可以估算出每个基本块在不同开始

时间下的最差情况下执行时间（同时考虑到基本块是

否在循环中且是否有ＰＳ指令），共有（２·犔ｒｏｕｎｄ·犔犅）

个值．根据基本块在控制流图中的执行次序和开始

时间（设第一个执行的基本块的开始时间为０），从

每个基本块的（２·犔ｒｏｕｎｄ·犔犅）个值中选择一个用来

估算硬实时任务的犠犆犈犜′犮犻．

对于一个基本块犫犾犽，设犜犫犾犽（狊狋犪）、狅犳犳狊犲狋犫犾犽和

犜犫犾犽（犳犻狀）分别为该基本块的开始时间、总线偏移

量和完成时间．开始时间犜犫犾犽（狊狋犪）是其直接前驱

的最迟完成时间，总线偏移量狅犳犳狊犲狋犫犾犽可以表示为

狅犳犳狊犲狋犫犾犽＝犜犫犾犽（狊狋犪）ｍｏｄ（犔ｒｏｕｎｄ·犔犅），设狆狉犲为基

本块犫犾犽的直接前驱，狅犳犳狊犲狋狆狉犲为基本块狆狉犲的总

线偏移量．狅犳犳狊犲狋犫犾犽可以表示为式（１５），完成时间

犜犫犾犽（犳犻狀）可以表示为式（１６）．

狅犳犳狊犲狋犫犾犽＝（狅犳犳狊犲狋狆狉犲＋犕犈犜［犳犻狉狊狋］［狆狉犲］［狅犳犳狊犲狋狆狉犲］）·

ｍｏｄ（犔ｒｏｕｎｄ·犔犅）（１５）

犜犫犾犽（犳犻狀）＝犜犫犾犽（狊狋犪）＋犕犈犜［犳犻狉狊狋］［犫犾犽］［狅犳犳狊犲狋犫犾犽］

（１６）

　　若控制流图存在循环结构，则全部展开，对于事

先不能确定循环次数的循环结构，按照Ｃｈｒｏｎｏｓ处

理方法将循环次数的最大上限作为循环次数展开．

此时，整个控制流图仅存在分支和顺序结构，且一个

基本块的开始时间等于其直接前驱的最大完成时

间．反复使用式（１５）和（１６）可以计算最后一个基本

块的完成时间．

以ＭｌａｒｄａｌｅｎＷＣＥＴｂｅｎｃｈｍａｒｋ［２６］测试程序集

中的ｆｉｂｃａｌｌ测试程序为例，说明利用算法３的结果估

算ＷＣＥＴ的方法．图４（ａ）是ｆｉｂｃａｌｌ的控制流图，其

中，圆形代表基本块，圆形内的数字为基本块的编号，

旁边的数字为该基本块的执行次数，有向边代表基本

块的先后次序．将循环展开后的控制流图如图４（ｂ）

所示，若基本块在循环中，标识出该基本块是第几次执

行．设ｆｉｂｃａｌｌ在该例中对应的总线时槽为狊′犻，开始执行

时间为犜狊狋．则基本块０的开始时间犜０（狊狋犪）＝犜狊狋，对

应的总线偏移量狅犳犳狊犲狋０＝（（狊′犻－１）·犔犅＋犜０（狊狋犪））·

ｍｏｄ（犔ｒｏｕｎｄ·犔犅），利用式（１６）可以得到基本块０的完

成时间犜０（犳犻狀）＝犜０（狊狋犪）＋犕犈犜［０］［０］［狅犳犳狊犲狋０］．

图４　ｆｉｂｃａｌｌ的控制流图及循环展开

基本块２的开始时间犜２（狊狋犪）＝犜０（犳犻狀），根据式（１５）

和（１６），可得基本块２的总线偏移量和完成时间，

即狅犳犳狊犲狋２＝（狅犳犳狊犲狋０＋犕犈犜［０］［０］［狅犳犳狊犲狋０］）·

ｍｏｄ（犔ｒｏｕｎｄ·犔犅），犜２（犳犻狀）＝犜２（狊狋犪）＋犕犈犜［０］［２］

［狅犳犳狊犲狋２］．接下来，可以获得基本块３第１次执行的开

始时间（记为犜３（１）（狊狋犪））、总线偏移量（记为狅犳犳狊犲狋３（１））

和完成时间（记为犜３（１）（犳犻狀））．处理完基本块３的

第１次执行，进入分支结构的处理，反复利用式（１５）和

（１６）可以得到基本块４第２９次执行对应的总线偏移

量狅犳犳狊犲狋４（２９）和完成时间犜４（２９）（犳犻狀），犜４（２９）（犳犻狀）＝

犜４（２９）（狊狋犪）＋犕犈犜［１］［４］［狅犳犳狊犲狋４（２９）］．基本块５的开

始时间犜５（狊狋犪）＝ｍａｘ（犜３（１）（犳犻狀），犜４（２９）（犳犻狀）），总线

偏移量狅犳犳狊犲狋５＝（狅犳犳狊犲狋３（１）＋犜５（狊狋犪）－犜３（１）（狊狋犪））·

ｍｏｄ（犔ｒｏｕｎｄ·犔犅），最终可以得到基本块１的完成时

间犜１（犳犻狀）＝犜１（狊狋犪）＋犕犈犜［０］［１］［狅犳犳狊犲狋１］，即该

例的犠犆犈犜′犮犻＝犜１（犳犻狀）．

算法４是基于算法３的多核环境下硬实时任务

最差情况下执行时间的分析算法．第１～２１行定义

了处理分支结构的函数犆狅犿＿犫狉犪狀犮犺（），输入参数

犘狀指向分支结构的开始基本块，犖犫狉＿犘狀是分支结

构的分支数，狅犳犳狊犲狋是分支结构开始时对应的总线

偏移量，犳犻狉狊狋标识该基本块是否是第一次执行，犫犾犽

是基本块编号，犫狉＿犲狓犲［犻］是分支犻的总执行时间（相

对于分支结构的开始时间），第７行根据式（１６）计算

当前基本块的完成时间，第８、９行根据式（１５）计算

总线偏移量，第１０～１５行处理嵌套分支结构，第１０

行判断是否有分支结构，若有，则在第１１行读取分

支的数目犖犫狉＿犘犫，在第１２行调用犆狅犿＿犫狉犪狀犮犺（）处

理分支结构．第１９行获得分支结构的最大完成时间

２９８１计　　算　　机　　学　　报２０１６年

（相对于分支结构的开始时间）．第２３行建立链表

犜犛犔犻狀犽犔犻狊狋，若存在分支结构，则在链表中用分支

结构的开始基本块对应的链表结点指向分支结构的

结束基本块对应的链表结点，分支结构的分支存放

在分支结构的开始基本块对应的链表结点中．第

２８、３３行分别计算当前基本块的完成时间（相对于

任务开始时间）．第３８行根据式（１４）计算任务的最

差情况下执行时间．

算法４．　多核环境下硬实时任务最差情况下

执行时间的分析．

输入：循环已展开的控制流图，每个基本块的执行图，

犔ｒｏｕｎｄ，对应的总线时槽狊′犼，利用算法１计算的

ｂａｎｋ冲突延迟犇ｂａｎｋ

输出：硬实时任务的最差情况下执行时间犕犜＿犲狓犲

１．ＦＵＮＣＴＩＯＮ犆狅犿＿犫狉犪狀犮犺（犘狀，犖犫狉＿犘狀，狅犳犳狊犲狋）ＤＯ

２．ＦＯＲ（犻＝１；犻＜＝犖犫狉＿犘狀；犻＋＋）ＤＯ

３．犫狅犳犳狊犲狋＝狅犳犳狊犲狋，犫狉＿犲狓犲［犻］＝０；

４．犘犫指向犘狀的第犻个分支的第一个基本块；

５．ＷＨＩＬＥ（犘犫不为空）ＤＯ

６．获得由犘犫指向的基本块标识犫犾犽和执行信息犳犻狉狊狋；

７．犫狉＿犲狓犲［犻］＝犫狉＿犲狓犲［犻］＋犕犈犜［犳犻狉狊狋］［犫犾犽］

［犫狅犳犳狊犲狋］；

８．犫狅犳犳狊犲狋＝犫狅犳犳狊犲狋＋犕犈犜［犳犻狉狊狋］［犫犾犽］［犫狅犳犳狊犲狋］；

９．犫狅犳犳狊犲狋＝犫狅犳犳狊犲狋ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

１０．ＩＦ（犘犫有分支）ＴＨＥＮ

１１．获得犘犫指向基本块的分支数犖犫狉＿犘犫；

１２．狋犿狆＿犲狓犲＝犆狅犿＿犫狉犪狀犮犺（犘犫，犖犫狉＿犘犫，犫狅犳犳狊犲狋）；

１３．犫狉＿犲狓犲［犻］＝犫狉＿犲狓犲［犻］＋狋犿狆＿犲狓犲；

１４．犫狅犳犳狊犲狋＝（犫狅犳犳狊犲狋＋狋犿狆＿犲狓犲）ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

１５．ＥＮＤＩＦ

１６．犘犫＝犘犫－＞狀犲狓狋；

１７．ＥＮＤＷＨＩＬＥ

１８．ＥＮＤＦＯＲ

１９．犕犫＿犲狓犲＝ｍａｘ（犫狉＿犲狓犲［犻］｜１犻犖犫狉＿犘狀）；

２０．ＲＥＴＵＲＮ犕犫＿犲狓犲；

２１．ＥＮＤＦＵＮＣＴＩＯＮ


２２．调用算法３估算每个基本块的最差情况下执行时

间，存放在犕犈犜［］［］［］中；

２３．读取控制流图，建立链表犜犛犔犻狀犽犔犻狊狋（有头结点）；

２４．狅犳犳狊犲狋＝（狊′犼－１）犔犅，犕犜＿犲狓犲＝０；

２５．犘狀＝犜犛犔犻狀犽犔犻狊狋－＞狀犲狓狋；

２６．ＷＨＩＬＥ（犘狀不为空）ＤＯ

２７．获得由犘狀指向的基本块标识犫犾犽和执行信息犳犻狉狊狋；

２８．犕犜＿犲狓犲＝犕犜＿犲狓犲＋犕犈犜［犳犻狉狊狋］［犫犾犽］［狅犳犳狊犲狋］；

２９．狅犳犳狊犲狋＝（狅犳犳狊犲狋＋犕犈犜［犳犻狉狊狋］［犫犾犽］［狅犳犳狊犲狋］）·

ｍｏｄ（犔ｒｏｕｎｄ犔犅）；

３０．ＩＦ（犘狀有分支）ＴＨＥＮ

３１．获得犘狀指向基本块的分支数犖犫狉＿犘狀；

３２．狋犿狆＿犲狓犲＝犆狅犿＿犫狉犪狀犮犺（犘狀，犖犫狉＿犘狀，狅犳犳狊犲狋）；

３３．犕犜＿犲狓犲＝犕犜＿犲狓犲＋狋犿狆＿犲狓犲；

３４．狅犳犳狊犲狋＝（狅犳犳狊犲狋＋狋犿狆＿犲狓犲）ｍｏｄ（犔ｒｏｕｎｄ犔犅）；


３６．犘狀＝犘狀－＞狀犲狓狋；

３７．ＥＮＤＷＨＩＬＥ

３８．犕犜＿犲狓犲＝犕犜＿犲狓犲＋犇ｂａｎｋ；

３９．ＲＥＴＵＲＮ犕犜＿犲狓犲；

７　实验验证

使用ＭｌａｒｄａｌｅｎＷＣＥＴｂｅｎｃｈｍａｒｋ［２６］测试程序

集分别设计无ｂａｎｋ访问冲突、存在ｂａｎｋ访问冲突

的两个实验场景，来验证前面提出的算法的正确性．

７１　无犫犪狀犽访问冲突的应用场景

７．１．１　实验环境和测试程序

由６个同构核｛犮１，犮２，…，犮６｝组成的多核系统

中，每个核有一个有序（ｉｎｏｒｄｅｒ）５级流水线，无分

支预测功能，取指队列大小为４，取指宽度为２，指令

窗大小为８．每个核有私自Ｌ１数据和Ｌ１指令缓存，

大小均为６４字节，１个ｂａｎｋ，２路关联，每ｌｉｎｅ有

８字节，１个时钟周期的访问时间，采用ＬＲＵ替换

策略．Ｌ２缓存为所有核共享，大小为４ＫＢ，被均匀

划分成４个ｂａｎｋ，每个ｂａｎｋ的大小为１ＫＢ，４路关

联，每ｌｉｎｅ有３２Ｂｙｔｅｓ，４个时钟周期访问时间（即

犔犕＝４），采用ＬＲＵ替换策略．每个ｂａｎｋ又被均匀划

分成８个ｃｏｌｕｍｎ．每个ｃｏｌｕｍｎ的大小为１２８Ｂｙｔｅｓ

（即１组４路关联的ｌｉｎｅ）．连接Ｌ２缓存和核的总线

为ＴＤＭＡ实时总线，采用简单轮询总线调度策略，

总线完成一次请求所需要的时间为２个时钟周期，

即犔犅＝２．请求访问主存需要的时间为犔Ｌ２ｐｅｎａｌ＝

３０个时钟周期．

使用的测试程序是ＭｌａｒｄａｌｅｎＷＣＥＴｂｅｎｃｈ

ｍａｒｋ测试程序集中的一部分，测试程序的特性如

表２所示．为了给测试程序分配合适的Ｌ２缓存大

小，我们使用Ｃｈｒｏｎｏｓ测量这些测试程序在分配给

表２　使用的测试程序特性

测试程序字节数代码行数

ｂｓｏｒｔ１００２７７９１２８

ｃｎｔ２８８０２６７

ｆｉｂｃａｌｌ３４９９７２

ｅｘｐｉｎｔ４２８８１５７

ｉｎｓｅｒｔｓｏｒｔ３８９２９２

ｐｒｉｍｅ７９７４７

３９８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

不同Ｌ２缓存大小时的ＷＣＥＴ，测量结果和采用的

Ｌ２缓存大小如表３所示．

表３　不同犔２缓存大小时测量的犠犆犈犜（时钟周期）和采用值（字节数／犮狅犾狌犿狀数）

缓存大小ｂｓｏｒｔ１００ｃｎｔｅｘｐｉｎｔｆｉｂｃａｌｌｉｎｓｅｒｔｓｏｒｔｐｒｉｍｅ

１２８Ｂ６８８８０５０３５７５２１６９２１９７０１３６３５７５０００

２５６Ｂ６８８８３３０５０６３３１６８７３９７０１１４９９７５０００

５１２Ｂ１００２７５００３９０４０１７１９１９７０１１４５１７５０００

１０２４Ｂ９２６３６００２９１５２１７１９１９７０１１４５１７５０００

２０４８Ｂ２９６５０８０２９１５２１７１９１９７０１１４５１７５０００

４０９６Ｂ２９６５０８０２９１５２１７１９１９７０１１４５１７５０００

采用值２０４８／１６１０２４／８２５６／２１２８／１５１２／４１２８／１

７．１．２　实验结果

实验中采用的任务到核映射和核到总线时槽映

射如表４所示．用Ｃｈｒｏｎｏｓ得到各任务访问Ｌ２缓

存的总线请求时间序列如图５所示．使用算法２做

核到ｂａｎｋ映射，若可能存在ｂａｎｋ访问冲突，则用

算法１计算ｂａｎｋ冲突延迟，结果如图６所示，解空间

为７２０，总的ｂａｎｋ冲突延迟的范围为［０，１４９５６０］，

其中一个不存在ｂａｎｋ访问冲突的映射关系如表５

所示．在表５所示的核到ｂａｎｋ映射关系中，映射到

任意一个ｂａｎｋ上的任务之间的模距离都大于等于２．

由于犔犕／犔犅＝２，因此，在该映射中不存在ｂａｎｋ访

问冲突．

表４　任务到核映射和核到总线时槽映射

测试程序核总线时槽

ｉｎｓｅｒｔｓｏｒｔ犮１狊１

ｅｘｐｉｎｔ犮２狊２

ｂｓｏｒｔ１００犮３狊３

ｆｉｂｃａｌｌ犮４狊４

ｐｒｉｍｅ犮５狊５

ｃｎｔ犮６狊６

表５　一个没有犫犪狀犽冲突延迟时核到犫犪狀犽映射关系

测试程序犫１犫２犫３犫４

ｉｎｓｅｒｔｓｏｒｔ４０００

ｉｘｐｉｎｔ０００２

ｂｓｏｒｔ１００３８５０

ｆｉｂｃａｌｌ０００１

ｐｒｉｍｅ１０００

ｃｎｔ００３５

图５　各任务的总线请求时间序列

图６　表４中６个任务时算法２的执行结果

为了考察优化核到ｂａｎｋ映射后对ＷＣＥＴ的影

响，取表６所示的核到ｂａｎｋ映射作为未优化时的映

射，在该映射下各任务遭受的ｂａｎｋ冲突延迟如表７

所示．使用算法４（调用算法３）估算了在两个映射下

各任务的ＷＣＥＴ，结果如图７所示，所有测量结果

都是相对于任务在单核系统中测量的结果（下同）．

在图７中，犗狆狋表示优化核到ｂａｎｋ映射后估算的结

果，狀狅＿犗狆狋表示未优化核到ｂａｎｋ映射时估算的结

果．从图７中可以看出，相对于未优化时的估算结果，

优化映射后对所有任务的ＷＣＥＴ有不同程度的改

善，平均提高了约１５％．对ｅｘｐｉｎｔ的ＷＣＥＴ改善程

度最大，提高了大约５０％．虽然ｂｓｏｒｔ１００遭受的ｂａｎｋ

冲突延迟为４３７３６个时钟周期（如表７所示），但由

于其规模较大，改善效果相对不明显（提高了约１％）．

另外，在这两个映射中，ｉｎｓｅｒｔｓｏｒｔ和ｆｉｂｃａｌｌ都没遭

受到ｂａｎｋ访问延迟，估算的ＷＣＥＴ未发生变化．

表６　一个未优化时的核到犫犪狀犽映射关系

测试程序犫１犫２犫３犫４

ｉｎｓｅｒｔｓｏｒｔ４０００

ｅｘｐｉｎｔ００２０

ｂｓｏｒｔ１００４８４０

ｆｉｂｃａｌｌ０００１

ｐｒｉｍｅ００１０

ｃｎｔ００１７

表７　在表６所示的映射中各任务遭受的犫犪狀犽冲突延迟

测试程序ｂａｎｋ冲突延迟／时钟周期

ｉｎｓｅｒｔｓｏｒｔ　　０

ｅｘｐｉｎｔ２４０７０

ｂｓｏｒｔ１００４３７３６

ｆｉｂｃａｌｌ０

ｐｒｉｍｅ４３６８４

ｃｎｔ３５７３８

ＡＩ＋ＩＬＰ（抽象解释加整数线性规划）方法是现

有文献估算ＷＣＥＴ的常用方法，如Ｃｈａｔｔｏｐａｄｈｙａｙ

等人［１３］、Ｋｅｌｔｅｒ等人［１４１５］等．ＡＩ＋ＩＬＰ方法的共同

４９８１计　　算　　机　　学　　报２０１６年

图７　优化核到ｂａｎｋ映射后和未优化时的估算结果对比

点是分别估算每个基本块在流水线上的执行时间、

访问共享Ｌ２缓存的时间、访问主存的时间和总线

访问延迟，然后用线性规划求解工具将这些时间组

合起来得到任务的ＷＣＥＴ，这里，我们将这类方法

统称为“ＡＩ＋ＩＬＰ”方法．

分别使用算法４和ＡＩ＋ＩＬＰ方法估算了在表５

所示的映射中各任务的ＷＣＥＴ值（没有ｂａｎｋ冲

突），结果如图８所示．其中，Ａｌｇ４代表使用算法４

对总线访问延迟进行了消重的估算结果，ＡＩ＋ＩＬＰ

代表使用ＡＩ＋ＩＬＰ未对总线访问延迟进行消重的

估算结果．相对于ＡＩ＋ＩＬＰ方法而言，算法４对任

务的ＷＣＥＴ有不同程度的改善，平均提高了约

３０％．影响估算结果的主要因素有访问Ｌ２缓存的

次数、访问密集度和指令在流水线上的依赖关系等．

ｉｎｓｅｒｔｓｏｒｔ的多数访存指令都集中在基本块３中（使

用Ｃｈｒｏｎｏｓ获得），需要进行消重的计算较多，改善

程度最大，提高了大约５０％．ｂｓｏｒｔ１００访问Ｌ２缓存

的次数为３９４２１０次（如图５所示），消重效果也比较

明显（约４５％）．由于ｆｉｂｃａｌｌ的访问次数很少，因此

改善效果不明显．虽然ｐｒｉｍｅ的访问次数也较大

（９３３５次），但受到其指令间依赖关系的影响，抵消

了对总线延迟消重后的效果．

图８　算法４和ＡＩ＋ＩＬＰ方法估算的结果对比

　　分别使用两种方法对每个任务进行２０次估算，

２０次运行时间的平均值如表８所示．由此可以看

出，由于算法４需要调用算法３并参与时间消重计

算，因此其运行时间比ＡＩ＋ＩＬＰ方法有所提高．

表８　两种估算方法的运行时间／ｓ

测试程序Ａｌｇ４ＡＩ＋ＩＬＰ

ｉｎｓｅｒｔｓｏｒｔ０．４８０６８４４００．４６３２７４４０

ｅｘｐｉｎｔ１．０５７３２１４００．９６８１７０２０

ｂｓｏｒｔ１０００．３５３７４２４５０．３４３７６７４０

ｆｉｂｃａｌｌ０．１７４４８８９００．１７８４０１１０

ｐｒｉｍｅ０．６０９２６０６００．５９６６８８７５

ｃｎｔ０．８１０８５３０００．７８７５５７２０

７２　存在犫犪狀犽访问冲突的应用场景

为了验证ｂａｎｋ访问冲突不能消除时的优化效

果，我们设计了相应的应用场景．在实验环境中，Ｌ２

缓存的容量大小为３ＫＢ，被均匀划分成３个ｂａｎｋ，

每个ｂａｎｋ的大小为１ＫＢ．每个ｂａｎｋ又被均匀划分

成８个ｃｏｌｕｍｎ，每ｃｏｌｕｍｎ的大小为１２８Ｂｙｔｅｓ．其他

参数的设置值采用７．１．１节中实验环境的相应参数

值．使用了表２中的５个测试程序，如表９所示．

表９　测试程序与采用的犔２缓存大小

测试程序缓存大小／ｃｏｌｕｍｎｓ

ｉｎｓｅｒｔｓｏｒｔ４

ｅｘｐｉｎｔ２

ｂｓｏｒｔ１００１６

ｆｉｂｃａｌｌ１

ｐｒｉｍｅ１

７．２．１　实验结果

在实验中采用的任务到核映射和核到总线时槽

映射如表１０所示．在该应用场景中，核犮６空闲，不占

用总线时间，即每个总线调度周期的长度为５·犔犅＝

１０个时钟周期．各任务访问Ｌ２缓存的总线请求时

间序列如图５所示．执行算法２做核到ｂａｎｋ映射，

结果如图９所示，解空间为１２０，总的ｂａｎｋ冲突延

迟范围为［３３７０４，１１０６６０］．具有最小ｂａｎｋ冲突延

迟的核到ｂａｎｋ的映射如表１１所示，在该映射中，只

在ｂａｎｋ犫１上存在ｂａｎｋ访问冲突，各个任务遭受的

ｂａｎｋ冲突延迟如表１２所示．

表１０　使用的任务到核的映射和核到总线时槽的映射

测试程序核总线时槽

ｉｎｓｅｒｔｓｏｒｔ犮１狊１

ｅｘｐｉｎｔ犮２狊２

ｂｓｏｒｔ１００犮３狊３

ｆｉｂｃａｌｌ犮４狊４

ｐｒｉｍｅ犮５狊５

５９８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

表１１　一个犫犪狀犽冲突延迟最小的核到犫犪狀犽映射

测试程序犫１犫２犫３

ｉｎｓｅｒｔｓｏｒｔ４００

ｅｘｐｉｎｔ２００

ｂｓｏｒｔ１０００８８

ｆｉｂｃａｌｌ１００

ｐｒｉｍｅ１００

表１２　在表１１所示的映射中各任务遭受的犫犪狀犽冲突延迟


ｉｎｓｅｒｔｓｏｒｔ９１０８

ｅｘｐｉｎｔ１２３４４

ｂｓｏｒｔ１０００

ｆｉｂｃａｌｌ６

ｐｒｉｍｅ１２２４６

图９　有５个任务时算法２的执行结果

取表１３所示的核到ｂａｎｋ映射作为未优化时的

映射，在该映射下各任务遭受的ｂａｎｋ冲突延迟如

表１４所示．使用算法４估算在两个映射下各任务的

ＷＣＥＴ，结果如图１０所示．从图１０中可看出，相对

于未优化时的估算结果，优化映射后对所有任务

的ＷＣＥＴ有不同程度的改善，平均提高了约１０％．

对ｉｎｓｅｒｔｓｏｒｔ的ＷＣＥＴ改善程度最大，提高了大约

２０％．虽然ｂｓｏｒｔ１００遭受的ｂａｎｋ冲突延迟为３７８４０

个时钟周期（如表１４所示），但相对效果不明显

（约１％）．

表１３　一个没有优化的核到犫犪狀犽映射

测试程序犫１犫２犫３

ｉｎｓｅｒｔｓｏｒｔ４００

ｅｘｐｉｎｔ２００

ｂｓｏｒｔ１００１８７

ｆｉｂｃａｌｌ００１

ｐｒｉｍｅ１００

表１４　在表１３所示的映射中各任务遭受的犫犪狀犽冲突延迟


ｉｎｓｅｒｔｓｏｒｔ１４４２８

ｅｘｐｉｎｔ２０６０４

ｂｓｏｒｔ１００３７８４０

ｆｉｂｃａｌｌ８

ｐｒｉｍｅ３７７８０

图１０　优化核到ｂａｎｋ映射后和未优化时的估算结果对比

分别使用算法４和ＡＩ＋ＩＬＰ方法估算在表１１

所示的映射中各任务的ＷＣＥＴ（各任务遭受的ｂａｎｋ

冲突延迟如表１２所示），结果如图１１所示．相对于

ＡＩ＋ＩＬＰ方法而言，算法４对任务的ＷＣＥＴ估算结

果有不同程度的改善，平均提高了约２５％，例如对

ｂｓｏｒｔ１００ＷＣＥＴ的改善程度约为４５％，对ｆｉｂｃａｌｌ

ＷＣＥＴ的改善程度约为５％，对ｐｒｉｍｅＷＣＥＴ的改

善程度约为８％．另外，在该场景下，分别使用两种

方法对每个任务进行２０次估算，２０次运行时间的

平均值如表１５所示，由此可以看出，由于算法４需

要调用算法３并参与时间消重计算，因此其运行时

间比ＡＩ＋ＩＬＰ方法有所提高．

图１１　算法４和ＡＩ＋ＩＬＰ方法估算的结果对比

表１５　两种估算方法的运行时间／ｓ

测试程序Ａｌｇ４ＡＩ＋ＩＬＰ

ｉｎｓｅｒｔｓｏｒｔ０．４７２８５９９０．４５８３５５３５

ｅｘｐｉｎｔ１．１４２６４６７０．９７０６８１９０

ｂｓｏｒｔ１０００．３７７１７４５０．３４１８３８５５

ｆｉｂｃａｌｌ０．１７６１３７３０．１７３１２０９５

ｐｒｉｍｅ０．６５２２０８７０．５９７０１５１５

８　结　论

本文提出了通过优化核到ｂａｎｋ映射来最小化

６９８１计　　算　　机　　学　　报２０１６年

硬实时多核系统的ｂａｎｋ冲突延迟方法，旨在通过

消除ｂａｎｋ访问冲突或最小化ｂａｎｋ冲突延迟来改

善多核系统中硬实时任务的ＷＣＥＴ．

通过对硬实时多核系统中ｂａｎｋ冲突延迟的分

析，我们得出了硬实时任务间不存在ｂａｎｋ访问冲

突的判断条件，并用优化核到ｂａｎｋ映射的方法来

消除ｂａｎｋ访问冲突．然而，并不是所有的ｂａｎｋ访

问冲突都可以消除，此时需要优化核到ｂａｎｋ映射

来最小化ｂａｎｋ冲突延迟．为此，我们设计了求解该

优化问题的相应算法．另外，还设计了能够对总线访

问延迟进行消重的ＷＣＥＴ估算方法．

实验结果表明，本文提出的优化方法可以消除硬

实时多核系统中的ｂａｎｋ访问冲突或使ｂａｎｋ冲突延

迟最小化．与现有ＷＣＥＴ估算方法比较，本文提出

的ＷＣＥＴ估算方法可以获得更精确的ＷＣＥＴ值．

参考文献

［１］ＴｈｉｅｌｅＬ，ＷｉｌｈｅｌｍＲ．Ｄｅｓｉｇｎｆｏｒｔｉｍｉｎｇｐｒｅｄｉｃｔａｂｉｌｉｔｙ．Ｒｅａｌ

ＴｉｍｅＳｙｓｔｅｍｓ，２００４，２８（２３）：１５７１７７

［２］ＷｉｌｈｅｌｍＲ，ＭｉｔｒａＴ，ＭｕｅｌｌｅｒＦ，ＰｕａｕｔＩ，ｅｔａｌ．Ｔｈｅｗｏｒｓｔ

ｃａｓｅｅｘｅｃｕｔｉｏｎｔｉｍｅｐｒｏｂｌｅｍ：Ｏｖｅｒｖｉｅｗｏｆｍｅｔｈｏｄｓａｎｄ

ｓｕｒｖｅｙｏｆｔｏｏｌｓ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＥｍｂｅｄｄｅｄＣｏｍｐｕｔｉｎｇ

Ｓｙｓｔｅｍｓ，２００８，７（３）：３６：１３６：５３

［３］ＣｕｌｌｍａｎｎＣ，ＦｅｒｄｉｎａｎｄＣ，ＧｅｂｈａｒｄＧ，ＧｒｕｎｄＤ，ｅｔａｌ．

Ｐｒｅｄｉｃｔａｂｉｌｉｔｙｃｏｎｓｉｄｅｒａｔｉｏｎｓｉｎｔｈｅｄｅｓｉｇｎｏｆｍｕｌｔｉｃｏｒｅ

ｅｍｂｅｄｄｅｄｓｙｓｔｅｍｓ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｍｂｅｄｄｅｄＲｅａｌＴｉｍｅ

ＳｏｆｔｗａｒｅａｎｄＳｙｓｔｅｍｓ．ＳａｎＤｉｅｇｏ，ＵＳＡ，２０１０：３６４２

［４］ＺｈａｎｇＷｅｉ，ＹａｎＪｕｎ．Ｓｔａｔｉｃｔｉｍｉｎｇａｎａｌｙｓｉｓｏｆｓｈａｒｅｄｃａｃｈｅｓ

ｆｏｒｍｕｌｔｉｃｏｒｅｐｒｏｃｅｓｓｏｒｓ．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｉｎｇＳｃｉｅｎｃｅａｎｄ

Ｅｎｇｉｎｅｅｒｉｎｇ，２０１２，６（４）：２６７２７８

［５］ＧｕａｎＮａｎ，ＳｔｉｇｇｅＭ，ＹｉＷａｎｇ，ＹｕＧｅ．Ｃａｃｈｅａｗａｒｅｓｃｈｅｄ

ｕｌｉｎｇａｎｄａｎａｌｙｓｉｓｆｏｒｍｕｌｔｉｃｏｒｅｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈ

ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｍｂｅｄｄｅｄＳｏｆｔｗａｒｅ．

Ｇｒｅｎｏｂｌｅ，Ｆｒａｎｃｅ，２００９：２４５２５４

［６］ＨｏＲ，ＭａｉＫＷ，ＨｏｒｏｗｉｔｚＭＡ．Ｔｈｅｆｕｔｕｒｅｏｆｗｉｒｅｓ．

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，２００１，８９（４）：４９０５０４

［７］ＳｙｌｖｅｓｔｅｒＤ，ＫｅｕｔｚｅｒＫ．Ｇｅｔｔｉｎｇｔｏｔｈｅｂｏｔｔｏｍｏｆｄｅｅｐ

ｓｕｂｍｉｃｒｏｎＩＩ：Ａｇｌｏｂａｌｗｉｒｉｎｇｐａｒａｄｉｇｍ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ

１９９９ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＰｈｙｓｉｃａｌＤｅｓｉｇｎ．Ｍｏｎｔｅｒｅｙ，

ＵＳＡ，１９９９：１９３２００

［８］ＫａｓｅｒｉｄｉｓＤ，ＳｔｕｅｃｈｅｌｉＪ，ＪｏｈｎＬＫ．Ｂａｎｋａｗａｒｅｄｙｎａｍｉｃ

ｃａｃｈｅｐａｒｔｉｔｉｏｎｉｎｇｆｏｒｍｕｌｔｉｃｏｒｅａｒｃｈｉｔｅｃｔｕｒｅｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

ｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｒａｌｌｅｌＰｒｏｃｅｓｓｉｎｇ．Ｖｉｅｎｎａ，

Ａｕｓｔｒａ，２００９：１８２５

［９］ＰａｏｌｉｅｒｉＭ，ＱｕｉｏｎｅｓＥ，ＣａｚｏｒｌａＦＪ，ｅｔａｌ．Ｈａｒｄｗａｒｅ

ｓｕｐｐｏｒｔｆｏｒＷＣＥＴａｎａｌｙｓｉｓｏｆｈａｒｄｒｅａｌｔｉｍｅｍｕｌｔｉｃｏｒｅ

ｓｙｓｔｅｍｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３６ｔｈＩＥＥＥ／ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌ

ＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ．Ａｕｓｔｉｎ，Ｔｅｘａｓ，ＵＳＡ，

２００９：５７６８

［１０］ＹｏｏｎＭａｎＫｉ，ＫｉｍＪｕｎｇＥｕｎ，ＳｈａＬｉｕ．Ｏｐｔｉｍｉｚｉｎｇｔｕｎａｂｌｅ

ＷＣＥＴｗｉｔｈｓｈａｒｅｄｒｅｓｏｕｒｃｅａｌｌｏｃａｔｉｏｎａｎｄａｒｂｉｔｒａｔｉｏｎｉｎｈａｒｄ

ｒｅａｌｔｉｍｅｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３２ｎｄＩＥＥＥ

ＲｅａｌＴｉｍｅＳｙｓｔｅｍｓＳｙｍｐｏｓｉｕｍ．Ｖｉｅｎｎａ，Ａｕｓｔｒａ，２０１１：

２２７２３８

［１１］ＡｎｄｒｅｉＡ，ＥｌｅｓＰ，ＰｅｎｇＺ，ＲｏｓｅｎＪ．Ｐｒｅｄｉｃｔａｂｌｅｉｍｐｌｅｍｅｎ

ｔａｔｉｏｎｏｆｒｅａｌｔｉｍｅａｐｐｌｉｃａｔｉｏｎｓｏｎｍｕｌｔｉｐｒｏｃｅｓｓｏｒｓｙｓｔｅｍｓ

ｏｎｃｈｉｐ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎ

ＶＬＳＩＤ．Ｈｙｄｅｒａｂａｄ，Ｉｎｄｉａ，２００８：１０３１１０

［１２］ＲｏｓéｎＪ，ＡｎｄｒｅｉＡ，ＥｌｅｓＰ，ＰｅｎｇＺ．Ｂｕｓａｃｃｅｓｓｏｐｔｉｍｉｚａｔｉｏｎ

ｆｏｒｐｒｅｄｉｃｔａｂｌｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｒｅａｌｔｉｍｅａｐｐｌｉｃａｔｉｏｎｓｏｎ

ｍｕｌｔｉｐｒｏｃｅｓｓｏｒｓｙｓｔｅｍｓｏｎｃｈｉｐ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＩＥＥＥ

ＲｅａｌＴｉｍｅＳｙｓｔｅｍｓＳｙｍｐｏｓｉｕｍ．Ｔｕｃｓｏｎ，Ａｒｉｚｏｎａ，ＵＳＡ，

２００７：４９６０

［１３］ＣｈａｔｔｏｐａｄｈｙａｙＳ，ＲｏｙｃｈｏｕｄｈｕｒｙＡ，ＭｉｔｒａＴ．Ｍｏｄｅｌｉｎｇ

ｓｈａｒｅｄｃａｃｈｅａｎｄｂｕｓｉｎｍｕｌｔｉｃｏｒｅｓｆｏｒｔｉｍｉｎｇａｎａｌｙｓｉｓ／／

Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＳｏｆｔｗａｒｅ＆

ＣｏｍｐｉｌｅｒｓｆｏｒＥｍｂｅｄｄｅｄＳｙｓｔｅｍｓ．Ｓｔ．Ｇｏａｒ，Ｇｅｒｍａｎｙ，

２０１０：１１０

［１４］ＫｅｌｔｅｒＴ，ＦａｌｋＨ，ＭａｒｗｅｄｅｌＰ，ｅｔａｌ．Ｂｕｓａｗａｒｅｍｕｌｔｉｃｏｒｅ

ＷＣＥＴａｎａｌｙｓｉｓｔｈｒｏｕｇｈＴＤＭＡｏｆｆｓｅｔｂｏｕｎｄｓ／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅ２０１１ＥｕｒｏｍｉｃｒｏＣｏｎｆｅｒｅｎｃｅｏｎＲｅａｌＴｉｍｅＳｙｓｔｅｍｓ．

Ｐｏｒｔｏ，Ｐｏｒｔｕｇａｌ，２０１１：３１２

［１５］ＫｅｌｔｅｒＴ，ＦａｌｋＨ，ＭａｒｗｅｄｅｌＰ，ｅｔａｌ．Ｓｔａｔｉｃａｎａｌｙｓｉｓｏｆ

ｍｕｌｔｉｃｏｒｅＴＤＭＡｒｅｓｏｕｒｃｅａｒｂｉｔｒａｔｉｏｎｄｅｌａｙｓ．ＲｅａｌＴｉｍｅ

Ｓｙｓｔｅｍｓ，２０１４，５０（２）：１８５２２９

［１６］ＣｈａｔｔｏｐａｄｈｙａｙＳ，ＣｈｏｎｇＬＫ，ＲｏｙｃｈｏｕｄｈｕｒｙＡ，ｅｔａｌ．Ａ

ｕｎｉｆｉｅｄＷＣＥＴａｎａｌｙｓｉｓｆｒａｍｅｗｏｒｋｆｏｒｍｕｌｔｉｃｏｒｅｐｌａｔｆｏｒｍｓ．

ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＥｍｂｅｄｄｅｄＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ，２０１４，

１３（４ｓ）：１２４：１１２４：２９

［１７］ＬｉＹａｎ，ＳｕｈｅｎｄｒａＶ，ＬｉａｎｇＹｕｎ，ｅｔａｌ．Ｔｉｍｉｎｇａｎａｌｙｓｉｓｏｆ

ｃｏｎｃｕｒｒｅｎｔｐｒｏｇｒａｍｓｒｕｎｎｉｎｇｏｎｓｈａｒｅｄｃａｃｈｅｍｕｌｔｉｃｏｒｅｓ／／

Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３０ｔｈＩＥＥＥＲｅａｌＴｉｍｅＳｙｓｔｅｍｓＳｙｍｐｏｓｉｕｍ．

Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡ，２００９：５７６７

［１８］ＹａｎＪｕｎ，ＺｈａｎｇＷｅｉ．ＷＣＥＴａｎａｌｙｓｉｓｆｏｒｍｕｌｔｉｃｏｒｅｐｒｏｃｅｓｓｏｒｓ

ｗｉｔｈｓｈａｒｅｄＬ２ｉｎｓｔｒｕｃｔｉｏｎｃａｃｈｅｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１４ｔｈ

ＩＥＥＥＲｅａｌＴｉｍｅａｎｄＥｍｂｅｄｄｅｄＴｅｃｈｎｏｌｏｇｙａｎｄＡｐｐｌｉｃａｔｉｏｎｓ

Ｓｙｍｐｏｓｉｕｍ．Ｓｔ．Ｌｏｕｉｓ，Ｍｏ，ＵＳＡ，２００８：８０８９

［１９］ＣｈｅｎＦａｎｇＹｕａｎ，ＺｈａｎｇＤｏｎｇＳｏｎｇ，ＷａｎｇＺｈｉＹｉｎｇ．Ｓｔａｔｉｃ

ａｎａｌｙｓｉｓｏｆｒｕｎｔｉｍｅｉｎｔｅｒｔｈｒｅａｄｉｎｔｅｒｆｅｒｅｎｃｅｓｉｎｓｈａｒｅｄｃａｃｈｅ

ｍｕｌｔｉｃｏｒｅａｒｃｈｉｔｅｃｔｕｒｅｓｂａｓｅｄｏｎｉｎｓｔｒｕｃｔｉｏｎｆｅｔｃｈｉｎｇｔｉｍｉｎｇ／／

ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒ

ＳｃｉｅｎｃｅａｎｄＡｕｔｏｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ．Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，２０１１：

２０８２１２

［２０］ＤｉｎｇＨｕＰｉｎｇ，ＬｉａｎｇＹｕｎ，ＭｉｔｒａＴ．ＷＣＥＴｃｅｎｔｒｉｃｄｙｎａｍｉｃ

ｉｎｓｔｒｕｃｔｉｏｎｃａｃｈｅｌｏｃｋｉｎｇ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎ

Ｄｅｓｉｇｎ，Ａｕｔｏｍａｔｉｏｎ＆ＴｅｓｔｉｎＥｕｒｏｐｅ．Ｄｒｅｓｄｅｎ，Ｇｅｒｍａｎｙ，

２０１４：１６

［２１］ＬｉｕＴｉａｎＴｉａｎ，ＬｉＭｉｎＭｉｎｇ，ＸｕｅＣＪ．Ｉｎｓｔｒｕｃｔｉｏｎｃａｃｈｅ

ｌｏｃｋｉｎｇｆｏｒｍｕｌｔｉｔａｓｋｒｅａｌｔｉｍｅｅｍｂｅｄｄｅｄｓｙｓｔｅｍｓ．ＲｅａｌＴｉｍｅ

Ｓｙｓｔｅｍｓ，２０１２，４８（２）：１６６１９７

７９８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

［２２］ＬｉＸｉａｎＦｅｎｇ，ＬｉａｎｇＹｕｎ，ＭｉｔｒａＴ，ＲｏｙｃｈｏｕｄｈｕｒｙＡ．

Ｃｈｒｏｎｏｓ：Ａｔｉｍｉｎｇａｎａｌｙｚｅｒｆｏｒｅｍｂｅｄｄｅｄｓｏｆｔｗａｒｅ．Ｓｃｉｅｎｃｅ

ｏｆＣｏｍｐｕｔｅｒＰｒｏｇｒａｍｍｉｎｇ，２００７，６９（１３）：５６６７

［２３］ＴｈｅｉｌｉｎｇＨ，ＦｅｒｄｉｎａｎｄＣ，ＷｉｌｈｅｌｍＲ．Ｆａｓｔａｎｄｐｒｅｃｉｓｅ

ＷＣＥＴｐｒｅｄｉｃｔｉｏｎｂｙｓｅｐａｒａｔｅｄｃａｃｈｅａｎｄｐａｔｈａｎａｌｙｓｅｓ．

ＲｅａｌＴｉｍｅＳｙｓｔｅｍｓ，２０００，１８（２３）：１５７１７９

［２４］ＢｕｒｇｅｒＤ，ＡｕｓｔｉｎＴＭ．Ｔｈｅｓｉｍｐｌｅｓｃａｌａｒｔｏｏｌｓｅｔ，ｖｅｒｓｉｏｎ

２．０．ＡＣＭＳＩＧＡＲＣＨＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅＮｅｗｓ，１９９７，

２５（３）：１３２５

［２５］ＬｉＸｉａｎＦｅｎｇ，ＲｏｙｃｈｏｕｄｈｕｒｙＰ，ＭｉｔｒａＰ．Ｍｏｄｅｌｉｎｇｏｕｔｏｆ

ｏｒｄｅｒｐｒｏｃｅｓｓｏｒｓｆｏｒＷＣＥＴａｎａｌｙｓｉｓ．ＲｅａｌＴｉｍｅＳｙｓｔｅｍｓ，

２００６，３４（３）：１９５２２７

［２６］ＧｕｓｔａｆｓｓｏｎＪ，ＢｅｔｔｓＡ，ＥｒｍｅｄａｈｌＡ，ＬｉｓｐｅｒＢ．ＴｈｅＭｌａｒｄａｌｅｎ

ＷＣＥＴｂｅｎｃｈｍａｒｋｓ：Ｐａｓｔ，ｐｒｅｓｅｎｔａｎｄｆｕｔｕｒｅ／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＷｏｒｓｔＣａｓｅＥｘｅｃｕｔｉｏｎ

ＴｉｍｅＡｎａｌｙｓｉｓ．Ｂｒｕｓｓｅｌｓ，Ｂｅｌｇｉｕｍ，２０１０：１３７１４７

附　录．

　　定理２．　已知犖ｃｏｒｅ、犔犕／犔犅和犖ｃｏｌｕｍｎ，且Ｌ２缓存的容

量大小满足需求，若犖ｃｏｒｅ／（犔犕／犔犅）＞犖ｃｏｌｕｍｎ，则ｂａｎｋ访

问冲突可以通过优化核到ｂａｎｋ的映射去消除．

证明．　令犇犕＝犔犕／犔犅为整数（在３．１节中已作规定），

将核的集合犆划分成犇犕个部分，犆＝｛犆０，犆１，…，犆（犇犕－１）｝，

犆０∩犆１∩…∩犆（犇犕－１）＝，且满足犆犻犆，犮犼∈犆犻，犼ｍｏｄ

犇犕＝犻．可得犱犼狇犇犕，犮犼，犮狇∈犆犻，０犻（犇犕－１）．若

犮犼，犮狇∈犆犫犽且犮犼，犮狇∈犆犻，０犻（犇犕－１），则根据定理１可

知：在ｂａｎｋ犫犽上不存在ｂａｎｋ访问冲突．

先构造一个映射，将犆犻（０犻（犇犕－１））中的核按序

号大小排序，并按下述方法做核到ｂａｎｋ的映射：（１）将犆０中

的核依次向ｂａｎｋ做映射，先向犫１做映射，犫１分配完后，向犫２

做映射，依次类推．设犆０的最后一个核映射到犫犽，且犫犽有

ｃｏｌｕｍｎ未分配出去，即犫１～犫（犽－１）已分配完；（２）将犆１中的核

依次向ｂａｎｋ做映射，先向犫犽做映射，并按照（１）方法做映射．

依次类推，最后，完成犆（犇犕－１）到ｂａｎｋ的映射．现只需证明在

按上述方法确立的核到ｂａｎｋ的映射中不存在ｂａｎｋ访问冲

突即可．

用犕：（犆→犅）表示按上述方法确定的核到ｂａｎｋ的映射．

对于映射犕：（犆→犅），犆犻犆，０犻＜（犇犕－１），现考察犆（犻＋１）

中的核与犆犻中的核共享ｂａｎｋ的情况．用｛｛犮犻狇，犮犻（狇＋１），…，犮犻（狀犻）｝，

｛犮（犻＋１）１，犮（犻＋１）２，…，犮（犻＋１）狆｝｝表示犆犻和犆（犻＋１）中共享一个ｂａｎｋ的

核集合（用!犻（犻＋１）表示），其中｛犮犻狇，犮犻（狇＋１），…，犮犻（狀犻）｝是犆犻的子集，

狀犻为犆犻中的核数，｛犮（犻＋１）１，犮（犻＋１）２，…，犮（犻＋１）狆｝是犆（犻＋１）的子集．现

在需要证明如下两点即可：（１）狇（狆＋２）；（２）犮犻狇和犮（犻＋１）狆之

间的模距离大于等于犔犕／犔犅．

证明狇（狆＋２）．假设狇（狆＋１），!犻（犻＋１）可以表示为

｛犮（犻＋１）１，犮（犻＋１）２，…，犮（犻＋１）狆，犮犻狇，犮犻（狇＋１），…，犮犻（狀犻）｝，则!犻（犻＋１）中

的核数（用犖犻（犻＋１）表示）大于等于犖ｃｏｒｅ／（犔犕／犔犅）．由于

犖ｃｏｒｅ／（犔犕／犔犅）＞犖ｃｏｌｕｍｎ，所以犖犻（犻＋１）＞犖ｃｏｌｕｍｎ，又因为是

以ｃｏｌｕｍｎ为单位向核分配Ｌ２缓存（消除ｓｔｏｒａｇｅ干扰），即每

个核至少需要１个ｃｏｌｕｍｎ（核是空闲的除外），核集合!犻（犻＋１）

需要的总ｃｏｌｕｍｎ数大于等于犖犻（犻＋１），所以!犻（犻＋１）需要的总

ｃｏｌｕｍｎ数大于犖ｃｏｌｕｍｎ，即核集合!犻（犻＋１）需要的总ｃｏｌｕｍｎ数

不可能由一个ｂａｎｋ容纳，与!犻（犻＋１）中的核共享一个ｂａｎｋ矛

盾，故狇（狆＋１）不成立，因为狇、狆为整数，狇（狆＋２）．

证明犮犻狇和犮（犻＋１）狆之间的模距离大于等于犔犕／犔犅．在集合

犆中，犮犻狇的序号可以表示为（狇－１）·犇犕＋犻＋１，犮（犻＋１）狆的序号

可以表示为（狆－１）·犇犕＋（犻＋１）＋１．犮犻狇和犮（犻＋１）狆之间的模

距离为（（狇－１）·犇犕＋犻＋１）－（（狆－１）·犇犕＋（犻＋１）＋１），

可简化为（狇－狆）·犇犕－１，因为狇（狆＋２），则（（狇－狆）·

犇犕－１）（２·犇犕－１）犇犕．

综上所述，在!犻（犻＋１）中，核间的模距离都大于等于

犔犕／犔犅，根据定理１，在这些核共享使用的ｂａｎｋ上不存在

ｂａｎｋ访问冲突，且犆犻（０犻＜（犇犕－１））具有一般性，因此，

在映射犕：（犆→犅）中不存在ｂａｎｋ访问冲突．证毕．

定理３．　已知犆、犖ｃｏｒｅｍｏｄ２＝０、犔犕／犔犅＝２、犖ｃｏｌｕｍｎ和

犛犻狕犲犮犻＞０，１犻犖ｃｏｒｅ．将犆分割成两个互不相交的子集犆０和

犆１，且满足：在任一子集中的任意两个核之间的模距离大于等

于犔犕／犔犅．若在每个子集中能够找到一个核集合犆狊犻（犆犻），

０犻１，且满足犛犻狕犲（犆狊犻）犛犻狕犲（犆犻）ｍｏｄ犖ｃｏｌｕｍｎ，则ｂａｎｋ访

问冲突可以通过优化核到ｂａｎｋ的映射去消除．

证明．　将犆０和犆１分别整理为犆０＝｛犮０１，犮０２，…，犆狊０｝和

犆１＝｛犆狊１，犮１犻，犮１（犻＋１），…，犮１（狀１）｝，并按照定理２的证明方法构

造核到ｂａｎｋ的映射犕：（犆→犅）．由于犛犻狕犲（犆狊犻）犛犻狕犲（犆犻）

ｍｏｄ犖ｃｏｌｕｍｎ，则!０１｛犆狊０，犆狊１｝且犮犼，犮狇∈犆狊犻，犱犼狇犔犕／犔犅，

０犻１，因此在映射犕：（犆→犅）中不存在ｂａｎｋ访问冲突．

证毕．

犣犎犃犖犌犑犻犣犪狀，ｂｏｒｎｉｎ１９７３，Ｐｈ．Ｄ．

ｃａｎｄｉｄａｔｅ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅ

ｃｏｍｐｕｔｅｒａｒｃｈｉｔｅｃｔｕｒｅａｎｄｃｏｍｐｕｔｅｒ

ｎｅｔｗｏｒｋ．

犌犝犣犺犻犕犻狀，ｂｏｒｎｉｎ１９６４，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ．Ｈｉｓ

ｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｉｓｏｐｔｉｍｉｚａｔｉｏｎｏｆｍｕｌｔｉｃｏｒｅ／ｍａｎｙｃｏｒｅ．

８９８１计　　算　　机　　学　　报２０１６年

犅犪犮犽犵狉狅狌狀犱

Ｔｈｅｕｓａｇｅｏｆｍｕｌｔｉｃｏｒｅｐｒｏｃｅｓｓｏｒｉｎｈａｒｄｒｅａｌｔｉｍｅ

ｓｙｓｔｅｍｓｂｒｉｎｇｓｎｅｗｃｈａｌｌｅｎｇｅｓｔｏＷＣＥＴａｎａｌｙｓｉｓ．Ｔｈｅｈａｒｄ

ｒｅａｌｔｉｍｅｔａｓｋ，ｒｕｎｎｉｎｇｏｎｈａｒｄｒｅａｌｔｉｍｅｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍｓ

ａｔｔｈｅｓａｍｅｔｉｍｅ，ｃａｎｉｎｔｅｒｆｅｒｅｗｉｔｈｅａｃｈｏｔｈｅｒｏｎｓｈａｒｅｄ

ｒｅｓｏｕｒｃｅｓ．Ｓｈａｒｅｄｃａｃｈｅｉｓｏｎｅｉｍｐｏｒｔａｎｔｓｈａｒｅｄｒｅｓｏｕｒｃｅｆｏｒ

ｈａｒｄｒｅａｌｔｉｍｅｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍｓ，ｔｈｅｅｘｉｓｔｉｎｇａｎａｌｙｓｉｓ

ｍｅｔｈｏｄｓｏｆｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔａｒｅｏｎｌｙｃｏｎｆｉｎｅｄｔｏｂｏｕｎｄｉｎｇ

ｔｈｅｕｐｐｅｒｂｏｕｎｄｏｆｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙ．Ｈｏｗｅｖｅｒ，ｔｈｅ

ｍｅｔｈｏｄｓｏｆｂｏｕｎｄｉｎｇｔｈｅｕｐｐｅｒｂｏｕｎｄａｒｅｏｎｌｙｓｕｉｔａｂｌｅｆｏｒ

ｔｈｅｉｒｓｐｅｃｉａｌｂｕｓａｒｂｉｔｒａｔｉｏｎｐｏｌｉｃｙ．Ｍｏｒｅｏｖｅｒ，ｔｈｅＷＣＥＴ

ｅｓｔｉｍａｔｅｄｂｙｂｏｕｎｄｉｎｇｔｈｅｕｐｐｅｒｂｏｕｎｄｓｕｆｆｅｒｅｄｂｙｅａｃｈ

ｒｅｑｕｅｓｔｈａｓｍｏｒｅｏｖｅｒｅｓｔｉｍａｔｉｏｎ．

Ｎｏｗｔｈｅｂａｎｋｅｄｃａｃｈｅａｒｃｈｉｔｅｃｔｕｒｅｓｂｅｃｏｍｉｎｇｔｈｅｔｙｐｉｃａｌ

ｄｅｓｉｇｎｄｉｒｅｃｔｉｏｎ，ｏｎｅｃａｃｈｅｈａｓｍｏｒｅｔｈａｎｏｎｅｂａｎｋ．Ａｃｏｒｅ

ｔｏｂａｎｋｍａｐｐｉｎｇｐａｒｔｉｔｉｏｎｓｔｈｅｈａｒｄｒｅａｌｔｉｍｅｔａｓｋｓｒｕｎｎｉｎｇ

ｉｎｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍｉｎｔｏｓｅｖｅｒａｌｇｒｏｕｐｓａｃｃｏｒｄｉｎｇｔｏｗｈｅｔｈｅｒ

ｔｈｅｔａｓｋｓｓｈａｒｅｏｎｅｂａｎｋｏｒｎｏｔ．Ｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔｓｃａｎ

ｏｎｌｙｈａｐｐｅｎａｍｏｎｇｔｈｅｔａｓｋｓｓｈａｒｉｎｇｏｎｅｂａｎｋ．

Ｔｈｅｇｏａｌｏｆｔｈｉｓｐａｐｅｒｉｓｔｏｅｌｉｍｉｎａｔｅｏｒｍｉｎｉｍｉｚｅｔｈｅ

ｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙｉｎｈａｒｄｒｅａｌｔｉｍｅｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍ

ｔｈｒｏｕｇｈｏｐｔｉｍｉｚｉｎｇｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇ．Ｔｈｅｍａｊｏｒｃｏｎｔｒｉ

ｂｕｔｉｏｎｓｏｆｔｈｉｓｐａｐｅｒａｒｅａｓｆｏｌｌｏｗｓ：

（１）Ｗｅｆｉｒｓｔｌｙｏｐｔｉｍｉｚｅｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇｔｏｅｌｉｍｉｎａｔｅ

ｂａｎｋａｃｃｅｓｓｃｏｎｆｌｉｃｔ．Ｉｆｎｏｔ，ｗｅｏｐｔｉｍｉｚｅｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇ

ｔｏｍｉｎｉｍｉｚｅｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙ；

（２）Ｗｅｄｅｓｉｇｎａｎａｌｇｏｒｉｔｈｍｔｏｆｉｎｄｔｈｅｃｏｒｅｔｏｂａｎｋ

ｍａｐｐｉｎｇｗｉｔｈｔｈｅｍｉｎｉｍｕｍｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙ．Ｉｎｔｈｉｓ

ａｌｇｏｒｉｔｈｍ，ｗｅｃｏｍｐｕｔｅｔｈｅｂａｎｋｃｏｎｆｌｉｃｔｄｅｌａｙａｃｃｏｒｄｉｎｇｔｏ

ｔｈｅｔｉｍｉｎｇｓｅｑｕｅｎｃｅｓｏｆｔｈｅｍｕｌｔｉｃｏｒｅｂｕｓｒｅｑｕｅｓｔｓ；

（３）ＷｅｐｒｏｐｏｓｅＷＣＥＴａｎａｌｙｓｉｓａｐｐｒｏａｃｈｆｏｒｔｈｅｈａｒｄ

ｒｅａｌｔｉｍｅｔａｓｋｓｒｕｎｎｉｎｇｏｎｍｕｌｔｉｃｏｒｅｓｙｓｔｅｍａｔｔｈｅｓａｍｅｔｉｍｅ．

（４）Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｏｕｒａｐｐｒｏａｃｈ

ｏｆｏｐｔｉｍｉｚｉｎｇｃｏｒｅｔｏｂａｎｋｍａｐｐｉｎｇｃａｎｍｉｎｉｍｉｚｅｂａｎｋ

ｃｏｎｆｌｉｃｔｄｅｌａｙａｎｄｏｕｒａｐｐｒｏａｃｈｔｏｅｓｔｉｍａｔｅＷＣＥＴｉｓｍｏｒｅ

ｅｆｆｅｃｔｉｖｅｔｈａｎｅｘｉｓｔｉｎｇａｐｐｒｏａｃｈｅｓ．

ＴｈｉｓｗｏｒｋｉｓｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅ

ＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａｕｎｄｅｒＧｒａｎｔＮｏ．６１３７００６２．Ｔｈｉｓｐｒｏｊｅｃｔ

ｓｔｕｄｉｅｓｔｈｅｏｐｔｉｍｉｚａｔｉｏｎｍｏｄｅｌｏｎｂｏｕｎｄｉｎｇｏｆｉｎｔｅｒｆｅｒｅｎｃｅｓｉｎ

ｏｎｃｈｉｐｓｈａｒｅｄｒｅｓｏｕｒｃｅｓｆｏｒｅｎｅｒｇｙｅｆｆｉｃｉｅｎｔａｎｄｌｏｗｄｅｌａｙ

ｅｍｂｅｄｄｅｄｍｕｌｔｉｃｏｒｅ．Ｔｈｅｒｅｓｅａｒｃｈｒｅｓｕｌｔｓｃａｎｂｅｗｉｄｅｌｙ

ｕｓｅｄｉｎｈｉｇｈｅｎｄｍｕｌｔｉｃｏｒｅｒｅａｌｔｉｍｅｓｙｓｔｅｍｓｗｉｔｈｂａｔｔｅｒｙ

ｐｏｗｅｒｅｄ．Ｔｈｅｆｅａｓｉｂｉｌｉｔｙｏｆｔｈｉｓｒｅｓｅａｒｃｈｈａｓｂｅｅｎｖｅｒｉｆｉｅｄ

ｓｕｆｆｉｃｉｅｎｔｌｙｉｎｏｕｒｐｒｅｌｉｍｉｎａｒｙｗｏｒｋ，ｆｏｒｅｘａｍｐｌｅｓ，“Ｐｒｅｆｅｔｃｈｉｎｇ

ｉｎＭｏｂｉｌｅＥｍｂｅｄｄｅｄＳｙｓｔｅｍＣａｎｂｅＥｎｅｒｇｙＥｆｆｉｃｉｅｎｔ，ＩＥＥＥ

ＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅＬｅｔｔｅｒｓ，Ｖｏｌ．１０，Ｎｏ．１，８－１１，２０１１”，

“ＡｃｃｅｌｅｒａｔｉｏｎｏｆＸＭＬＰａｒｓｉｎｇＴｈｒｏｕｇｈＰｒｅｆｅｔｃｈｉｎｇ．ＩＥＥＥ

ＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍｐｕｔｅｒｓ，ＩＥＥＥＸｐｌｏｒｅＤｉｇｉｔａｌＬｉｂｒａｒｙ，

ｏｎｌｉｎｅ１０．１１０９／ＴＣ．２０１２．８８”ａｎｄｓｏｏｎ．

９９８１９期张吉赞等：多核共享缓存ｂａｎｋ冲突分析及其延迟最小化

Documents

多核共享缓存犫犪狀犽冲突分析及其延迟最小化 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/zjz-2016823103914.pdf · 2016. 8. 23. · 书 第39卷 第 9期 2016年9月

多核共享缓存犫犪狀犽冲突分析及其延迟最小化 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/zjz-2016823103914.pdf · 2016. 8. 23. · 书第39卷第 9期 2016年9月