43
计计计计 计计 计计计计 计计 - - 计计计计 计计计计 2 2 计计计计计计计计计 计计计计计计计计计 计计计 计计计

计算机系统结构 - 经典理论( 2 )

Embed Size (px)

DESCRIPTION

计算机系统结构 - 经典理论( 2 ). 上海大学计算机学院 徐炜民. 目录. 属性 分类 并行性 多机结构 评测(专题). 发展. 有人认为没有发展,其实有发展: 冯 · 诺依曼结构 — 单机 大型机 — 主机 + 终端 小型机 — 可移动的大型机 PC 机 — 计算机普及、兼容(“盗版”) 多机 — 计算力( power ) 计算机 + 网络 高性能 — 体现超计算力 高效能 — 功耗成为主要指标 冠以“计算” — 网格计算、云计算、网络计算、透明计算。。。. 发展. - PowerPoint PPT Presentation

Citation preview

计算机系统结构计算机系统结构 -- 经典理论经典理论

(( 22 ))

上海大学计算机学院上海大学计算机学院徐炜民徐炜民

目录目录属性分类并行性多机结构评测(专题)

发展发展有人认为没有发展,其实有发展:冯 ·诺依曼结构—单机大型机—主机 + 终端小型机—可移动的大型机PC 机—计算机普及、兼容(“盗版”)多机—计算力( power)计算机 + 网络高性能—体现超计算力高效能—功耗成为主要指标冠以“计算”—网格计算、云计算、网络计算、透明计算。。。

发展发展 目前,衡量超级计算目前,衡量超级计算 (supercomputing)(supercomputing) 仍用习惯的方法仍用习惯的方法

(小时、作业、程序数、程序可移植性)(小时、作业、程序数、程序可移植性)

采用共享存储器的向量多处理器系统仍是主流(采用共享存储器的向量多处理器系统仍是主流( Cray Cray Research, Fujitsu, IBM, Hitachi, NECResearch, Fujitsu, IBM, Hitachi, NEC )。)。例如,例如, 19931993 年的年的 C90C90 用 用 1616 台处理台处理器,器, Gigaflops=1610Gigaflops=1610 ,, 9,5009,500 次次 // 美元。美元。

九十年代,九十年代, RISCRISC 标量处理机可达标量处理机可达 50005000 次次 // 美元。基于美元。基于消息传递的多计算机系统可达到消息传递的多计算机系统可达到 TeraflopsTeraflops 。。

值得注意:新的体系结构值得注意:新的体系结构 IBMIBM 的的““ cellcell””处理机(流处理机(流媒体)、媒体)、 GPUGPU (( SIMDSIMD )、)、 ASIC/FPGA…ASIC/FPGA…

从广义上讲,可扩展性反映了系统结构、算法、软件和从广义上讲,可扩展性反映了系统结构、算法、软件和环境之间的相互关系。它涉及到系统结构的通用性、可环境之间的相互关系。它涉及到系统结构的通用性、可扩展性、可编程性、可实现扩展性、可编程性、可实现性。性。

性能的系统属性性能的系统属性理想的计算机系统的性能要求机器功能和程序行为之间有理想的计算机系统的性能要求机器功能和程序行为之间有

良好的匹配。良好的匹配。

机器功能:好的硬件技术、改进的系统结构特性、有效的机器功能:好的硬件技术、改进的系统结构特性、有效的资源管理资源管理……

程序行为:难预测,与应用和运行条件有密切的关系。如程序行为:难预测,与应用和运行条件有密切的关系。如算法设计、数据结构、语言效率、程序员的技能、编算法设计、数据结构、语言效率、程序员的技能、编译技术译技术……

性能的系统属性性能的系统属性 (cont.)(cont.) 由于机器性能会随程序而变化,因此,应该在一定范由于机器性能会随程序而变化,因此,应该在一定范

围内或按调和分布来描述性能。围内或按调和分布来描述性能。

描述性能的一些术语和公式:描述性能的一些术语和公式:

时钟频率: 时钟频率: CPUCPU 是由一个恒定周期(是由一个恒定周期( ττ ,以,以 nsns表示)的时钟驱动。周期的倒数是时钟频率 表示)的时钟驱动。周期的倒数是时钟频率 f=1/τf=1/τ ,,以以 MHzMHz 表示表示

CPI (Cycle Per Instruction) CPI (Cycle Per Instruction) :一条指:一条指令的周期数。不针对某类指令,则表示给定的指令系令的周期数。不针对某类指令,则表示给定的指令系统和综合程序的平均值。统和综合程序的平均值。

性能的系统属性性能的系统属性 (cont.)(cont.) 性能因子:五个性能因子:五个

Ic Ic -已知程序的指令条数或指令计数,-已知程序的指令条数或指令计数,p p -指令译码和执行所需的处理机周期数,-指令译码和执行所需的处理机周期数,m m -所需的存储器访问次数,-所需的存储器访问次数,k k -存储周期与处理机周期之比,-存储周期与处理机周期之比, kk 值与存储器技值与存储器技术及处 理机术及处 理机——存储器互连方法有关。存储周期存储器互连方法有关。存储周期比处理机周期比处理机周期 ττ 大大 kk 倍。倍。T T -执行程序所需的-执行程序所需的 CPUCPU 时间。一条指令执行的过程时间。一条指令执行的过程一般分为取指令、译码、取操作数、执行、存储结果一般分为取指令、译码、取操作数、执行、存储结果五个阶段。其中译码和执行由五个阶段。其中译码和执行由 CPUCPU完成,称处理机周完成,称处理机周期;取指令、取操作数(有可能操作二次)和存储结期;取指令、取操作数(有可能操作二次)和存储结果是对存储器操作,称存储器周期。果是对存储器操作,称存储器周期。T = Ic×CPI×τT = Ic×CPI×τ = Ic×(p = Ic×(p ++ m×k)×τm×k)×τ

性能的系统属性性能的系统属性 (cont.)(cont.) 系统属性:四个系统属性:四个 指令系统结构指令系统结构 编译技术编译技术 处理机实现和控制技术处理机实现和控制技术 高速缓存与存储器层次结构高速缓存与存储器层次结构

MIPSMIPS速率:每秒百万次,表示速率:每秒百万次,表示 CPUCPU 的执行速度的执行速度 吞吐率:系统在单位时间内能执行多少个程序吞吐率:系统在单位时间内能执行多少个程序

性能的系统属性性能的系统属性 (cont.)(cont.)MIPSMIPS速率:速率: (Million Instruction Per (Million Instruction Per Second)Second)

每秒百万次,表示每秒百万次,表示 CPUCPU 的执行速度。的执行速度。

MISPMISP速率 速率 = = Ic/(T×106)=f/(CPI×106)=(f×Ic)/(C×1Ic/(T×106)=f/(CPI×106)=(f×Ic)/(C×106)06)

CC 是执行已知程序所需的时钟周期总数。是执行已知程序所需的时钟周期总数。

性能的系统属性性能的系统属性 (cont.)(cont.)

吞吐率:吞吐率:WpWp (处理机吞吐率):(处理机吞吐率):处理机在单位时间内能执行多少个程序。处理机在单位时间内能执行多少个程序。Wp = f/(Ic×CPI)Wp = f/(Ic×CPI)

WsWs (系统吞吐率):(系统吞吐率):系统在单位时间内能执行多少个程序。系统在单位时间内能执行多少个程序。Ws < Wp Ws < Wp ( ( WsWs 有额外系统开销:有额外系统开销: I/OI/O 、、编译、编译、 OSOS……))

FlynnFlynn 分类法分类法

Micheal Flynn(1972)Micheal Flynn(1972)提出指令流、数据流和多倍性概提出指令流、数据流和多倍性概念,把不同的计算机分为四大类(图念,把不同的计算机分为四大类(图 11 -- 33 ):):

SISDSISD (( Single-Instruction Single-Data,Single-Instruction Single-Data, 单处单处理机结构)理机结构)

SIMDSIMD (( Single-Instruction Multi-Data,Single-Instruction Multi-Data,带分布带分布存储器)存储器)

MISDMISD (( Multi-Instruction Single-Data,Multi-Instruction Single-Data,搏动式搏动式阵列)阵列)

MIMDMIMD (( Multi-Instruction Multi-Data,Multi-Instruction Multi-Data,带共享存带共享存储器)储器)

23/4/1923/4/19 1212

系统结构中的并行性概念系统结构中的并行性概念计算机系统增加并行性可以提高机器的处理速度。计算机系统增加并行性可以提高机器的处理速度。

例:运算器有串行运算(例:运算器有串行运算( nn 位数据用一位运算器)演变到位数据用一位运算器)演变到并行运算(用并行运算(用 nn 位运算器位运算器 )) ,使得在元器件速度相同,使得在元器件速度相同的条件下,后者的运算速度几乎提高到前者的的条件下,后者的运算速度几乎提高到前者的 nn 倍。倍。

并行性并行性 (parallelism)(parallelism) 定义:定义:

在同一时刻或同一时间间隔内完成两种或两种以上性质相在同一时刻或同一时间间隔内完成两种或两种以上性质相同或不相同的工作,只要时间上互相重叠,均存在并同或不相同的工作,只要时间上互相重叠,均存在并行性。行性。

• 同时性同时性 (simultaneity)(simultaneity) :两个或多个事件在同一时:两个或多个事件在同一时刻发生的并行性刻发生的并行性

• 并发性并发性 (concurrency)(concurrency) :两个或多个事件在同一时:两个或多个事件在同一时间间隔内发生的并行性间间隔内发生的并行性

并行性概念并行性概念 (cont.)(cont.)不同等级的并行性:不同等级的并行性:

指令内部并行,指令内部微操作之间的并行指令内部并行,指令内部微操作之间的并行

指令间并行,并行执行两条或多条指令指令间并行,并行执行两条或多条指令

任务级或过程级并行,并行执行两个或多个任务或过程任务级或过程级并行,并行执行两个或多个任务或过程(程序段)(程序段)

作业或程序级并行,在多个作业或程序间并行作业或程序级并行,在多个作业或程序间并行

www.acmqueue.orgwww.acmqueue.org

并行性表现形式并行性表现形式 并行性在不同的处理级别中可表现为多种形式:并行性在不同的处理级别中可表现为多种形式:先行方式、流水线方式、向量化、并发性、同先行方式、流水线方式、向量化、并发性、同时性、数据并行性、划分、交叉、重叠、多重时性、数据并行性、划分、交叉、重叠、多重性、重复、时间共享、空间共享、多任务处理、性、重复、时间共享、空间共享、多任务处理、多道程序、多线程方式、分布式计算。多道程序、多线程方式、分布式计算。

并行性概念并行性概念 (cont.)(cont.)提高并行性的三种技术途径:提高并行性的三种技术途径:

时间重叠:多个处理过程在时间上相互错开,轮流重叠使用时间重叠:多个处理过程在时间上相互错开,轮流重叠使用同一套硬件的各个部件,以加快部件的周转而提高速度。同一套硬件的各个部件,以加快部件的周转而提高速度。(例:指令的重叠解释)(例:指令的重叠解释)

资源重复:重复设置硬件资源以提高计算机系统的性能。资源重复:重复设置硬件资源以提高计算机系统的性能。(例:单处理机发展到多处理机,价格的不断下降是推(例:单处理机发展到多处理机,价格的不断下降是推动该技术途径的主要因素)动该技术途径的主要因素)

资源共享:利用软件的方法,使多个用户分时使用同一套计资源共享:利用软件的方法,使多个用户分时使用同一套计算机系统。(例:主机分时系统)算机系统。(例:主机分时系统)

在一个计算机系统内,可以通过多种技术途径,采用多种并在一个计算机系统内,可以通过多种技术途径,采用多种并行性措施,既有执行程序的并行性,又有处理数据的并行性措施,既有执行程序的并行性,又有处理数据的并行性。 。行性。 。

并行性概念并行性概念 (cont.)(cont.)举例一、重叠方式:举例一、重叠方式:

将一件工作按功能分割成若干相互联系的部分,每一部分由指定的将一件工作按功能分割成若干相互联系的部分,每一部分由指定的专门部件完成,然后按时间重叠原则把各部分执行过程在时间专门部件完成,然后按时间重叠原则把各部分执行过程在时间上重叠起来,使所有部件依次分工完成一组同样工作。当处理上重叠起来,使所有部件依次分工完成一组同样工作。当处理机内部能同时解释执行两条指令,从而提高处理机速度。机内部能同时解释执行两条指令,从而提高处理机速度。

先行方式:先行方式:

如果把指令解释过程分解成多个子过程,分别由多个专用部件完成。如果把指令解释过程分解成多个子过程,分别由多个专用部件完成。

流水线方式:流水线方式:

如果把功能专用化深入到处理机的执行部件内部,将该部件再分成如果把功能专用化深入到处理机的执行部件内部,将该部件再分成多个专用功能段,进行流水处理。多个专用功能段,进行流水处理。

。 。

并行性概念并行性概念 (cont.)(cont.)举例二、先行控制原理举例二、先行控制原理

““ 一次重叠一次重叠””(指令分成(指令分成““取指分析取指分析””和和““执行执行””二段)要流畅二段)要流畅的前提是分割的二段执行的时间必须是等时的。但由于指令系的前提是分割的二段执行的时间必须是等时的。但由于指令系统的复杂性,难以做到只分二段和等时这两点。统的复杂性,难以做到只分二段和等时这两点。

在只有一套指令分析器和执行部件,在执行第在只有一套指令分析器和执行部件,在执行第 KK 条指令的同时,条指令的同时,指令控制部件能对其后续的第指令控制部件能对其后续的第 K+1K+1条、第条、第 K+2K+2条。。。指令条。。。指令进行进行““预取预取””和和““预处理预处理””,为执行部件执行新的指令做好必,为执行部件执行新的指令做好必要而充分的前期准备。要而充分的前期准备。

虽然在流程中会出现指令分析器和执行部件之间的等待时间间隔,虽然在流程中会出现指令分析器和执行部件之间的等待时间间隔,但它们各自流程中却是连续的。但它们各自流程中却是连续的。

上述的思想就是先行控制方式。上述的思想就是先行控制方式。

连续解释连续解释 nn 条指令所需时间为:条指令所需时间为:

TT 先行先行 =t=t分析分析 11+∑t+∑t执行执行 ii

并行性概念并行性概念 (cont.)(cont.)举例三、流水技术原理(现代工厂的装配线)举例三、流水技术原理(现代工厂的装配线)

流水线技术是将一个重复的时序过程分解成若干个子过程,而流水线技术是将一个重复的时序过程分解成若干个子过程,而每个子过程都可有效地在其专用每个子过程都可有效地在其专用““功能段功能段””上与其他子过程上与其他子过程同时执行。同时执行。

特点:特点:

11 。流水线可分成若干个相互有联系的子过程(功能段),它。流水线可分成若干个相互有联系的子过程(功能段),它由专用功能部件来实现。由专用功能部件来实现。

22 。实现子过程的功能段所需的时间尽可能相等,避免因不等。实现子过程的功能段所需的时间尽可能相等,避免因不等而产生处理的瓶颈,造成流水线的而产生处理的瓶颈,造成流水线的““断流断流””。。

33 。形成流水线要有。形成流水线要有““通过时间通过时间””,此后才能稳定。,此后才能稳定。

44 。流水线不应该经常。流水线不应该经常““断流断流””(如转移),否则效率不高。(如转移),否则效率不高。

55 。流水技术适用大量重复的程序过程,这样效率高。 。。流水技术适用大量重复的程序过程,这样效率高。 。

并行性概念复杂性并行性概念复杂性线性流水线处理机线性流水线处理机

定义:由定义:由 kk 个处理段个处理段 (function)(function)线性地逐级串联在一起,线性地逐级串联在一起,外部输入(数据流)馈入流水线的第一段外部输入(数据流)馈入流水线的第一段 S1S1 ,处理结果,处理结果从从 SiSi段送到段送到 Si+1Si+1段(段( i=1,2,i=1,2,……,k-1),k-1) ,最后结果从,最后结果从流水线的最后段流水线的最后段 SkSk送出。流水线执行完成一种固定的功送出。流水线执行完成一种固定的功能。(指令执行、算术计算、存储器访问等)能。(指令执行、算术计算、存储器访问等)

异步和同步模型异步和同步模型

异步模型:相邻段之间的数据流是由一个信号交换(握手交异步模型:相邻段之间的数据流是由一个信号交换(握手交互)协议来控制。发出就绪信号互)协议来控制。发出就绪信号 ----输入数据输入数据 ----回送应回送应答信号。图答信号。图 6-1a6-1a

用于消息传递型;吞吐率可变;不同段可以有不同的延迟量用于消息传递型;吞吐率可变;不同段可以有不同的延迟量

并行程序设计方法并行程序设计方法有二种并行程序设计方法:隐式并行性和显式并行性。有二种并行程序设计方法:隐式并行性和显式并行性。

隐式并行性:常用传统的语言编程成顺序源编码,经并行隐式并行性:常用传统的语言编程成顺序源编码,经并行编 译器编译成并行目标码执行。(语言容易,编译编 译器编译成并行目标码执行。(语言容易,编译器难)器难)

显式并行性:需要并行语言来编程,编译器仅保持并行性显式并行性:需要并行语言来编程,编译器仅保持并行性和把资源分配给目标机器。(语言难,编译器容易)和把资源分配给目标机器。(语言难,编译器容易)

时间复杂性和空间复杂性时间复杂性和空间复杂性计算机求解一个规模为计算机求解一个规模为 ss 的问题的算法复杂性取决于所需的问题的算法复杂性取决于所需

的执行时间和存储空间。的执行时间和存储空间。

所以:所以:

时间复杂性是问题规模的函数(时间复杂性函数是算法的时间复杂性是问题规模的函数(时间复杂性函数是算法的渐近时间复杂性)。通常考虑最坏情况下的时间复杂渐近时间复杂性)。通常考虑最坏情况下的时间复杂性。性。

空间复杂性也是问题规模的函数(空间复杂性函数是算法空间复杂性也是问题规模的函数(空间复杂性函数是算法的渐近空间复杂性)。通常考虑大问题的数据存储,的渐近空间复杂性)。通常考虑大问题的数据存储,而程序存储和输入数据的存储一般不考虑而程序存储和输入数据的存储一般不考虑

复杂性复杂性复杂性复杂性串行复杂性:串行算法的时间复杂性串行复杂性:串行算法的时间复杂性

并行复杂性:并行算法的时间复杂性并行复杂性:并行算法的时间复杂性

一般认为:并行复杂性比串行复杂性低,或相近一般认为:并行复杂性比串行复杂性低,或相近

确定性算法:每个操作步骤是唯一确定的;与实际计算机确定性算法:每个操作步骤是唯一确定的;与实际计算机上程序执行的过程是一致的。上程序执行的过程是一致的。

不确定性算法:目前没有这类的实际机器。不确定性算法:目前没有这类的实际机器。

多机系统结构的发展过程多机系统结构的发展过程11 .共享存储型发展过程.共享存储型发展过程

22 .消息传递型发展过程.消息传递型发展过程

33 .多向量机发展过程.多向量机发展过程

44 .. SIMDSIMD 机发展过程机发展过程

55 .多线程发展过程.多线程发展过程

66 .数据流发展过程.数据流发展过程

发展过程发展过程 (cont.)(cont.)从不同角度分析,有三种模型从不同角度分析,有三种模型 结构组织模型结构组织模型 理论模型理论模型 复杂性模型复杂性模型

先讨论结构组织模型先讨论结构组织模型

11 。共享存储型多处理机。共享存储型多处理机均匀存储器存取均匀存储器存取 -UMA-UMA模型(模型( UMAUMA --Uniform Memory AccessUniform Memory Access ))

非均匀存储器存取非均匀存储器存取 -NUMA-NUMA模型(模型( NUMANUMA --Nonuniform Memory AccessNonuniform Memory Access ))

只用高速缓存的存储器结构只用高速缓存的存储器结构 -COMA-COMA模型模型(( COMACOMA -- Cache Only Memory Cache Only Memory ArchitectureArchitecture ))

UMAUMA 模型模型均匀存储器存取均匀存储器存取 -UMA-UMA模型(模型( UMAUMA -- Uniform Memory Uniform Memory

AccessAccess ))UMAUMA模型( 模型( UMAUMA -- Uniform Memory AccessUniform Memory Access )适用)适用

于多用户的一般应用和分时应用。它可以在限时应用于多用户的一般应用和分时应用。它可以在限时应用中用来加快单个大程序的执行。所有处理器均匀(所中用来加快单个大程序的执行。所有处理器均匀(所谓均匀是指所有处理器对所有存储字具有相同的存取谓均匀是指所有处理器对所有存储字具有相同的存取时间)共享物理存储器。各处理机之间的通信是通过时间)共享物理存储器。各处理机之间的通信是通过共享存储器的共享变量来实现的。这一类多处理机由共享存储器的共享变量来实现的。这一类多处理机由于对资源的高度共享于对资源的高度共享 ,, 常称紧耦合系统常称紧耦合系统 (tightly (tightly coupled system)coupled system) 。系统互联常采用总线、交叉开。系统互联常采用总线、交叉开关、多级网络。关、多级网络。

UMAUMA 模型模型 (cont.)(cont.)• 对称多处理机系统对称多处理机系统 (symmetric multi-(symmetric multi-

processor)processor) 所有处理机都能同样访问所有外围设备;所有处理机所有处理机都能同样访问所有外围设备;所有处理机都能同样运行执行程序,如操作系统的内核、都能同样运行执行程序,如操作系统的内核、 I/OI/O服服务程序。务程序。

• 不对称处理机系统不对称处理机系统 (asymmtric multi-(asymmtric multi-processor)processor)

只有一台或一组处理机(只有一台或一组处理机( MPMP 主处理机)执行操作系统主处理机)执行操作系统并操纵并操纵 I/OI/O ,其余处理机(,其余处理机( APAP附属处理机)没有附属处理机)没有I/OI/O 能力。能力。

NUMANUMA 模型模型非均匀存储器存取非均匀存储器存取 -NUMA-NUMA模型(模型( NUMANUMA -- Nonuniform Nonuniform

Memory AccessMemory Access ))NUMANUMA模型的共享存储器物理上是分布在所有处理机的本地模型的共享存储器物理上是分布在所有处理机的本地

存储器上,这些存储器的集合组成全局地址空间。由存储器上,这些存储器的集合组成全局地址空间。由于访问本地存储器快,访问远程存储器慢(经过互联于访问本地存储器快,访问远程存储器慢(经过互联网络),所以访问时间取决于存储字所在位置。网络),所以访问时间取决于存储字所在位置。

下图表示了层次结构下图表示了层次结构 NUMANUMA模型。处理机被分成若干机群模型。处理机被分成若干机群(( clustercluster ),每个机群内可以是),每个机群内可以是 UMAUMA模型或模型或 NUMANUMA模型,但整个系统被认为模型,但整个系统被认为 NUMANUMA模型。模型。

COMACOMA模型模型只用高速缓存的存储器结构只用高速缓存的存储器结构 -COMA-COMA模型(模型( COMACOMA -- Cache Cache

Only Memory ArchitectureOnly Memory Architecture ))COMACOMA模型是模型是 NUMANUMA模型的一种特例。由全部高速缓存组成模型的一种特例。由全部高速缓存组成全局地址空间,访问远程缓存是通过分布在各处理机全局地址空间,访问远程缓存是通过分布在各处理机上的高速缓存目录来进行的。上的高速缓存目录来进行的。

分布存储型分布存储型(1)(1) 系统由多个结点(由处理机、本地存储器、系统由多个结点(由处理机、本地存储器、 I/OI/O 设备设备组成的自治的计算机)通过消息传递网络互相连接。组成的自治的计算机)通过消息传递网络互相连接。

22 。消息传递型。消息传递型• 第一代(第一代( 1983-19871983-1987 )基于处理机板技术,)基于处理机板技术,

采用超立方体结构和软件控制的消息交换方法采用超立方体结构和软件控制的消息交换方法。(。( Intel Ipsc/1Intel Ipsc/1 ))

• 第二代(第二代( 1988-19921988-1992 )用网络连结的系统结)用网络连结的系统结构、硬件消息寻径、中粒度分布计算的软件环构、硬件消息寻径、中粒度分布计算的软件环境。(境。( Intel ParagonIntel Paragon ))

• 第三代(第三代( 1993- 1993- )处理机与通信工具在)处理机与通信工具在同一芯片上实现的细粒度多计算环境。(同一芯片上实现的细粒度多计算环境。( MIT MIT J-MachineJ-Machine ))

消息传递型消息传递型 (cont.)(cont.)消息寻径方式消息寻径方式

• 网络的流控制策略网络的流控制策略

• 死锁避免死锁避免

• 虚拟通道虚拟通道

• 消息传递原语消息传递原语

• 程序分解技术程序分解技术

33 。多向量机。多向量机向量超级计算机向量超级计算机

向量计算机往往是在标量处理机与向量处理机的向量计算机往往是在标量处理机与向量处理机的““混合物混合物”” ,, 程序与数据由主机加载到主存储器;程序与数据由主机加载到主存储器;

全部指令由标量控制器译码,若是标量操作或程序控制操全部指令由标量控制器译码,若是标量操作或程序控制操作则有标量处理机的标量功能流水线执行;作则有标量处理机的标量功能流水线执行;

若是向量操作则送入向量控制器,由主存储器与向量功能若是向量操作则送入向量控制器,由主存储器与向量功能流水线执行向量数据流。流水线执行向量数据流。

44 。。 SIMDSIMD超级计算机超级计算机SIMDSIMD 计算机的操作模型可以用五元组表示:计算机的操作模型可以用五元组表示:M=M= (( NN ,, CC ,, II ,, MM ,, RR ))式中:式中:NN :机器的处理单元(:机器的处理单元( PE-Processor PE-Processor ElementElement )数)数

CC :由控制部件(:由控制部件( CU-Control UnitCU-Control Unit )直接执)直接执行的指令集,包括标量与程序流控制指令;行的指令集,包括标量与程序流控制指令;

II :由:由 CUCU 广播到所有广播到所有 PEPE 进行并行执行的指令集进行并行执行的指令集,包括算逻运算、数据寻径、屏蔽操作、,包括算逻运算、数据寻径、屏蔽操作、 PEPE 执执行的局部操作;行的局部操作;

MM :屏蔽方案集,把:屏蔽方案集,把 PEPE划分为允许操作与禁止操划分为允许操作与禁止操作两种子集;作两种子集;

RR :数据寻径功能集,互连网络中:数据寻径功能集,互连网络中 PEPE 间通信所需的间通信所需的各种设置模式。各种设置模式。

PRAMPRAM 和和 VLSIVLSI 模型模型并行计算机的理论模型是从物理模型抽象得到的并行计算机的理论模型是从物理模型抽象得到的 ..

算法和芯片设计者利用理论模型为开发并行算法提供了一算法和芯片设计者利用理论模型为开发并行算法提供了一种方便的框架种方便的框架 (( 无需关心实现细节或物理约束条件无需关心实现细节或物理约束条件 ..

这些模型可为并行计算机求的理论性能界限或芯片制作前这些模型可为并行计算机求的理论性能界限或芯片制作前估算芯片区的估算芯片区的 VLSIVLSI复杂性和执行时间复杂性和执行时间 ..

当将实际机器与联想机器当将实际机器与联想机器 (( 不考虑结点间通信开销不考虑结点间通信开销 )) 作比作比较时较时 ,, 抽象模型在分析可扩展性和可编程性方面是十抽象模型在分析可扩展性和可编程性方面是十分有用的分有用的 ..