32
1 计计计计 计计 计计计 计计计计 计计计计

计算机系统安全 第三讲 计算机系统的可靠性

  • Upload
    ouida

  • View
    197

  • Download
    0

Embed Size (px)

DESCRIPTION

计算机系统安全 第三讲 计算机系统的可靠性. 第三讲 计算机系统的可靠性. 一、可靠性、可用性和可维修性. 可靠性( Reliability): 指从它开始运行( t=0) 到某时刻 t 这段时间内能够正常运行的概率。在给定的时间间隔和给定条件下,系统能正确执行其功能的概率称为可靠度。 平均无故障时间 MTBF(Meantime Between Failures) 是指两次故障之间能正常工作的平均值。故障即可能是元器件故障、软件故障、也可能是人为攻击造成的系统故障。 - PowerPoint PPT Presentation

Citation preview

Page 1: 计算机系统安全 第三讲 计算机系统的可靠性

1

计算机系统安全

第三讲

计算机系统的可靠性

Page 2: 计算机系统安全 第三讲 计算机系统的可靠性

2

一、可靠性、可用性和可维修性 可靠性( Reliability ):指从它开始运行( t=0 )到某时刻 t 这段时间内能够正常运行的概率。在给定的时间间隔和给定条件下,系统能正确执行其功能的概率称为可靠度。

平均无故障时间 MTBF(Meantime Between Failures) 是指两次故障之间能正常工作的平均值。故障即可能是元器件故障、软件故障、也可能是人为攻击造成的系统故障。

可维修性:指计算机的维修效率,通常用平均修复时间( MTRF )来表示。 MTRF 是指从故障发生到系统恢复平均所需要的时间。

第三讲 计算机系统的可靠性

Page 3: 计算机系统安全 第三讲 计算机系统的可靠性

3

一、可靠性、可用性和可维修性 可维修性有时用可维修度来度量。在给定时间内,将一失效系统恢复到运行状态的概率称为可维修度。

可用性( Availability ):系统在执行任务的任意时刻能正常工作的概率。系统可用性用可用度来度量。系统在 t 时刻处于正确状态的概率称为可用度,用 A(t)来表示。

A = MTBF / (MTBF + MTRF) ,即:

A = 平均无故障时间 / ( 平均无故障时间 + 平均修复时间 )

第三讲 计算机系统的可靠性与容错性

Page 4: 计算机系统安全 第三讲 计算机系统的可靠性

4

一、可靠性、可用性和可维修性 提高可靠性的方法:

完美性( perfection ):提高软硬件的质量,抵御故障的发生。追求一种避错技术。要求各个部件具有高可靠性,

容错性( Fault Tolerance ):在故障发生时,系统仍能继续运行,提供服务与资源。这就是所说的“容错能力”。

第三讲 计算机系统的可靠性与容错性

Page 5: 计算机系统安全 第三讲 计算机系统的可靠性

5

系统可靠性的获得

可靠性

┌──────┴──────┐

容错性 完美性

│ ┌───┴───┐

冗余技术─┬硬件冗余 完美硬件 完美软件

(redundancy)├ 软件冗余 ├整机完美性 │

| | ├ 部件完美性 可信软件

| └ 信息冗余 └器件完美性

第三讲 计算机系统的可靠性与容错性

Page 6: 计算机系统安全 第三讲 计算机系统的可靠性

6

系统可靠性的获得

|

静态冗余(部件冗余)

动态重组

|-- 被动重组(后备 stand-by )

|-- 主动重组(优美降级 graceful degradation )

Page 7: 计算机系统安全 第三讲 计算机系统的可靠性

7

二、完美性 1 、硬件的可靠性与完美性

提高可靠性,可以通过元器件的精选、严格的工艺、精心的设计来实现。系统应尽量不出故障,一旦出故障,系统则失效。这种设计是以系统“不出故障”为前提的,故称为“避错设计”。

2 、软件的可靠性与完美性

一般采用统计方式来衡量。在规定的时间周期内在给定条件下执行所要求的功能的程序的能力。

第三讲 计算机系统的可靠性与容错性

Page 8: 计算机系统安全 第三讲 计算机系统的可靠性

8

三、容错性 1、容错系统的概念

容错技术:在一定程度上容忍故障的技术。也称为故障掩盖技术 (fault masking) 。

容错系统:采用容错技术的系统。

容错主要依靠冗余设计来实现,以增加资源换取可靠性。由于资源的不同,冗余技术分为硬件冗余、软件冗余、时间冗余和信息冗余。可以是元器件级、部件级的、系统级的冗余设计。

在可靠性与资源消耗之间折衷、权衡。

第三讲 计算机系统的可靠性与容错性

Page 9: 计算机系统安全 第三讲 计算机系统的可靠性

9

三、容错性 1 硬件冗余:

增加线路、设备、部件,形成备份

堆积冗余:在逻辑域可采用多数表决方案。自动恢复。

待命储备冗余:该系统中多个模块,其中只有一块处于工作状态,其余块都处于待命接替状态。当有一个模块发生故障时,立刻将其切除,并代之以无故障待命模块。

混合冗余:堆积冗余和待命储备冗余的结合。

第三讲 计算机系统的可靠性与容错性

Page 10: 计算机系统安全 第三讲 计算机系统的可靠性

10

三、容错性 数据备份

  数据容错的策略就是数据备份,指的是将计算机系统中硬磁盘上的一部分数据转到可脱机保存的介质 ( 如磁带、软磁盘和光盘 ) 上 。

备份的策略有三种:

完全备份

增量备份

差分备份。

第三讲 计算机系统的可靠性与容错性

Page 11: 计算机系统安全 第三讲 计算机系统的可靠性

11

三、容错性 双 CPU容错系统

当一个 CPU板出现故障时,另一个 CPU 保持继续运行。这个过程对用户是透明的,系统没有受到丝毫影响,更不会引起交易的丢失,充分保证数据的一致性和完整性。系统的容错结构能够提供系统连续运行的能力,任何单点故障不会引起系统停机,系统提供在线的维护诊断工具可在应用继续运转的情况下修复单点故障。

第三讲 计算机系统的可靠性与容错性

Page 12: 计算机系统安全 第三讲 计算机系统的可靠性

12

三、容错性 双机热备份

传统的高可靠性系统采用双机热备份方案。两台服务器都处于热机状态,如果一台服务器坏了,另一台服务器可以将所有的业务接管过来。

两种工作方式:

Online 方式:两台服务器都在工作,分别担负不同的任务,均衡负载。成本大,管理难 。

Standby 方式:备份机不工作,只是监测作业机的工作状况。缺点:服务器之间切换时间较长。

第三讲 计算机系统的可靠性与容错性

Page 13: 计算机系统安全 第三讲 计算机系统的可靠性

13

三、容错性 第三讲 计算机系统的可靠性与容错性

三机表决系统

三台主机同时运行,由表决器 (Voter)根据三台机器的运行结果进行表决,有两个以上的机器运行结果相同,则认定该结果为正确。通常可靠性比双机系统要高。缺点:成本高。当一台机器出现故障后表决已失去意义,其可靠性甚至比不上一个双机系统。因此当三机中坏掉一台后就当作双机备份系统来用,不再进行表决。

Page 14: 计算机系统安全 第三讲 计算机系统的可靠性

14

三、容错性 第三讲 计算机系统的可靠性与容错性

集群系统 (Clusting)

指均衡负载的双机或多机系统。

DEC公司最早在其 VAX 系统上实现了集群技术,多服务器集群系统的主要目的是使用户的应用获得更高的速度、更好的平衡和通信能力,而不仅仅是数据可靠性很好的备份系统。集群系统对于金融、证券等大型关键业务系统是最好选择。

Page 15: 计算机系统安全 第三讲 计算机系统的可靠性

15

三、容错性 第三讲 计算机系统的可靠性与容错性

2.软件冗余

目的:提供足够的冗余信息和程序,使得能及时发现编程错误,采取补救措施,提高可靠性。

增加程序,一个程序分别用几种途径编写,按一定方式执行,分段或多种表决。

程序由不同的人独立设计,使用不同的方法,不同的设计语言,不同的开发环境和工具来实现。

Page 16: 计算机系统安全 第三讲 计算机系统的可靠性

16

三、容错性 第三讲 计算机系统的可靠性与容错性

3.信息冗余:为检测或纠正信息在运算或传输中的错误而外加的一部分信息。在通信和计算机系统中 ,信息常以编码的形式出现。采用奇偶码、循环码等冗余码就可检错和纠错。

4 .时间冗余:例如检查点 (Check-Point) 就属于时间冗余的一种,机器运行的某一时刻称作检查点,此时检查系统运行的状态被存储起来。一旦发现运行故障,就返回到最近一次正确的检查点重新运行。

Page 17: 计算机系统安全 第三讲 计算机系统的可靠性

17

三、容错性 第三讲 计算机系统的可靠性与容错性

容错系统工作方式

1.自动侦测:运行中自动地通过专用的冗余侦测线路和软件判断系统运行情况,检测冗余系统各冗余单元是否存在故障。

2. 自动切换:当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行外,还接管预先设定的后备作业程序,进行后续程序及服务。

3. 自动恢复:故障主机被替换后,进行故障隔离,离线故障修复。修复后通过冗余通信线与正常主机连线,继而将原来的工作程序和磁盘上的数据自动切换回修复完成的主机上。

Page 18: 计算机系统安全 第三讲 计算机系统的可靠性

18

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

RAID : Redundant Array of Independent ( 或Inexpensive ) Disks ,“独立(廉价)冗余磁盘阵列”。是由加州大学伯克利分校 Patterson 在 1988年提出。 RAID—— 将一组磁盘驱动器逻辑上联系起来,作为一个磁盘驱动器来使用。

作为一种数据保存手段, RAID 提供了专用服务器中接入多个磁盘(专指硬盘)时,以磁盘阵列方式组成一个超大容量、响应速度快、可靠性高的存储子系统。以冗余技术增加其可靠性,以多个低成本磁盘构成磁盘子系统,提供比单一硬盘更完备的可靠性和高性能, RAID 被广泛地应用在服务器体系中。

Page 19: 计算机系统安全 第三讲 计算机系统的可靠性

19

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

RAID 的优点

   1.成本低,功耗小,传输速率高。在RAID 中,可以让很多磁盘驱动器同时传输数据,远远超过单个磁盘驱动器。

   2.提供容错功能,因而具有更高的安全性。

   3. RAID 与传统的大直径磁盘驱动器相比,价格要低?

Page 20: 计算机系统安全 第三讲 计算机系统的可靠性

20

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

IDE

EIDE

SCSI

DAC

7/15 个盘

Integrated Device Electronics集成设备电路仅支持 2 个盘

增强型 IDE 接口可支持 4 个盘

小型计算机系统接口可支持多个盘

DAC 磁盘阵列控制器可支持多分组多个磁盘

例如 :RAID 系统。部件级容错

Page 21: 计算机系统安全 第三讲 计算机系统的可靠性

21

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

RAID0 :无冗余无校验的磁盘阵列

简单将数据分配到各个磁盘上,不提供真正容错性。至少需要 2 个硬盘,可支持 8/16/32 个磁盘。整个逻辑盘的数据是被分条( stripped )分布在多个物理磁盘上,可以并行读 /写,速度最快,但无容错能力。

优点:更好地利用磁盘空间,延长磁盘寿命,多个硬盘并行工作,提高了读写性能。

缺点:不提供数据保护,任一磁盘失效,数据可能丢失,且不能自动恢复。

Page 22: 计算机系统安全 第三讲 计算机系统的可靠性

22

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

输入数据流输入数据

磁盘阵列控制器并行传输

HDD1 HDD2 HDD3 HDD4 HDD5

RAID0 示意图

Page 23: 计算机系统安全 第三讲 计算机系统的可靠性

23

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

镜象磁盘阵列 (RAID1)

每一组盘至少两台,数据同时以同样的方式写到两个盘上,两个盘互为镜象。磁盘镜象可以是分区镜象、全盘镜象。容错方式以空间换取,实施可以采用镜象或者双工技术。主要用在对数据安全性要求很高,而且要求能够快速恢复被损坏的数据的场合。

优点:具有最高可靠性,策略简单,恢复数据时不必停机。

缺点:有效容量只有总容量的 1/2,利用率 50%。由于磁盘冗余,成本较高。

Page 24: 计算机系统安全 第三讲 计算机系统的可靠性

24

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

输入数据流输入数据

磁盘阵列控制器并行传输

HDD1 HDD2

第一组镜象HDD3 HDD4

RAID1 示意图

第二组镜象

工作盘 镜像盘 工作盘 镜像盘

Page 25: 计算机系统安全 第三讲 计算机系统的可靠性

25

四、磁盘阵列循环奇偶校验阵列 (RAID5)

RAID5 是无独立校验盘的奇偶校验磁盘阵列。校验数据不固定在一个磁盘上,而是循环地依次分布在不同的磁盘上。校验 信 息 分 布 在 各 个 磁 盘 驱 动 器上。 RAID5对各种大小数据量的读写都有很好的性能,是目前采用最多、最流行的方式,至少需要 3个硬盘。

Page 26: 计算机系统安全 第三讲 计算机系统的可靠性

26

四、磁盘阵列

循环奇偶校验阵列 (RAID5)

优点: 校验分布在多个磁盘中,写操作可以同时处理。为读操作提供了最优的性能。一个磁盘失效,分布在其他盘上的信息足够完成数据重建。缺点:数据重建会降低读性能;每次计算校验信息,写操作开销会增大,是一般存储操作时间的 3 倍。

Page 27: 计算机系统安全 第三讲 计算机系统的可靠性

27

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

输入数据流输入数据

磁盘阵列控制器

HDD1 HDD2 HDD3 HDD4 HDD5

RAID5 示意图

奇偶校验

parity

parity

parity

Page 28: 计算机系统安全 第三讲 计算机系统的可靠性

28

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

其它形式的磁盘阵列(按照校验方式不同划分)

RAID2 :并行海明纠错阵列

RAID3 :奇偶校验并行位交错阵列

RAID4 :奇偶校验扇区交错阵列

RAID6 :二维奇偶校验阵列

RAID7 :优化的高速数据传送磁盘结构

Page 29: 计算机系统安全 第三讲 计算机系统的可靠性

29

四、磁盘阵列第三讲 计算机系统的可靠性与容错性

输入数据流输入数据

磁盘阵列控制器

HDD1 HDD2 HDD3 HDD4 HDD5

RAID2 示意图

HDD6 HDD7

HCC

HCC

HCC

海明校验

HCC

HCC

HCC

HCC

HCC

HCC

Page 30: 计算机系统安全 第三讲 计算机系统的可靠性

30

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

输入数据流输入数据

磁盘阵列控制器

HDD1 HDD2 HDD3 HDD4 HDD5

RAID3 示意图

parity

parity

奇偶校验

Page 31: 计算机系统安全 第三讲 计算机系统的可靠性

31

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性

输入数据流输入数据

磁盘阵列控制器

HDD1 HDD2 HDD3 HDD4 HDD5

RAID4 示意图

parity

parity

奇偶校验

parity

Secter交叉

Page 32: 计算机系统安全 第三讲 计算机系统的可靠性

32

四、磁盘阵列 第三讲 计算机系统的可靠性与容错性