19
© 2008 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice 灾灾灾灾灾灾灾灾灾灾 灾灾灾 灾灾灾灾灾灾灾灾灾灾 2009/10/29

灾难恢复: 从理论到实践

  • Upload
    tyne

  • View
    130

  • Download
    0

Embed Size (px)

DESCRIPTION

灾难恢复: 从理论到实践. 牛林海 业务连续管理服务经理 2009/10/29. 业务连续管理. 业务策略 Business Strategy. 业务流程 Business Process. 业务连续管理. 生命 周期. 信息 Information. 应用服务 Application Services. 业务连续规划. 应用基础架构 Application Infrastructure. 业务与办公环境连续管理. 核心基础架构 Core Infrastructure. IT 连续管理. 基础架构 Infrastructure. 管理和控制 - PowerPoint PPT Presentation

Citation preview

Page 1: 灾难恢复: 从理论到实践

© 2008 Hewlett-Packard Development Company, L.P.The information contained herein is subject to change without notice

灾难恢复:从理论到实践

牛林海业务连续管理服务经理2009/10/29

Page 2: 灾难恢复: 从理论到实践

业务连续管理

2 2023年4月21日

业务策略

Business Strategy

业务流程

Business Process

信息

Information

应用服务

Application Services

应用基础架构

Application Infrastructure

核心基础架构

Core Infrastructure

管理和控制Management & Control

基础架构

Infrastructure

生命

周期

业务与办公环境连续管理

IT 连续管理

业务连续管理业务连续管理

业务连续规划

Page 3: 灾难恢复: 从理论到实践

3 2023年4月21日

灾难恢复建设过程

业务架构

业务关键性分析

IT现状分析

容灾技术分析 IT应用恢复策略

恢复数据点RPO

恢复时间RTO

培训

演练

灾备组织结构

响应和决策流程

技术恢复步骤

测试演练计划

方案设计

方案选择

方案实施

风险因素

灾难风险评估灾难风险评估 (RA)(RA)业务影响分析业务影响分析 (BIA)(BIA) 恢复技术方案设计恢复技术方案设计 DRPDRP开发开发 运行维护运行维护

Page 4: 灾难恢复: 从理论到实践

4 2023年4月21日

组织的业务所面临的风险 -RA

硬件故障

高低 频率

影响

电源 / 网络故障

病毒攻击

安全破坏-电脑黑客

自然灾害-火灾,水灾,恶劣天气

人为灾害-恐怖行动,恶意破坏

计划内停工

内部安全 / 欺诈

服务中断攻击

软件故障

应用程序故障

Page 5: 灾难恢复: 从理论到实践

5 2023年4月21日

风险分析( RA )

0

0. 5

1

1. 5

2

2. 5

3

3. 5

4

4. 5

5

可能性威胁程度影响程度

可能性 5 4 4 4 2 3 3

威胁程度 3 3 2 2 3 2 2

影响程度 3 3 4 4 5 5 5

电源故障,短时间停电

空调故障停机

广域网中断

核心网络设备故障

长时间停电

5地震(级或更高)

外部火灾

某机房主要风险指标评级某机房主要风险指标评级

脆弱识别

资产识别

威胁识别

资产价值分析

脆弱性的程度

威胁的频率

影响程度

可能性

威胁程度

脆弱识别

资产识别

威胁识别

资产价值分析

脆弱性的程度

威胁的频率

影响程度

可能性

威胁程度

风险权重

数据中心风险分析的计算方法 数据中心风险分析的计算方法

Page 6: 灾难恢复: 从理论到实践

6 2023年4月21日

• 同城 regional− 与主站点处于同一地理区域。主站点和备用站点一般距

离在数十公里以内,可实现同步数据复制,但面临同一区域性灾难风险

• 异地 non-regional− 与主站点处于不同地理区域。主站点和备用站点一般距

离在数百公里以上,不会同时遭受与生产中心同一区域性灾难风险

• 区域性灾难 regional disaster− 造成所在地区或有紧密联系的邻近地区的交通、电讯、

能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。

− 例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等

• 机房 / 园区级灾难− 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长

时间停电等,例如 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障

• 数据中心风险− 因人为错误、技术故障等局限于数据中心内部的风险造

成信息系统中断服务,通过加强本地的技术和管理提高高可用,降低风险

高可用设计冗余设计完善管理制度

异地灾备

同城灾备

--系统单点故障、机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障、人为恶意破坏、软件逻辑错误、信息安全故障等

--造成所在地区或有紧密联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。

-- 例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等

-- 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等-- 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障

区域性灾难

机房 / 园区级灾难

机房内事件

灾难风险管理策略

术语来源:

《 GB/T 20988-2007 信息 安全技术信息系统灾难恢复规范》

灾难风险管理策略

Page 7: 灾难恢复: 从理论到实践

风险对业务的影响 -BIA:量化分析影响

生产效率 / 雇员生产效率:

雇员人数 x 受影响员工数 x 停工时间 x 需要补回的时间 = ?

上百

万美

连续增长

指数级增长

分钟 天耗时

影响

(美

元)

几十

亿美

直接财务损失 /客户损失

收入:

直接损失、补偿金、损失的未来收入、款项损失和投资损失

声誉损失:

客户、竞争对手获得优势、供应商、金融市场、业务合作伙伴

声誉损失

财务业绩:

收入确认、现金流、信用等级、股票价格、违规罚款

财务业绩

宕机造成的间接影响更加严重,无法预测

7 2023年4月21日

Page 8: 灾难恢复: 从理论到实践

8 2023年4月21日

业务影响分析( BIA )

识别系统功能,业务流程同 IT 的关系,用户数量、分布、关键时段 了解业务应急处理方案是否明确,可支持业务多久,以及方案的局限性

综合分析评定

RTO 、 RPO、恢复资源需求

多方调研分析技术部门、业务部门、管理部门的恢复需求

参考系统之间依赖关系

参考信息整合和发展需求

识别业务、技术、管理、用户的灾难恢复需求

访谈IT

人员(

目经理、IT

主管

访谈业务人员、关键用户、

业务管理部门

识别系统架构,系统特点 了解同其他系统依赖关系 了解系统中断时的 IT 应急手段等等

识别数据丢失对业务的影响确定 RPO

识别系统中断对业务的影响以确定 RTO

xxxxxxxx原因说明※30天以内※15天以内

※5天以内※2天以内

※24小时以内※8小时以内

非常严重影响

严重影响

明显影响

轻微影响

无 / 可忽略

中断时间

xxxxxxxx原因说明※30天以内※15天以内

※5天以内※2天以内

※24小时以内※8小时以内

非常严重影响

严重影响

明显影响

轻微影响

无 / 可忽略

中断时间

xxxxxxxx原因说明※30天以内※15天以内

※5天以内※2天以内

※24小时以内※8小时以内

非常严重影响

严重影响

明显影响

轻微影响

无 / 可忽略

中断时间

xxxxxxxx原因说明※30天以内※15天以内

※5天以内※2天以内

※24小时以内※8小时以内

非常严重影响

严重影响

明显影响

轻微影响

无 / 可忽略

中断时间

定量经济损失 定性业务影响 监管法律法规

xxxxxxxx原因说明※30天以内※15天以内

※5天以内※2天以内

※24小时以内※8小时以内

非常严重影响

严重影响

明显影响

轻微影响

无 / 可忽略

中断时间

xxxxxxxx原因说明※30天以内※15天以内

※5天以内※2天以内

※24小时以内※8小时以内

非常严重影响

严重影响

明显影响

轻微影响

无 / 可忽略

中断时间

BIA是在风险分析的基础上,分析业务功能依赖的重要信息系统资源、评估特定灾难场景下各种信息系统中断产生的经济损失和非财务因素影响

BIA是在风险分析的基础上,分析业务功能依赖的重要信息系统资源、评估特定灾难场景下各种信息系统中断产生的经济损失和非财务因素影响

Page 9: 灾难恢复: 从理论到实践

9 2023年4月21日

业务等级区分原则业务等级区分原则业务等级区分原则

从该业务中断对客户和企业这两个方面造成的负面影响程度将业务分类为关键业务和非关键业务

从该业务中断对客户和企业这两个方面造成的负面影响程度将业务分类为关键业务和非关键业务 对企业的

间接影响对企业的间接影响

对公司造成的非财务影响,包括对企业信誉、市场竞争力、业务开展、连带的客户诉讼等方面的影响。

对企业的直接影响对企业的直接影响

对公司造成的财务影响,包括对收入造成的损失,为解决问题增加的成本等方面的影响。

对客户的影响对客户的影响

对客户感知造成的影响,包括客户服务质量、客户满意度、客户忠诚度的下降。

业务影响级别 定性描述

1 级 严重影响

2 级 较严重影响

3 级 一般影响

4 级 较小影响

5 级 可以忽略

关键业务关键业务

−是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知造成严重或较严重影响的业务及其所依赖的业务。如缴费开机业务。

非关键业务非关键业务

– 是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知产生一般或较小影响或基本没有影响的业务。如综合结算、合作伙伴管理等业务。

Page 10: 灾难恢复: 从理论到实践

10 2023年4月21日

业务影响分析( Business Impact Analysis )

重要性

核心业务

营业系统

联机指令系统

业务中断

投诉

计费采集系统

用户透支

帐务系统

不能即时回收资金

结算系统 统

计系统

管理水平下降

系统管理

样 例

Page 11: 灾难恢复: 从理论到实践

11 2023年4月21日

RTO/RPO的定义

灾难发生点

事件发现和通知

紧急状态运作和决策

恢复操作

系统灾备中心

恢复运行

RTO

RPO

备份点

备份

周期最近的一次备份点

临时运行状态

系统回切

时间线

回切完成

回切

动作

不可用或性能降低

不可用或

性能降低通常不轻易启动灾难恢复计划。宣布

灾难发生就意味着不再是正常的业务

模式。启动灾难恢复计划意味着承担

额外的费用,不便的操作,降级的服

务。决策时间有时就会长达 2-4小时

Page 12: 灾难恢复: 从理论到实践

12 2023年4月21日

等级标准依据《 GB/T 20988-2007信息  安全技术 信息系统灾难恢复规范》信息安全标准化技术委员会组织制定、国家标准化管理委员会审查批准发布,2007

灾难恢复策略分析

分析内容:

RA&BIA

灾备中心拓扑结构

系统部署结构及分工

各包的灾难恢复等级

组织团队运维模式

资源需求和建设模式

灾难切换策略

总体策略实现路径

需求分析 策略分析

等级划分

灾难恢复需求:

业务和管理需求

灾备风险管控范围

灾难的恢复场景

业务恢复优先级

业务替代方式

RTO&RPO

RA&BIA

灾难恢复策略 / 计划的制定

数据备份系统数据备份系统

备用数据处理系统备用数据处理系统

备用网络系统备用网络系统

备用基础设施布局备用基础设施布局

技术支持技术支持

运行维护支持运行维护支持

灾难恢复预案灾难恢复预案

数据备份系统数据备份系统

备用数据处理系统备用数据处理系统

备用网络系统备用网络系统

备用基础设施布局备用基础设施布局

技术支持技术支持

运行维护支持运行维护支持

灾难恢复预案灾难恢复预案

灾备策略要素

Page 13: 灾难恢复: 从理论到实践

13 2023年4月21日

灾备中心规划策略• 活站点 (Active site)

−是支持系统需求的规模适当的办公场所,具有完整和实时信息的完全的冗余恢复站点,其与主站点在所有的技术层面上基本是一致的,系统平时处于 7X24活动状态。由于在主站点和恢复站点同时处理和存储数据所以这些站点提供了最高的可用性。

• 热站点 (Hot site)−是支持系统需求的规模适当的办公场所,配置了所需的系统硬件、软件、提供支持的基础设施和支持人员。热站点通常 24小时有人值守。接到应急计划启动的通知时热站点人员就可以立即开始准备系统的切换和接管。

• 温站点 (Warm site)−装备有部分设备,包含一些或全部系统硬件、软件、电信和电源。温站点被维持

于随时准备接收被重新部署系统的运行状态。这种站点在接收系统和恢复人员之前需要进行准备。在很多情况下,温站点做为另一个系统或功能的正常运行设施,在应急计划启动时,遭受中断的系统临时占用了正常运行系统的设施。

• 冷站点 (Cold site)− 通常具有充足的机房基础设施(电源、电信连接和环境控制)和支持 IT 系统基础

设施。空间可能配有活动地板和其它适合 IT运行的属性。站点不包含 IT 设备并且通常也不包含办公自动化设备如电话、传真机或复印机。使用冷站点是为了用于提供安装所需的设备和电信能力。

Page 14: 灾难恢复: 从理论到实践

14 2023年4月21日122007 年 3 月 20日星期二

• 60%的计划无法使业务恢复到正常运行的状态• 50% 的计划无法解决通讯中断和网络中断的问题• 67% 的公司未支付任何款项用于灾难恢复测试• 34% 的公司不具备数据备份系统• 35% 的公司没有制定应对媒体的相关策略• 34% 的公司无法确定数据恢复的优先顺序• 75% 的恢复配置无法与生产配置保持同步• 65%的参与调查者表示,实际的计划制订活动缺少高层管理人员的参与

• 75% 的公司未制定重要员工的培训策略• 90% 的公司没有针对全体雇员的 “业务连续性计划”

“我们有一项计划…… ” 计划与现实之间的差距 ( META GROUP - 美国)

没有行动的计划是做梦没有计划的行动是噩梦!

Page 15: 灾难恢复: 从理论到实践

15 2023年4月21日

演练计划和测试• 为测试演练而模拟的故障或灾难的设计• 在系统整体测试演练之前,选择一个小系统(如某个业务量比较小的系统)作为独立的测试模块,检验恢复流程的正确性

•开发系统整体演练的测试计划•召开演练前的沟通会议• 建立测试小组,观察测试过程及提出建议•演练后的总结,汇报演示及修正提高工作

Page 16: 灾难恢复: 从理论到实践

16 2023年4月21日

灾难恢复流程演示

灾难发生 应急响应与决策 宣布启动灾

难恢复计划

业务检查 交付使用

数据备份

状况监测

切换操作

启动灾难恢复操作切换有代价

通常不轻易启动灾难恢复计划。宣布

灾难发生就意味着不再是正常的业务

模式。启动灾难恢复计划意味着承担

额外的费用,不便的操作,降级的服

务, 以及切换和回切后的数据准备 .

Page 17: 灾难恢复: 从理论到实践

17 2023年4月21日452007 年 3 月 20日星期二

惠普业务连续管理服务资历• 惠普全球服务

− 一流的硬件容错和数据复制技术− 在全球拥有 5000名能够随时提供支持的专家− 在 38个国家设有 54个恢复中心− 提供全天候高可用性支持服务和设施监控− 成功进行了 500多次调配和 2000次测试演练

• 基于广泛的客户体验和行业最佳实践制订的高效方法• 停机时间不到行业平均停机时间的 1/8 ,平均每年节约 260 万美元• 最庞大的认证顾问队伍 - CSSIP 、 DRII 、 BCI • 灵活的协作合同

东京首尔

中国香港

新加坡

墨尔本市

蒙特利尔

布宜诺斯艾里斯

圣 保罗州

卡拉卡斯墨西哥 市

Mt. View

达拉斯 亚特兰大

约翰内斯堡

迪拜特拉维夫

伊斯坦布尔

斯德哥尔摩市Winnersh

马德里

维也纳

雅典

莫斯科布拉格华沙

布达佩斯

布里斯托尔

米兰

多赛尔多夫

东京首尔

中国香港

新加坡

墨尔本市

蒙特利尔

布宜诺斯艾里斯

圣 保罗州

卡拉卡斯墨西哥 市

Mt. View

达拉斯 亚特兰大

约翰内斯堡

迪拜特拉维夫

伊斯坦布尔

斯德哥尔摩市Winnersh

马德里

维也纳

雅典

莫斯科布拉格华沙

布达佩斯

布里斯托尔

米兰

多赛尔多夫

马来西亚

印度尼西亚

中国台湾

悉尼

奥克兰

中国

印度

Page 18: 灾难恢复: 从理论到实践

532007 年 3 月 20日星期二

总结

没有计划的唯一一点好处就是—— 灾难会突然降临,但在此之前,您不必为此费心劳神 !

Page 19: 灾难恢复: 从理论到实践

Technology for better business outcomes