-
业务连续性计划
事先制定一个完备的业务连续性计划(
Business
Continuity
Planning,
缩写为
BCP
),积极防范并且应变处理灾难发生的一系列
后果,
将灾难的蔓延和损失控制在企业能够承担的范围以内,
已成为
现代企业管理范畴内的一个十分重要的任务。
【第一部分】
BCP
的基本要素
笼统地
说,
BCP
的目标只有一个,那就是确定并减少危险可能带
p>
来的损失,
有效地保障业务的连续性。
而有
关
BCP
的一些特定目标我
们将在以下
各个部分中加以描述。
BCP
实施的最终结果是:
●
一组防范危险的
< br>评测
指标;
●
一支执行团队,在经过培训后可以处理各种危险事件;
●
p>
一套计划,提供危险发生时的路线图。该计划应该是充分和
完备的,
必须详细落实到该计划实施范围内的每一个单位、
人员或设
p>
备。
我们下面所要讨论的主要是与企业中
IT
设施相关的内容,没有
涉及到企业人员在危险状况下的安全
管理问题。
每个企业所制定的
BCP
都应该有每个企业或者所处行业独有的
特色,彼此之间不会完全一致,但大
致上说来,一个完备的
BCP
主要
是由
以下一些关键部分构成的:
一、
危险评估
危险评估就是认识并分析各种潜在危险的结果。
这些危险的来源
可能是:
●
各种区域性的天然灾难,如洪水、地震、疫病等;
●
p>
人为事故或蓄意破坏造成的严重灾难,如火灾、恐怖主义袭
击等;<
/p>
●
安全威胁、硬件、网络或通信故障;
●
灾难性的应用系统错误。
所有的危险都应纳入企业的危险评
估范围,
并且应对各种危险的
可能来源地进行较准确的定位。对
于每一种危险的来源都应该认识
到:
?
●
危险的类型;
●
危险的程度;
●
危险发生的可能性。
比如说,如果按照有无警示性先兆来分,各类危险还可以分为:
●
有些危险可能没有任何先兆而突然发生,无法事先防范;
●
p>
有些危险可以有一定的先兆,可以迅速启动应急计划加以防
范,比如
疫病的传播;
●
有些危险可能从来不会发生。
如果按照危险的破环类型或程度来
分,
它们对业务的影响可以分
为:
●
经营场所及设备完全破环;
●
经营场所及设备部分破环;
●
经营场
所及设备完好,但人员不能进入,比如疫病的隔离、
恐怖威胁造成的人员输散等。
显然,
对于企业来说,
一个完备的
BCP
必须尽可能多地考虑到所
有可能的危险情况,<
/p>
只有处理灾难性事件的计划而没有处理应用系统
失误的计划,这样
的
BCP
是不完备的;反之亦然。
企业所
制定的
BCP
应该同时兼顾两个方面——预防和控制。例
如,人为事故和蓄意破坏可以通过物理安全和个人行为的评测来预
防。
而应用系统的错误则可以通过对软件的有效评测与测试来预防。
危险评
估的最后结果应该是一份有关危险效益分析的详细陈述
报告,要有对危险的精确描述、哪
些危险可能发生,以及需要采取的
保障业务连续性和缓和危险的措施,
< br>同时要有因为克服了危险而带来
的收益分析。这份报告还应该描述清楚任何现有的
前提或者限制因
素。
二、
<
/p>
业务影响分析(
BIA
)
业务影响分析(
Business
Impact
Analysis
)实
质上就是对关键
性的企业功能、
以及当这些功能一旦失去作用时
可能造成的损失和影
响的分析。
对于企业业务运营的关键人员来说,他们需要分析:
A.
影响
●
哪种功能对于企业的整体战略而言是生死攸关的
●
该功能在多长时间内失效不会造成影响和损失
●
p>
企业的其他业务功能由于该功能的失效会受到何种影响——
运营影响
分析
●
该功能的失效可能造成的收入影响——财务影响分析
●
该功能是否会对客户关系造成影响——客户信心的损失
●
该功能是否会对市场份额造成影响——市场占有率的下滑
●
p>
该功能是否会对企业在行业中的地位造成影响——企业竞争
力的损失
●
该功能是否会影响今后的销售——机会的丧失
●
p>
什么是最大的
/
可承受的
< br>/
可允许的失效
B.
业务恢复需求
●
要使该功能连续,需要哪些资源和数据纪录
●
最少的资源需求是什么
●
哪些资源可能来自企业外部
●
它与企业其他功能的依赖关系以及依赖程度
●
企业的其他功能与该功能的依赖关系以及依赖程度
●
p>
该功能与企业的外部业务
/
供应商
/
其他厂商的依赖关系以及
依赖程度
●
在缺少试验环境的情况下进行恢复
,需要采取怎样的预防措
施或检验手段
在进行了这些分析之后,才有可能对企业的各种功能进行分类:
a)<
/p>
关键功能——如果这类功能被中断或失效,
就会彻底危及企业
p>
的业务并造成严重损失。
b)
基础功能——这些功能一旦失效
将会严重影响企业长期运营
的能力。
c)
必要
功能——企业可以继续运营,
但这些功能的失效会在很大
程度上
限制企业的效率。
d)
有利功能——这些功能对企业是有利的;
但它
们的缺失不会影
响企业的运营能力。
根据各种功能的恢复需求,
企业便可为上述各类功能制定标准的
恢复时间架构。例如,关键功能<
/p>
<1
天;基础功能:
2
< br>~
4
天;必要功
能:
5
~
7
天;有利功能:<
/p>
>10
天。
影响分析可以帮助企业确定各类业
务功能的优先顺序,换句话
说,也就确定了各业务功能的优先恢复顺序。
BIA
有助于定义恢复对象。在进行了影响分析之后可能会发现,
< br>在一次灾难之后恢复业务运营时,
首先恢复部分功能就足够了,
< br>比如
说在
24
小时内先恢复日常
业务的
40%
就够了。
详细定
义好在灾难或业务中断之后保障业务功能运营的资源需
求也是可能的。
< br>这些资源需求包括基础设施、
人力资源、
文档、
记录、
设备、电话、传真机
< br>等,无论需要什么资源都要有完备的规范要求。
拥有适当的细节要求是非常重要的
,
因为在危险事件发生时,
会产生
一定
程度的慌乱,到那时再决定这类细节已经不
可能了。
成本因素在进行影响分析时也是不能忽略的。
我们需要记住以下
一些事项:
●
收入的损失和商机的丧失与恢复所需的时间直接成正比
●
一种恢复策略的成本与恢复所需的时间成反比
●
p>
可能的恢复策略的成本必须和在采纳该策略之前由于业务功
能中断而
造成的实际损失进行比较。
如果所建议的恢复策略的成本远
高于
预计的成本,那么这种策略就是不可取的。
三、
策略
BCP
应包括以下策略:
A.
预防
?
预防的目的在于减少灾难发生的可能性。
有关预防的策
略应该包
括制止和预防控制。
制止控制可以减少危险的可能性。
预防
p>
控制则是保护企业的弱点区域,以防御危
险的发生并降低其影响。
这两类控制在实际运营中广泛存在,
比
如经营场所的安全、
人员控制、
相关基础设施(如
UPS
、后备电池、烟火探测器、灭火器等)、软
件
控制、相关的存储和恢复等。
企业希
望保障其资源(包括信息资产)的可用性和安全性,其安
全策略必须针对这些对象而制定
,
并且提供有关资源使用和管理的指
南。在熟悉了企业的
所有资源、资源的布局以及危险管理等之后,
才可能拿出实施安全策略所需的必要的控制措施。
这些控制措施或安
< br>全举措必须时时加以检查和测试。
如果一种安全策略,
能将预防措施都部署到位,
可以监控对系统
的入侵并
防范那些试图破坏系统的行为,
那么其本身就是一种制止控
制。
预防计划的执行
必须小心谨慎。必须保证实施安全策略时既不
能对日常业务带来限制,出现瓶颈,也不能引起可用性问题,或者给
系统的访问和使用带来障碍。
B.
响应
?
响应就是当危险发生时的反应。
它必须能够阻止危险的
进一步扩大,
评估危险的程度,
通过与外部世界
的正常通信联络挽回
企业的声誉,并启动必要的恢复时间表。
对业务
中断的第一反应应该是告知所有相关的人员。
如果危险有
事前警
示的话(比如这次的非典爆发),那么这种告知就可以提前进
行。及时的告知非常
重要,因为这可能会给阻止危险的进一步扩大
创造机会。
如果在适当的时机执行一次关机、
一次转换或者一
次撤离,
甚至有可能完全防止危险的发生。但是这需要有
p>
诊断或探测控制的
存在。这类控制或者可以持续扫描以探测发生中断
的征候(网络、服
务器),或者可以从外部资源搜集信息(自然灾害)。
准确的告知程序必须事先制定好。
必须清楚地记录在案:
需
要告
知谁,怎样告知,由谁告知,而且还得有逐步扩大的机制。
在
p>
BCP
中必须设立好一棵告知树。
最初的告
知发送给一组人,
然
后再由他们中的每个人去告知另一组人,<
/p>
依次类推。
属于这棵告知树
的人都有不同
的责任和作用,所涉及的人员应包括:
●
p>
管理团队——需要获得有关危险发展状况的信息。该团队有
权力启动
紧急响应体系和下一步的行动。管理团队还要负责与媒体、
公众、客户以及股东们打交道
。
●
危险评估团队——需要立刻对危险
进行评估,评价业务中断
的严重程度。
●
p>
技术团队——应当为关键决策制定者如何采取下一步
BCP
行
动提供服务。
●
运营团
队——应当执行
BCP
的实际运作。
还有很
重要的一点就是每一个团队都应明确第二负责人。
万一第
一负责
人没有通知到或者无法负起责任,那么必须告知第二负责人。
告知可以使用各种工具或手
段:
如手机、
呼机、
短信、
电话和
E-mail
。
每
个团队都应当有相应的配备。
危险评估团队应该是最早(或者与管理团队同时)被告知的。
他
们应当最早来到现场,
以便评估所遭受的危险程度和级别。<
/p>
如果工作
现场已经遭到破坏,
那么他们就
应该做好各项准备,
一旦允许进入现
场就开始工作。
评估过程本身也应有计划地进行,
必须与保障业务连续性的优先
顺序密切相关。
这就是说评估团队应当意识到危险所影响到的工作区
域和工作流程是否对整个业务的运行至关重要。
这将有助于他们优化
其评估进程,
同时也可正确地关注关键性工作区域。
< br>这支团队需要察
看以下事项:
●
中断的原因是什么
●
阻止危险扩大的前景如何
●
基础设施和设备受损情况
●
业务受影响状况
●
关键记录受损情况
●
可以挽回什么损失
●
什么设备需要修理、恢复和更换
有了危险评估团队提供的有关受损
程度和受损区域的详尽信息,
技术团队便可立刻投入工作。
BCP
必须拥有一组基于业务影响分析和持续性目标的预设参数,
这些
参数应该能够区分出中断和灾难的不同性质,
同时也能评价出危
险的严重程度。
当危险评估团队和技术团队开始工作时,
其他
BCP
团队也应依照
警示告知
到位,以便按照连续性计划采取应当采取的行动。
C.
业务
接续
(
Resumption
)
?
业务接续只涉及那些时间敏感的业
务流程
,
要么是在中断发生后立即接续,
要么是在可允许的一段平均<
/p>
时间后接续,但不是对所有业务的恢复。
一旦<
/p>
BCP
被激活,
命令将从指挥中心发出。
这个指挥中心应该是
在一个不同于日常经营场所的地方。该中心
应配备相应的通信设施、
办公设备,可能的话还应该构建局域网和
VPN
。
需要做出的第一个决策是,
关键性业务的运营能否在日常的工作
场所或者在一个备选场所很快恢复
运营。
备选场所可以分成以下几类:
(a)
空场所(
Cold
Site
)——该场所只需配备必要的环境条件即
可,比如说,应配备电话插座、电源以及
UPS
等,但要避免其
内有任
何其他设备,
它的作用就是准备将保障业务持续所需的全
部设备搬移
进来。
(b)
热场所(
Hot Site
p>
)——该场所是一个完全的备份场所,有
人员工作的空间,所有设施
一应俱全,数据备份也是最新的。一旦灾
难发生,
BCP
团队只需进驻该场所就可开始工作,不会有额外的时间
拖延。
(c)
温场所(
Warm
Site
)——该场所实际上就是配备了部分设备
的热场所,数据备份不算最新,但也不能太旧。
(d)
机动场所(
Mobile
p>
Site
)——该场所是一个具有较小设施配
置的机动场所。
可以位于主要经营场所附近,
因而也可节省关
键人员
在路程上花费的时间。
(e)
镜像场所(
Mirrored
Site
)——该场所在所有方面都与主要
经营场所完全相同,
信息和数据也与主要场所同步。
实际上
该场所就
是正常状况下的一个冗余场所,因而通常也是成本最高的一种选择。
在备选场所(或主要场所,如果仍然可用的话),工作环境需要
恢复。通信、网
络和工作站需要设置。与外界的联系必须持续畅通。
企业可以首先手动恢
复一些业务,
直到关键的
I
T
业务可以继续运行
-
-
-
-
-
-
-
-
-
上一篇:fluent经验之谈(过来人的总结)word版本
下一篇:货币银行学 名词解释