建设容灾系统需要花费巨额的投资,希望能在关键时刻能够用上。
建设容灾系统需要花费巨额的投资,希望能在关键时刻能够用上。今年的几起银行系统故障发生时,却没有一家敢把系统切换到容灾系统。为什么这些声称要建立7 ×24小时服务体系的银行,宁可发生几个小时的事故,也不启用巨额投资的系统?怎样才能让容灾系统在关键时刻发挥作用? GDS万国数据服务有限公司首席灾备专家汪琪认为:只有把日常各项该做的工作都做好了,才能确保在灾难发生的关键时刻,容灾系统能够发挥作用。 今年上半年,某银行IT系统出故障,业务不能正常运营。信息中心负责人向银行主管行长请示是否启用容灾中心。犹豫再三,行长还是决定在本地进行系统修复,尽管这样对恢复时间没有把握。
这是某银行的真实经历。同样的事故在2005年有多起,但没有一家银行敢把系统切换到容灾中心的系统上,他们担心容灾中心起不到预期的作用。 在今年出台的《重要信息系统灾难恢复指南》的一个重要作用,就是明确了责任——“谁主管谁负责,谁运营谁负责”。在灾难发生时,如果系统切换过去,而容灾中心没有起到应有的作用,主管责任人就要承担相关责任。在没有足够把握的时候,很少有负责人敢启用容灾中心。 花费巨额资金建设的容灾系统,为什么银行会担心不能用呢?近日记者采访了《重要信息系统灾难恢复指南》起草人之一、GDS万国数据服务有限公司首席灾备专家汪琪,著名的信息安全专家、北京大学软件与微电子学院院长陈钟,北京华胜天成科技股份有限公司方案总监汪大海等多位专家,总结出了六个不敢启用灾备中心的原因。
一不敢:容灾组织建设不健全
建立了容灾中心,系统维护的工作量增加很多。很多单位忽视了需要增加相应的专职工作人员,系统切换人员没保证。 当发生灾难时,需要有人作出是否启用容灾中心的决定以及进行容灾系统切换及回切工作。在平时,需要有人组织和完成日常管理、预警、演习、测试、培训等工作。容灾需要有一个包括决策组、执行组、行政组的完整组织机构。 出现紧急情况的时候,执行组成员应迅速根据事态的发展作出正确判断并及时向决策组报告,同时建议最佳解决方案。决策组作出是否启用容灾中心的决定。决策组一般是由单位分管相关工作的领导牵头组成,相关部门负责人作为组员。 执行组成员一般由各个部门的技术、业务经验丰富的工作人员担任,可以专职或兼职,但是专职人员不得少于一定数量。执行组应由专职技术人员,如:主机管理员、存储管理员、网络管理员、数据库管理员、中间件管理员、机房环境管理员、值班管理员等组成。执行组负责容灾系统的日常维护,演习、预警、灾难恢复期间的系统方面的灾情的评估、切换/回切的具体操作等。 行政管理组负责为其他职能部门作好所需的后勤保障工作,包括运输、安全保卫、资金、人员调配、信息发布和公共关系等。一般由具有足够资源调度授权的经理担任组员,如负责运输、财务、人事、安全保卫、公共关系相关人员、外部服务商、供应商联络人员、行政助理等。 在组织建设中,还需要编制容灾组织结构职责及通知手册,应至少包含以下内容:各组成员及集成商、设备供应商、各个工作人员的联系方式以及优先次序,确定有效确认通知手段、后备人员等。
二不敢:日常管理不到位
如果日常管理工作不到位,出现容灾中心的数据和生产中心不一致现象,难以保证在切换时能够正常接管工作。 日常管理工作的核心是保证容灾系统的应用、软硬件平台持续可用,可以随时进行应用切换及业务接管,包括数据审查、系统维护、系统监控、软件版本管理、容灾变更管理等内容。 数据审查保证容灾系统在必要的时候能够及时接管生产系统。容灾系统与生产系统的数据须保持一致性、完整性,应在容灾系统中建立起与生产系统的数据同步审查机制,并通过数据核对帮助生产系统发现可能出现的问题,进一步完善和优化生产系统和容灾系统。 容灾中心业务组人员通过手工或者程序脚本的方式,定期与生产系统进行数据的核对,根据预定义的指标检查数据的一致性、完整性,及时发现问题、分析原因、编写报告,必要时发起容灾测试流程。 系统维护是为了保证容灾系统接管生产系统时,不会因为IT因素、基础设施问题而发生接管失败,是对生产系统与容灾系统运行的IT基础设施所进行的日常例行检查、维护工作。 系统监控的目的是帮助系统组/业务组成员对生产系统及其容灾系统的运行情况进行监控,对故障进行快速准确定位。 软件版本管理是指在生产系统运行过程中,由于功能完善、增加等原因需要对软件版本进行更新、变换,所以应对生产系统及其容灾系统的软件版本进行管理,保证容灾系统按既定目标顺利接管业务,避免由于版本不一致造成的数据错误、业务接管失败。 容灾变更管理的目的是控制、管理容灾系统中的变更行为,确保容灾变更平稳实施。一般步骤包括:发起,影响及资源评估、接受、执行、变更总结等。
三不敢:预警流程缺乏
在灾难来临时,各个部门的人如果乱做一团,不知道该做什么,容灾系统也难以起到应有的作用。 预警流程可以分为七个主要步骤:风险上报、风险评估、风险决策、风险告知、风险警备、发起系统切换、预警总结。 风险上报主要包括风险信息获知、收集、上报。风险获知后,应验证风险的真实性,并保证风险信息收集的完整。风险信息包括风险发生的时间、原因、影响范围、影响程度、现状、发展趋势等。IT部门根据上报资料做出全面评估,形成评估报告。报告内容包括造成灾难的几率、影响程度、发展趋势等。 风险决策指的是领导组根据风险评估报告决定后续的处理,包括提前启动切换,进入风险警备状态,保持正常状态,继续关注风险。 风险告知就是行政管理组将有关风险的信息对内对外及时发布。该工作在领导组对风险进行决策后进行。有效的风险告知机制可以保证统一口径和澄清谣言。 风险警备是指领导组告知全体人员系统进入预警状态后,各人员应随时待命,密切关注风险的发展,必要时及时成立指挥中心,以便快速投入灾难恢复工作。 发起系统切换是指领导组做出切换系统的决策后,系统进入备灾状态,直接进入“灾难恢复启动”步骤。执行组通知各责任工作组成员赶赴容灾中心现场,协调各组按既定流程恢复业务运行。 预警总结是指执行组应对风险原因、处理经过、损失程度和范围等做出综合评估;对预警状态中瞒报、漏报、迟报信息及其他失职、渎职行为的组织和人员追究责任,并根据需要,完善相应的流程、制度等。
四不敢:没有容灾演习
容灾系统建设完成后,必须不定期进行容灾演习。根据在演习过程中是否真正进行系统的切换,容灾演习可以分为模拟演习与真实演习。 模拟演习主要是为了检验在发生实际灾难后,参与灾难恢复的相关人员是否能够根据规划好的灾难恢复流程,有序可控地进行灾难恢复工作。真实演习不仅要检验灾难恢复流程的有效性,而且要验证容灾系统是否能够实现正常的切换和回切。演习主要步骤包括:制定演习计划、审批演习计划、演习启动、消息发布、演习切换、验证、演习回切、总结。 演习是灾难恢复计划的最好验证手段。演习过程中,应详细记录各个重要环节的时间点,用于考核容灾系统和生产系统的各项指标。演习后应及时总结经验,对发现的问题应及时解决,需要修改或优化的流程要限期进行修改和完善。
五不敢:没有做容灾测试
如果对容灾系统的数据、功能、性能等方面没有测试验证,难以保证容灾系统可实现数据保护和业务接管。 容灾测试是对容灾系统的数据、功能、性能等方面进行验证,保证容灾系统的建设和变更能够实现数据保护和业务接管。测试方式尽可能采用测试脚本,避免人为误操作。测试环境尽可能与生产系统隔离。在不发生系统变更时,最好每月测试一次,否则须即时测试。
六不敢:没有做好容灾培训
如果没有做好培训,难以保证相关人员及时学习到相关的知识和技能并及时更新。 通过容灾培训,可确保相关人员及时准确地了解系统结构,熟悉测试、演习、灾难恢复流程,明确自身职责,沟通、协作顺畅,提高工作技能和灾难应对能力。 培训计划由执行组与人力资源部门共同制订和执行。培训内容主要包括:容灾基础培训、容灾流程培训、容灾技术培训。 遵照灾难恢复计划中的切换和回切流程,在不影响正常生产情况下,严格按照事先制定的培训教材,开通容灾中心全部设施及模拟测试终端。 如果把以上六个方面比作一个链条上的六个环节,那么任何一个环节的缺少都可能导致容灾中心形同虚设。俗话说,养兵千日,用兵一时。任何一个细节的忽视,都可能导致容灾中心在关键时刻不能发挥应有的作用。到那时后悔就晚了。 投资巨大的容灾系统,在关键时刻起到作用才是值得的。