《新金融世界》2010.5.20 第五期 总第50期(记者 谌力)
4月24日,宁夏银行实施了国内区域性商业银行第一次真正意义上的异地灾难恢复演练,分两个场景实战演练了数据库故障本地恢复和灾难异地恢复。宁夏银行数据中心与备份中心分处宁夏银川和陕西西安,两地距离超过806公里,演练过程全部由业务管理部门、本行技术人员和支行柜面业务人员在实际业务环境操作完成,是对宁夏银行精心打造的应用级灾备系统的一次实战检验。 历时两个小时的演练背后凝聚了宁夏银行管理层对科技兴行的战略性指导,以及信息技术部门和业务部门的不懈努力。 宁夏银行李建华行长表示: “为适应各项业务的迅猛发展,支撑跨区域经营战略的顺利实施,保障核心业务系统安全、稳定、持续地运行,增强抵御灾难和防范系统故障的能力,宁夏银行在2009年下半年正式启动了灾备中心的建设,在综合考虑了建设成本,应用成本和维护成本的基础上,为支持跨区域经营的发展战略,采用数据连续保护技术在银川和西安建设了本地和异地的一体化应用灾备系统。”
一场成功的演练
4月24日,宁夏银行进行了核心业务系统灾难恢复演练,来自人民银行和宁夏银监局的领导,全国各地区域性商业银行、宁夏当地国有及地方金融机构信息技术部门负责人和技术专家等50余位嘉宾观摩了此次灾难恢复演练,并就商业银行业务连续性保障体系和银行业灾难备份系统建设模式进行了深入探讨。 演练设计了两个场景,场景一是数据库系统瘫痪,场景二是数据中心发生火灾,分别进行本地和异地的系统恢复和切换。 以场景二为例,宁夏银行银川生产中心发生火灾,灾难发生后,宁夏银行银川数据中心瘫痪,无法向外界提供服务。此时,需要在西安容灾中心启动备份系统进行数据恢复和业务恢复。宁夏银行在演练中展示了从应急响应阶段开始,经过恢复阶段,到业务正常运行阶段的全过程,在其中应急响应阶段,宁夏银行又细分为事件检测和初始响应、事件评估、灾难预警、灾难宣告四个步骤。演练的RTO(恢复时间目标)<1小时,RPO(恢复点目标)<1分钟,达到了中国人民银行正式发布和实施的《银行业信息系统灾难恢复管理规范》(JR/T0044-2008)要求。 演练中,宁夏银行组成了清晰的组织保障体系: 由应急指挥中心、技术组、业务组、记录与文档管理组、观察组组成。宁夏银行信息技术部总经理王春介绍说: “这次演练一方面要验证核心系统灾难备份体系技术方案的有效性,更重要的是验证宁夏银行应急管理组织架构中各相关部门协同工作能力,这对业务连续性的保障至关重要。”
认清风险、化解风险
在公开演练之前,宁夏银行信息技术部门进行了大量的周密准备。 “虽然之前我们已经测试、切换过很多次了,但这次基于真实业务环境的演练仍有风险,必须防范好。我们之前的内部演练比这两个场景多得多,测试范围更广——该拔网线的拔网线,该宕机就宕机,都是突发性的损坏,比今天演练得还要严格,”王春说。 对灾备系统的重视源于宁夏银行对于信息系统风险的深刻理解。中国人民银行和中国银监会都对业务连续性提出了严格要求,规定商业银行法定代表人是本机构信息科技风险管理的第一责任人,负责组织该指引的贯彻落实。 行领导的重视让宁夏银行信息技术部门肩负千斤重担。视安全为生命——这其实是所有银行科技老总的共识,系统运行安全的一票否决又让每一位科技老总提心吊胆。 “运行安全对我们的压力最大,我们首先要在部门内营造一个轻松的氛围,让大家有轻松工作的心情,才能发挥出更大的能力,更要动脑子梳理管理流程、寻找先进的技术工具,一步一步把系统安全完善起来,”王春说,“防范系统风险不是靠人的奉献精神,如果天天加班、天天熬夜,人都支撑不住了,肯定是越熬风险越大。” 经过多方面的研究论证,宁夏银行提出了灾备项目的建设目标: 1.满足金融监管部门的灾备规范和要求; 具体灾备指标: ——本地RPO基本为0(故障情况下数据不丢失),RTO=60分钟; ——异地RPO=10分钟,RTO=2小时。 2.实现跨省际异地应用级别灾备。 3.实现本地数据持续保护和本地故障恢复能力。 4.实现主生产存储设备硬件故障的本地应急恢复。 5.较低的建设成本和较低运营费用。 6.灾难恢复具有较强的可操作性; 灾备技术开放,不依赖存储设备选型 。 2009年11月,宁夏银行开始启动灾备系统的选型和招投标,到2010年4月15日,所有异地数据验证成功,灾备功能验证成功,远程灾备实施完毕。“所有的灾备建设都应以业务连续性为目标,所有的技术手段都是工具,为这个目标服务,”王春强调。
技术创新——对安全的不懈追求
早在2006年,宁夏银行就使用了存储设备底层存储数据同步技术,将存储设备中的数据进行了同步复制,解决了存储设备级故障发生情况下的安全保障问题。 在实施了存储设备的故障防范后,宁夏银行信息技术部没有停止探索,而当时也有许多问题让他们感到不能满意,例如仅解决了存储设备本身硬件故障的风险防范,同时,主备存储设备切换比较复杂,维护成本高、平台不够开放。如果采用存储底层数据同步技术来建设异地灾备系统,对网络带宽的要求很高,运行费用难以承受。“我们抱着一种不断完善和学习的想法,没有满足于当时的现状,通过不断的寻找和测试,终于找到了更满意的答案。” 经过前期的多次测试和方案论证,宁夏银行大胆采用了新技术——持续数据保护技术(CDP),并从2010年2月开始实施新核心主机的升级方案和业务系统升级方案,进行CDP灾备设备的部署。 在总结宁夏银行的经验时,王春把灾备系统的防护领域分为三类: 一是对主存储设备故障的防护,二是对本地数据库逻辑故障的防护(例如误删除、操作性错误、瘫痪等) ,三是重大灾难。如停电、火灾、地震等站点级别灾难,他说: “95%的风险来自机房内,也就是前两种情况,所以在灾备建设时应该明确重点和顺序,首先对机房内的风险进行防范,然后再提升防护范围,考虑地震这种小概率的灾难。” “我们通过生产存储与CDP的同步镜像,解决了主存储故障带来的威胁,确保主存储故障时的无缝切换和业务连续运行 ,采用异地传输的带宽精简技术,用最小的带宽实现了异地传输,目前采用4M带宽; 此外,数据中心可对灾备数据进行快速提取,用于备份、查询、测试、加工、报表统计等,使灾备系统得到充分利用。”王春说。 作为商业银行,不可能抛开股东回报和经营业绩去建设一个非常昂贵的系统,成本因素是中小银行建设灾备系统时特别需要考虑的问题,也是宁夏银行灾备系统建设的着眼点之一。王春说: “选产品有什么能够降低成本的方法呢?就是选择开放式技术的产品,我们现在用的设备自己的工程师基本上能够独立操作,遇到处理不了的故障还可以找国内的厂家,能够提供技术服务的公司不只一家,这就避免了垄断厂家对服务费漫天要价的情况。” 在宁夏银行的案例中,对采购成本、应用成本和维护成本所构成的总体成本的全面衡量和细致比较,是最终控制好建设成本的经验。展望灾难系统的进一步完善,王春说:“目前我行灾备系统仅满足对柜面业务渠道的连续运营要求,也仅对核心系统数据进行了保护。今后会逐步根据重要性将保护的业务及渠道扩展到机具、现代支付、电话和网银等,同时逐步将保护的数据扩展到信贷、财务、人力资源等管理系统。另外还将根据业务范围,数据量大小,逐步增加网络链路层面的投入,提高灾难防护能力。”