一、 为什么需要开放平台灾备解决方案
容灾不是一个新话题。1997年我国拉开了容灾建设的序幕,几年下来,容灾在金融、电信、证券、电力等行业已经略见雏形。其中一些单位已经在生产中心和备份中心均建立了以SAN为架构的数据整合体系,并建立了初步的灾备系统。
为什么要在开放平台下建立灾备系统呢?其目标就是要解决数据的安全性问题。
数据系统的安全体系主要有数据备份系统、高可用系统两个方面,备份系统提供应用系统的数据后援,确保在任意情况下(包括人工操作失误)数据具有完整的恢复能力。
高可用系统确保本地应用系统在多机环境下具有抗御任何单点故障的能力,一旦系统发生局部的意外(如操作系统故障、掉电、网络故障等),高可用系统可以在短的时间迅速确保系统的应用继续运行(热备份)。
以上两种方式已经广泛使用,而且为数据和整个生产系统安全提供了基本保障。但这些方式的共同点就是无法完全承担应用系统发生重大灾难时业务系统的安全运行,如备份系统无法保证灾难出现后系统的不间断运行;而高可用系统无法防止重大灾难,如机房破坏、磁盘数据丢失。因而,容灾系统应运而生。
当应用系统的一个完整环境因灾难性事件(如火灾、地震等)遭到破坏时,要完成迅速恢复应用系统的数据、环境,立即恢复应用系统的运行,保证系统的可用性,这就需要灾难备份系统(也称容灾系统)。可以说,对于关键事物的处理系统,如联机事务处理系统(如金融业务、证券业务、电信业务、电力业务等),建立高级别的安全体系,也是提高服务质量、确保系统永不中断、在竞争中立于不败之地的重要举措。
长期以来对行业应用系统而言,建立一套可行的容灾系统相当困难,主要是高昂的成本和技术的复杂度。
二、方案原理图
三、技术要点说明
容灾系统的建立需要包括两个部分:数据容灾和应用容灾,具体为:数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份)。在灾难情况下,远程系统迅速接管业务运行。可以说,数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。 一个完整的容灾系统应该具有丰富的层次构造,具体结构如下:数据备份系统、数据远程复制系统。
本地的高可用系统确保本地具有局部故障或单点故障的系统的应用安全,远程高可用系统实现远程广域范围内的高可用性,这一层次基于本地的高可用系统之上,可实现故障的分类和采取对应的故障接管机制。
容灾系统的建设在以上几个方面均不可或缺。比如,缺乏数据备份系统,则系统在抗御误操作、黑客攻击等方面就会十分脆弱;没有远程的数据复制系统,则远程的数据一致性得不到保障;没有远程高可用系统,就不能实现系统整个系统意义上的故障接管。
在技术实现上,本地备份系统采用厂商(如HP 、StorageTek、IBM)的磁带库产品和备份软件产品,数据远程复制采用EMC的SRDF或其它第三方的产品(如VERITAS Volume Replicator)。
本地高可用性系统的关键部分采用服务器厂商提供的集群软件或第三方(如VERITAS)的集群软件和相应的数据库代理(Agent)、应用软件代理,以保证本地业务系统的软硬件高可用性。
远程高可用性系统通过广域集群管理系统实现。广域集群管理系统实现可理解为Cluster''''''''''''''''s Cluster(集群的集群)。它负责对多个不同地点的多达32个集群系统进行监控和管理,在发生严重灾难时,进行site的切换(即应用的远程切换)。生产中心和备份中心的集群系统都在广域集群管理系统的统一监控和管理下,从而实现集群系统间的远程应用切换。
四、本方案优势
本开放平台容灾解决方案的特点和优势体现在以下几个方面:
◆ 一个集本地容灾、异地数据容灾和异地应用容灾于一体的方案。
◆ 容灾级别依次提高,后者以前者为基础。
◆ 可以分步实施,保证前期投资。
◆ 能够支持手动/自动信令容灾方案,用户可以根据实际需要进行自由选择。但在实际情况中,由于发生重大灾难时业务异地切换属于非常严重的事故,所以我们建议该过程前用户进行电话确认,然后在广域集群管理系统界面中进行切换。
◆ 当本地主系统恢复正常后,需要进行反向数据同步、应用切换等工作,该工作需要由操作人员在系统较空闲时进行。工作过程很简单。