SRDF容灾解决方案概述

更新时间:2023-08-05 22:46:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

EMC SRDF

1.1 SRDF容灾解决方案概述

所谓灾难备份是为在生产中心现场整体发生瘫痪故障,备份中心以适当方接管工作,从而保证业务连续性的一种解决方案。本章在分析传统灾难备份方法及其局限性的基础上,将着重介绍EMC公司SRDF(Symmetrix Remote Data Facility)灾难备份解决方案。EMC公司在信息保护、信息共享和信息管理上有成熟的解决方案十余种,SRDF是最著名的信息保护解决方案,是目前全球在信息安全容灾备份领域中实现级别最高的方案。

1.1.1 传统灾难备份方法及其局限性

影响系统崩溃的灾难形式可能很多,包括自然原因导致的灾难如地震、洪水、火灾、飓风、恐怖活动等和人为操作导致的系统崩溃或数据无法恢复。而进入90年代以来,一个现代企业或机构如果没有高可用性的计算机系统,几乎无法参与日趋激烈的商业竞争。系统保护措施必须能够确保在各种自然的或人为的灾难发生造成基本处理设施毁坏的情况下能迅速恢复系统的处理功能。因此保持业务的持续性已成为不同机构、机关以及企业建设自己信息系统必须考虑的重要目标之一。

业务的持续性方案必须能够应付所有可能引起计算机系统失效的问题。这些方案和措施应该确保:

无论是由于硬件,软件或电源的失效都不应中断数据中心的处理工作; 在由于灾难原因影响到基本系统的运行时,应在备份现场迅速恢复处理功能;

在备份现场投入运行之后,应能迅速恢复基本系统的处理功能

在多数数据处理设施中,关键数据、系统库和数据库的备份操作已经成为日常运行处理的一个组成部分,以确保出现问题时能“迅速”恢复。典型的问题包括应用程序出错(此时需要返回到前一个数据库版本状态),或是运行故障(例如,磁盘驱动器失效等)。通常备份数据磁带是离线保存在安全场所的。对于普通的文件错误,如果备份磁带就在现场,则数据恢复处理只需要几分钟时间,但是如果是整个数据库环境遭到破坏,则恢复需要花费几天的时间。

EMC SRDF

正因为各种自然灾害或人为故障随时可能出现,不少重要的国家机关、机构和工矿企业根据自身业务系统及其产生的数据信息的重要性,使用传统的灾难备份方案建立起自己的备份中心。一般地讲,该备份现场应满足如下要求:

与基本系统不在同一个地点,至于备份中心与生产现场的距离可依照所需应付的灾难事件的性质来确定。两者之间可以相距几英尺到数百英里。

具备通讯能力

具备处理能力

具备存储能力

必要的人员能够进行访问

当灾难发生,决定起用应急备份现场的时候,需要采取一系列的措施。一般来讲,应在应急现场,将网络、电话线路切换到新的地点,这可以在几个小时内完成。但是,要将新近的操作系统,系统库,数据库和系统目录的磁带拷贝运送到应急现场,并将它们恢复到硬盘中,则要花费几天的事件。这种方法显然不能令人满意。所以,任何可以缩短这一时间周期的手段都是负责灾难恢复方案的人员所感兴趣的。下面简单分析目前使用较多的传统灾难备份方式。

1、基于磁带拷贝的传统灾难备份方式

利用磁带拷贝进行数据备份和恢复是最常见的传统灾难备份方式。这些磁带拷贝通常都是按天,按周或按月进行组合保存的。

使用这种方式的数据拷贝通常是存储在盘式磁带或盒式磁带上,并存放在远离基本处理系统的某个安全地点。磁带通常是在夜间存储数据,然后被送到储藏之处。磁带拷贝经历的整个过程大致是这样的:

业务系统在半夜停止工作;

开始提取数据库拷贝(4-6小时);

将磁带码放好,准备运到安全的存储地点;

早上10:00运输部门来运输;

运送到储藏地点;

中午时磁带被安全储存

所以,存储到安全地点的磁带拷贝,其上的数据已有数小时(在上面的例子

EMC SRDF

中为12小时)的延迟,而这就是灾难情况下进行恢复时,所能找到的最好的当前数据!

而在灾难或各种故障出现系统需要立即恢复,必须将磁带提取出来,并运送到恢复地点,然后进行如下处理,通常还要滞延几个小时:

从磁带的存放地点选取适当的恢复用磁带(2-4小时);

将磁带运送到恢复现场(2-4);

数据恢复到磁盘上(8-18小时);

追溯数据库数据,寻找最佳的恢复水平(6-12小时);

恢复应用程序的处理工作

整个上述过程中至少需要花费18个小时,才能使环境恢复到灾难发生前12个小时的状态!而这中间可能出现的信息或数据丢失,以及后续业务风险等因素还没有被恢复人员考虑进去。

从使用磁带拷贝方式进行的系统备份和恢复的过程可以看出,基于磁带拷贝方式的传统灾难备份方式有着明显的缺陷,越来越不适合用户不断发展的业务系统的需要。

基于磁带拷贝的灾难备份方式不管是备份过程还是恢复过程非常复杂。复杂的恢复过程将回极大地影响着系统恢复的效率。

磁带通常是在夜间备份的,并于第二日被送到储藏之处。该过程本身给备份数据带的使用带来相当大的延迟。

在进行恢复操作时,必须使用正确的磁带。而存档磁带的数量可能有成百上千盒,要在成堆的磁带中找到正确时间的磁带给管理上带来很大的挑战。

在恢复数据库的时候,要求事件处理的顺序必须正确,这样才能恢复到数据库的当前状况。当恢复过程需要涉及到若干个磁带时,出现磁带找不到、不可读或顺序错误的可能性是很大的。

2、基于CPU的灾难备份方式

基于CPU的灾难备份方式主要有两种:

EMC SRDF

一种利用CPU建立数据拷贝的方法是让CPU同时将数据分别写到本地和远程磁盘上。这种方法有几个问题需要解决,包括资源的消耗问题,数据的备份周期问题(每天是实时的,还是按固定的周期将数据拷贝到磁盘上),对日常运行的影响问题,以及如果将拷贝操作插入应用程序中,所带来的应用维护的问题等等。

另一种利用CPU建立数据拷贝的技术是在发生事务处理的同时,实现CPU到CPU的事务处理传送。第二种方法为用户提供了这样一种选择,就是只将事务处理过程存储在远程磁盘上,以便稍后或直接利用所记录的事务处理过程对备份数据库环境拷贝进行同样的处理,处理速度也可以相对较快些。

基于CPU的灾难备份方式也有着明显的缺陷:

两种方式都需要占用大量的CPU资源,其成本开销都很大,会影响业务系统的性能。

第一种利用CPU建立数据拷贝的方法必须考虑如何将拷贝操作插入应用程序中,这给系统的日常管理以及应用系统的维护提出了很大的挑战。

第二种方法除了占用CPU资源以外,还将占用大量的网络资源,也会给业务系统的性能造成明显的影响。

1.1.2 不同备份模式

所谓远程容灾备份是为防范生产中心现场整体发生瘫痪故障,备份中心以适当方式接管工作,从而保证业务连续性。目前,远程容灾数据备份的主要方式有“冷备份”和“热备份”。

1)冷备份方式

冷备份方式是指数据是通过磁带等较慢的介质从生产中心备份后,送到备份(backup)中心并恢复(restore)。由于早期无好的方案来解决生产中心和备份中心之间的数据同步问题,这种传统做法是无奈之举。它的致命弱点在于备份中心的数据有较长延迟,不同步,一旦故障发生,恢复过程除最新磁带备份数据恢复外,还对最后备份时间以后的交易数据根据凭证进行输入。一方面这整个过程

EMC SRDF

耗时较长,但另一方面万一凭证也随主现场一同丢失,则事实上已不可能完备的恢复。

2)热备份方式

热备份方式是指备份中心与生产中心之间的数据,通过适当解决方案确保其实时,而生产中心现场整体发生瘫痪故障,备份中心能迅速切换为生产系统,以保证业务连续性。热备份方案的关键点在于数据备份的实时性。热备份方式是关键业务用户真正所需的容灾方案。目前国内外大多数银行、电信用户都转向热备份方式。

1.1.3 基于智能存储系统的SRDF容灾方案的整体优势

进入90年代以后,磁盘阵列技术发展十分迅速。就象七、八十年代通过IBM3705等设备的电信处理控制功能来减轻处理负荷那样,磁盘阵列正在将磁盘镜象功能的处理负荷从主机转移到智能磁盘控制器—企业智能存储系统上。有了这种技术,就可以实现生产中心和灾难备份中心的操作系统、数据库、系统库和目录的实时拷贝维护能力。如果在系统恢复场所具备了实时数据,那么就可能做到在灾难发生的同时实现应用处理过程的恢复,并且可以省去迄今为止在系统恢复过程中一直困扰人们的费时费力的倒带操作。远程备份系统的重新启动可以做到象一般电源故障后的重新启动那样简单!基于智能存储系统的SRDF就是通过上述方式实现的,目前已占据了95%市场份额的远程容灾解决方案。

EMC的SDRF灾难备份系统为大型机和Unix开放系统用户提供了独特的功能。它可以实现不同地点之间的磁盘数据实时备份,距离可以是几英尺、数英里、甚至跨越不同的大陆。目前还没有其他有效的竞争技术出现,SRDF是EMC公司重要的竞争优势之一。

SDRF在1994年就达到了泛可用性(GA)的水平。目前,还没有其他厂商的远程镜象功能达到该水平。EMC利用软件和硬件的有机结合所实现的MOSAIC:2000体系结构,在技术水平上至少领先了一年半左右的时间。直到现在为止,SRDF在全世界已出售了超过4000多个license。

EMC SRDF

SRDF已经应用于客户的许多重要应用领域,并为客户带来了真正的实惠。当今的商务活动每天24小时都离不开数据。如果由于维护、内部调整、系统升级,或是由于自然灾害或人为故障造成重要的业务数据无法访问,其代价将是巨大的,甚至关系到企业的存亡。所以,最重要的是要保证数据的持续可用性,以确保各种应用系统能不间断地服务于业务活动。SRDF可以应用于许多重要方面,下面所列出的只是其中的一部分:

业务持续性:即使是在可能出现磁盘错误的情况下,也能保证业务应用程序的持续运行;

灾难恢复:灾难发生是,可以在几分钟(而不是几小时)内,在备份现场实现数据的恢复;

数据中心迁移:将应用程序的停止时间从数小时减少到了几分钟; 工作量迁移:于数据中心迁移类似,SDRF是进行常规的软硬件维护时缩短应用程序失效时间的理想手段;

工作量压缩或消除备份的处理时间:通过利用SRDF的第二数据拷贝缩短或消除备份的处理时间。

1.1.4 SRDF灾难备份系统详述

1、什么是SRDF?

概括地讲,Symmetrix远程镜像软件SRDF(Symmetrix Remote Data Facility)是一种热备份方式的容灾系统。它是EMC公司的Symmetrix ICDA系统用于保护本地数据的磁盘镜像(RAID-1)技术的一种发展。

如果某个磁盘卷使用了磁盘镜像来实现保护,那么在同一个子系统中会分配另一个磁盘卷作为它的完全拷贝,写到一个磁盘卷上的任何数据会同时写到另一个镜像的磁盘卷上。通常市场上实现的RAID-1技术是一个基于处理器的方案,其包括大量的系统程序、I/O描述和性能的隐含关系, 并依赖操作系统的功能实现数据的恢复。EMC的Symmetrix ICDA的磁盘镜像(RAID-1) 技术是完全在磁盘子系统中实现的。被称作M2(镜像)的第二个磁盘卷,其数据是由子系统在向基本卷(M1)写数据的同时被写入的。这些功能的实现对操作系统是透

EMC SRDF

明的,无需进行系统编程、I/O描述,也不占主机的资源。因此这一级保护不影响系统性能。用户只要定义一个地址,其余的就可以交给Symmetrix去处理。有了磁盘镜像RAID-1的保护,无论M1或M2磁盘卷中的哪一个 失效,剩下的卷都可以保证运行的正常继续。在等待故障盘的更换和进行磁盘内容拷贝期间,维持运行的那个盘失效的概率是极低的,可以忽略不计,因此在Symmetrix企业智能系统中用户可以在不损失系统性能的情况下确保有100%的可用性。

SRDF远程容灾方案就是在上述磁盘镜像(RAID-1)技术成功的基础上,通过对磁盘子 系统性能的不断改进而产生的。1994年,EMC通过实现一种独特的RAID-1版本而使自己向前 跨越了一大步。新的技术不再是把M2驱动器安置在与M1相同的存储子系统中,而是移动到第二个子系统中,并通过ESCOM光纤或其它的电信线路实现与第一个驱动器的连接。这显然对两个子系统之间的通信技术提出了挑战,但其实际效果与RAID-1类似。从最简单的概念来说,这就是我们 所说的SRDF(Symmetrix远程数据镜象)。

上面所提到远程镜像,其性能问题是最重要的。数据的复制处理显然需要消耗资源,从而会影响到子系统的性能。为使Symmetrix的性能具有竞争力,我们又对其增加了一个“预留”资源的缓冲池,它可以为用户提供新的专用功能,以提高用户在其业务领域的竞争力。

SRDF在概念上为用户提供了一种有趣的特性组合。首先这一对磁盘卷在名称上变成了R1(远程1)和R2(远程2),但其功能于其前身M1和M2相同。其中第二个数据拷贝R2处于实时备份模式,它所处于的Symmetrix系统与基本拷贝(R1)所处于的Symmetrix系统之间的距离可以是近在咫尺,也可以相隔千里。由于处于不同的系统,所以可以分别进行寻址。第二个数据拷贝(R2)可以按照只读模式供附加在第二个子系统上的第二个处理器(或LPAR)使用。这样当任何一台出现故障时,系统应用将利用剩下的完好的磁盘卷继续运行。出故障的磁盘在不影响系统运行的情况下经过维修或更换之后,可以重新恢复与完好磁盘的同步。

总而言之,SRDF建立物理上独立的两个Symmetrix系统之间的完全的、实时的数据镜像,为企业提供两套实时生产数据,帮助企业在数据中心现场发生灾难时,确保另有一套完整的生产数据安全可用,达到容灾级别的数据高可用性。

EMC SRDF

SRDF的实现包括以下部分,如下图所示:

二套或多套Symmetrix系统

远程链路适配器(Remote Link Adapter)

每套Symmetrix的SRDF微码许可证

Symmetrix ICDA之间的链路(ESCON、光纤或电信线路)

SRDF的运行独立于主机和主机操作系统,不占用任何主机CPU、主机通道和网络资源。SRDF支持几乎所有主机配置,包括IBM RS/6000、IBM AS/400、 IBM ES/9000、HP、SUN、NCR、DEC以及UNISYS、SIEMENS、FUJUTSU等。

SRDF 是目前世界上唯一成熟的远程灾难备份解决方案。在全球各地银行,电信等行业有广泛应用,用于生产环境的全球总安装套数达12,000多套。

2、工作模式

EMC公司的远程磁盘镜像有下列三种方式:

同步工作方式、半同步工作方式及异步工作方式。

三种工作方式的工作过程在下面的三个图中分别显示:

1)同步工作方式

EMC SRDF

2)半同步工作方式

3)异步工作方式

EMC SRDF

4)SRDF/Star工作方式

零时间延迟 结果:

存储库站点和远距离站点可以增量

–数分钟时间 主站

3、数据一致性模式 远距站点

SRDF支持Domino-Disk/Link Consistency Groups,从而确保跨多个SYMMETRIX平台的应用系统在多个SYMMETRIX之间的数据的一致性。

4、通信模式

1)SRDF支持的数据传输协议包括:

ESCON、FICON、FC

2)SRDF支持的数据传输链路协议包括:

FC、ATM、T1/E1、T3/E3、DWDM、TCP/IP

5、配置模式

SRDF支持灵活的配置,包括:

1)链路上的单向通信配置:指定通信的发送方和接受方

2)链路上的双向通信配置:两个地点的设备可以互为容灾系统

3)交换式SRDF配置:支持在SAN环境系统的1对多、多对1容灾配置

4)并发SRDF配置:一个源数据可以同时向两个容灾系统进行镜像操作

5)动态SRDF配置:支持在线动态改变SRDF的配置,不需停机,可以立即生效

EMC SRDF

1.1.5 SRDF的灾难恢复过程

下面讨论SRDF在各种系统故障出现的情况下是如何进行灾难恢复的,从中可以看出SRDF远程容灾系统的强大功能。

1、现场A磁盘故障

应用继续在CPU A上运行;

读写操作在远程镜像Symmetrix卷上进行;

在控制台显示信息MESSAGE:IEA480E REFCODE E473以及故障盘的地址和数量;

在现场A更换故障盘;

在现场A发再同步命令。当同步完成后会显示IEA480E with REFCODE E461。

2、现场B磁盘故障

应用继续在CPU A 上运行,数据写到现场A source盘上;

显示信息MESSAGE:IEA480E REFCODE E475以及故障盘地址和数量; 为以后重新同步在tracks表中作标识

修复故障盘

在现场 B 发再同步命令。当同步完成后会显示IEA480E with REFCODE

EMC SRDF

E462

3、现场A主机故障

把现场B Target Symmetrix设置为CPU B 可读/写状态。在现场B Target Symmetrix 机上输入命令:F0, CE, ‘RDFU’, ACAAAA;

停止链路Disable links;

在现场B机启动应用;

在现场A主机故障恢复时,发命令:re-IML SYM A, 激活links并重新同步;

把现场B Target Symmetrix设置为CPU B只读状态。在现场B Target Symmetrix 机上输入命令:F0, CE, ‘RDFU’, ACFFFF。当同步完成显示 IEA480E REFCODE E462;

在现场A CPU A启动应用,在SYM控制下正确数据将从SYM A或SYM B读取;

EMC SRDF

4、链路LINK故障

系统将显示IEA480E REFCODE 147D;

如果一条链路仍然完好,远程镜像继续进行;

如果所有链路中断,Symmetrix把将要传送的数据在tracks表中作标识,继续试探链路。一旦链路畅通,Symmetrix自动重新同步,确保现场A与现场B数据一致。

EMC SRDF

1.1.6 SRDF灾难备份方案的特点

1、远程数据备份技术成熟

SRDF远程灾难备份方案在国内外都有大量成功范例,特别地这些成功范例都是运行关键业务的生产系统中,其可靠性得到世界范围用户的认可。

2、功能强

SDRF是目前世界上主要的真正意义上的远程热备份解决方案,其数据安全性是容灾系统的最高境界。

3、实现简捷

由于SRDF方案中只要求EMC Symmetrix企业存储系统之间直接互通,无需对应用作任何修改。

4、连接性强

对业界大多数主机硬件系统,包括大型机,Unix开放系统,WindowsNT和AS/400平台都可连接,适用性强。

5、支持多种通讯方式

支持光纤,ESCON,ATM,FDDI,或超长距离T1/E1,T3/E3连接方式。

6、无其他资源要求

SRDF运行过程中,不占用任何主机CPU,主机I/O通道,系统网络资源,不影响主机业务处理的性能,远程镜像由EMC存储设备独立完成。

7、切换简便

系统切换简单易行,只需几条命令即可。对网点用户透明。

8、镜像方式灵活

SRDF支持通常远程镜方式外,还支持互为远程镜像,以及支持一对多的备

EMC SRDF

份方式,借此,可为多个数据中心,建立统一的数据备份中心。

9、支持多平台同时连接

支持不同平台同时连接,同时做远程镜像备份。

本文来源:https://www.bwwdw.com/article/89um.html

Top