进行数据保护最重要的是能够及时进行可靠且具有成本效益的数据恢复,无论是在本地还是远程,这一点都很重要。
万一你像大多数的IT专业人士一样,那么你肯定已经思考过重复数据删除技术怎样改善数据保护操作这个问题了。你可能已经听说了,厂商们正在利用很多指标使自己的产品与众不同:资源与基于目标的,在线处理和后期处理的,文件级别与子文件级别指纹的,固定窗口与窗口长度可变的,单一的与全局重复数据删除保存的等等,让人们很难作出决定。
做出灾难恢复(DR)操作的决策需要遵循的一个关键指标是恢复所用的时间(TTR)。
探讨关于重复数据删除技术方面的文章有很多,但是“不同的方法怎样影响灾难恢复技术恢复数据所用的时间”这个话题却一直没有得到很适当地解决。随着数据保护操作变得越来越以磁盘为基础,企业把数据从基于磁带的设备上迁移出来时应该大量利用重复数据删除技术和数据复制等技术。
这篇文章我们将了解将备份数据从分散站点迁移到集中式站点,然后为了灾难恢复而再将其迁移到远程站点的整个的系统流程,我们将会按照恢复点目标(RPO)与恢复时间目标(RTO)对以目标为基础的两个主要的重复数据删除架构的影响进行评估,这两个架构分别是在线处理和后期处理。
为了进行这样的一个比较,我们的头脑中需要始终保持的一个重要的观念是:这会影响到灾难恢复的最后结果以及整个重要的数据保护过程的成本;仅仅侧重于对这一过程中的一个或者多个中间步骤进行比较,就足以让你能够充分理解获得底线目标的能力:需要用具有成本效益的做法来满足你的RPO/RTO要求。
在线处理与后期处理
要想说明在线处理与后期处理间的不同之处的最佳做法是描述两者在备份过程中分别是怎么工作的。在这两种情况中,你有自己的备份资源(通常称为“备份客户”)和备份目标。在线处理过程中,重复数据删除设备被定义为备份目标。在数据被写入目标之前将那些处于运行的数据删除;只有经过了重复数据删除操作之后,数据才会被存储起来。后期处理过程中,重复数据删除设备同样被定义为备份目标,但是数据一开始就会以原本的形式被写入磁盘。然后在接下来的过程中会挑选出这些数据,对它们进行重复数据删除,并将其再以重复数据删除形式写入设备中。
在线处理中,重复数据删除过程可能会增加一定的潜伏期,并且在过去人们会有这样的一个担心:在线设备可能会影响备份的性能。而在后期处理重复数据删除过程中,人们需要增加比预先更多的存储空间(以便将备份数据写为“未重复数据删除”的格式)和更多的时间(一旦备份开始,重复数据删除就变成两个独立的连续的进程)来将备份数据处理为重复数据删除格式。
一直以来厂商都在努力解决这一问题,现在市场上有一些在线重复数据删除设备可以500MBps的单数据流技术的速度或者更高的速度来提取备份数据(并将其转换为重复数据删除格式)。这些在线重复数据删除设备可让备份数据提取的性能低于预期(假设在最有限的网络备份情况下)的性能,但是却可带来最高的性能环境。为了后期处理可与备份数据提取操作同时进行,后期处理做法已经进行了一些改变,大大缩减了将数据提取和处理为重复数据删除格式所需的时间。夜间备份工作往往被分为大量按顺序作业的备份工作,在这样的情况下,一些后期处理厂商现在已经可以对全面的备份工作进行重复数据删除,同时他们还可以从其它设备中提取数据。
假设数据一直都停留在磁盘上,那么从备份资源上迁移数据到灾难恢复站点往往需要一个分三步走的过程(备份、重复数据删除和数据复制)。但是需要知道的是,在线处理做法会同时进行备份和重复数据删除,有效地将其分为两步走的过程。
评估人们对TTR认知程度的一些关键的必要因素有哪些?让我们更加深入地认识一下这几个因素:
网络带宽
什么时候和在哪里进行重复数据删除会严重影响备份所需的时间。
在备份环境中,重复数据删除往往会减少10倍到20倍甚至更多的备份工作规模。万一在靠近资源的地方进行重复数据删除,那么重复数据删除的好处可减少一定量的数据,而以前这些数据必须通过LAN/WAN才能实现从备份资源到主站点的传输,例如让更小的更廉价的重复数据删除设备与远程办公室或分支机构(ROBO)的本地备份目标一样进行工作。这个因素能够帮助大大降低带宽和时间需求。这一过程中你会面临的取舍是:备份的同时进行重复数据删除会增加时间的需求,而必须在网络中传输数量明显更少的数据的话又可能会节约大量的时间。网络带宽在这一比较过程中是一个关键的变量。