上面的小标题万一换一种方式,也可以说全备份和增量备份是磁带时代的产物。不知大家对这种说法是不是都认可,接下来请看一下我的解释是否有道理?对于存储备份领域的专家和赛门铁克NBU的用户来说,笔者在此可能有点班门弄斧了。
首先,初始的全备份很好理解,而当过了一段时间数据有不同程度改变之后,按照传统的备份方式用户通常有两种选择:再次全备份和增量备份。选择前者将会重新备份整个数据集,即使有了重复数据删除技术之后,很多情况下还是需要将生产服务器/被保护主机上的全部内容通过网络再次发送至备份软件介质服务器(万一是源端重复数据删除或者在快照功能上与NetBackup集成的阵列,应该不需要传输冗余数据),尽管减少了备份占用的磁盘空间,但备份时间不见得会缩短,处理资源和网络带宽可能也没有节省。
那么,增量备份只会对全备份之后新增加或者改变的数据进行操作,这样就避免了上述反复全备份的一些问题。不过,增量备份在进行恢复到某一个时间点时,必须先恢复全备份,然后按顺序逐个恢复该备份时间点之前的所有增量。万一其中有任何一个失效,恢复就会失败。因此,很多用户都是每周至每个月做一次全备份,其间每天进行增量备份。
再来看一下备份介质。磁带不具备像硬盘移动磁头那样的随机数据访问能力,因此备份、归档软件等对磁带的访问方式通常都是顺序流式读写。LTO-5规范的LTFS文件系统中索引分区的出现对媒体等行业有所帮助,但无法改变磁带本身固有的特点。
对于传统的全备份和增量备份来说,一盘或者多盘磁带连续写入/读出正好符合这样的访问规则。不过到了磁盘时代,万一用户不需要多个恢复时间点的话,原有全备份+增量备份的的方式似乎就不太适合了。
我们认为这就是CommVault、飞康等新兴的数据保护软件厂商力推磁盘解决方案的原因。飞康CDP(连续数据保护)的工作原理类似于建立在精细粒度快照基础上的备份,在一些情况下能够实现很小的RTO(恢复时间目标)和RPO(恢复点目标),这种方式利于实现数据的高可用和容灾。不过根据笔者进行过的测试,完全同步的CDP依赖于网络带宽和备份存储性能,会不同程度的影响生产存储性能(需要等待备份存储也写入返回ok),特别是在通过WAN进行复制时。因此实际使用更多的应该为15分钟左右的异步CDP。
也就是说,备份和CDP仍然各有各的市场。另一种产品——VTL(虚拟磁带库)则是过渡的产物,它无法充分发挥磁盘随机访问的能力。就像有的业内人士所说:磁带备份时代领先厂商的产品系列,比如CA ARCserve、被EMC收购的(Legato)Netwoker、IBM公司 Tivoli Storage Manager(简称TSM),可能还有赛门铁克Veritas,有些不愿放弃原来在磁带设备支持上的“遗产”,希望凭借这个门槛继续赚钱,而不想一下子转向磁盘备份。
但历史的车轮终究是阻挡不住的。随着EMC和NetApp对Data Domain的竞购大战,支持重复数据删除的磁盘备份存储硬件开始受到人们的关注,就连DELL公司这样磁带产品线完全OEM自别人的厂商,也利用收购自Ocarina的数据精简技术推出了DR4000产品线。尽管IBM公司重复数据删除的ProtecTIER系列只是VTL而没有支持OST(赛门铁克OpenStorage API)或者NAS协议,但其TSM软件却比较早的加入了“永久增量”(或称累积备份、合成备份)功能。类似的还有CA Technologies公司(原名CA)在前年、去年推出的ARCserve D2D和ARCserve Backup r16。
赛门铁克NBU 7.5中的NetBackup Accelerator其实也是一种永久增量技术。“只需单击一下即可执行完全备份,其速度和成本与增量备份的相当,同时还不会影响到完全备份的快速恢复。”
对于永久增量原理,笔者是这样认识的:既然备份保存在磁盘上,那么它就是文件系统中的一个/多个对象或者类似的存放形式,而与备份数据相关的文件系统、目录索引等元数据信息也包括在其中。那么当采用新技术的“增量备份”执行时,就可以将变更数据像在被保护系统上生成的过程那样,重复应用到备份存储上,这样就和再次全备份的效果相同了。