最近几年,重复数据删除软件变得更加可靠和实惠,提供给使用重复数据删除硬件设备的用户一个可行的选择。但是,根据用户和分析师的反馈,重复数据删除硬件对很多企业来说仍然是不错的选择。
Forrester研究机构的分析师Rachel Dines认为,一般来说,重复数据删除硬件对那些存储了大规模数据以及需要高吞吐量的较大公司更具有吸引力。“软件和硬件设备中的重复数据删除算法几乎一样。”她说。另一方面,Dines认为重复数据删除硬件不仅仅是在磁盘上运行了软件,并且为数据的重复删除进行了优化。重复数据删除硬件还具有日常的自我管理优势,因此能够进行自动配置。并且,大多数设备具有不同的接口与备份软件交互。
“这些功能第一次出现在虚拟磁带库上,提供磁带仿真减轻技术上的过渡。现在,在类似赛门铁克开放存储(OST)应用接口的发展下,重复数据删除硬件能够匹配连接备份软件,以及提供更小粒度的管理功能,”她说。Dines还提到,几乎所有的大型备份厂商,例如,CommVault的Simpana、EMC的NetWorker,IBM公司的Tivoli(TSM)管理系统和赛门铁克的NetBackup,都会在他们的软件中提供源和目标端重复数据删除功能。
然而,“一般源端的重复数据删除不能很好的运行在数据库或者其他事物性系统上,因为它会在主机端增加处理负载,可能高达25%。当这些类型的应用在目标端进行重复数据删除时就不会产生那种负载了,无论是硬件还是软件的重复数据删除。”她解释说。
她说,由于现在很多软件备份产品具有源端和目标端的重复数据删除功能,许多企业会往那方面迁移。但是,重复数据删除硬件,例如EMC的Data Domain,是不会消失的,它们会往上流具有大环境的大公司方面发展,尤其是那些应有PB级容量的。
重复数据删除硬件不只适合于企业级
密歇根州的一个中等规模机构,杰克逊市学区中学,打算使用重复数据删除硬件,根据他们的意愿,采用了Exagrid系统公司的设备。Greg Wade,学校的网络工程师,在安装Exgrid前说,他们正在备份SAN中的一个LUN。Wade说,使用“传统”的赛门铁克备份系统,他只能维持已保存的9TB数据10天。
Wade说,一开始他们考虑过EMC的重复数据删除设备,但是他们认为太贵了。因此。他们考虑使用Exgrid,并且认为价格实惠,选择了一个4TB容量的系统。“我们那样做了之后,就能够立即保存12周的数据,完全解脱了。我们将设备放置在我们的离线数据中心。”他解释说。
Wade说,由于本地区拥有私有的光纤连接,速度上的没问题的。一年后,为满足增长需求,他又增加了一台Exgrid设备。为方面管理,两个设备级联为一。Wade说,两个设备单元之间,学区以7:1的压缩率备份了60TB的数据。
在管理上,“基本上配置好它就不用管了”,他说。这个机构仍然使用赛门铁克的备份系统。“我们需要做的就是当在Exgrid上创建一个共享存储时,改变目标的位置。”他补充道。
当然,使用重复数据删除硬件也会立即提升备份速度。“在使用Exgrid前,我会在周五的下午5点启动备份,到了周一它仍然在运行。他们运行了整个周末。现在,我拥有了各种选择的余地。备份会在周日完成并拥有足够的空间,因为任务不都需要运行端到端。因此,对于我们减小备份窗口是至关重要的。”他说。
重复数据删除硬件VS软件:哪一种最适合您的企业?
GlassHouse 技术公司的高级战略顾问James Brissenden说,有多种办法可以完成重复数据删除。然而,他认为用户通常会从硬件设备中获得更多的性能。“在有大量数据存储的地方,硬件设备显得格外有用,”他补充道。
Brissenden认为,当你考虑选择硬件还是软件时,首先要看你当前使用的是什么备份软件以及你的性能需求。有可能当前使用的软件功能能够满足你对重复数据删除的性能需求。数据复制是需要考虑的另外一件事,他补充道。“你可能想配置重复数据删除系统使数据离线以进行容灾恢复——有些备份硬件平台提供数据复制而有些不会。”他解释说。
Brissenden建议对竞争性的重复数据删除比率宣称保持谨慎。“有许多夸张战术在里面,实际上比率大多数是由数据的属性决定的,”他说。
同样,Brissenden说,支持赛门铁克OST应用接口也非常关键,特别是使用虚拟化时。“你可能需要创建副本,并且使你的应用程序和重复数据删除硬件‘感知到’,”他补充说。
Dines最后说,重要的是要记住,所有的重复数据删除基本上都是软件,但在备份环境中有两种不同的实现方式:与硬件集成(例如,EMC DATA Domain或者IBM公司 ProtecTIER)或者与软件集成(TSM,NetBackup,等等)。Dines说,重复数据删除功能的磁盘库通常在5000美元到7000美元每可用TB(重复数据删除前)。软件产品通常附件到备份软件中,当然,他们不包括进行哈希处理的运算资源(万一是源端的,将来自于主机,或者是媒体服务器,万一是目标端的),也不包括实际的存储,“因此,很难以TB作为基准对两者进行比较,”她说。