重复数据删除(Data deduplication)显然是存储行业近年来最热闹的技术,它消除了传统备份技术衍生出的重复存储数据问题,进而为企业节省成本。然而,今日的企业面临的数据保护问题相当复杂,备份数据重复储存的问题仅仅是冰山一角,但在某些重复数据删除厂商的华丽包装下,这一技术成了解决所有数据保护问题的“万能药”,导致用户对重复数据删除产品过多的期望,在对技术本身了解不够、欠缺全盘考虑的情况下便贸然部署了重复数据删除方案,结果却往往不如预期,甚至付出比省下的磁盘还要高的成本,因小失大、得不偿失。
用户在选择具备重复数据删除技术的产品时,如何针对真正需求理性做出判断,而不被销售广告和专业术语所迷惑呢?不妨参考以下五项建议:
不要掉入重复删除比率的迷局
几乎所有重复数据删除产品厂商都会强调自己可以达到多高的重复数据删除比率,有些甚至宣称可以达到500:1这样不可思议的数据。事实上,重复数据删除比率完全取决于数据的类型和备份策略,跟技术本身的关联并不大。举例来说,万一数据的类型为Office文件、电子邮件,由于数据结构本身的重复性高,能被删除的部分自然就比较多,万一是已经压缩过的影音、图片等文件,重复数据删除的效果就相当有限;采用全备份的重复数据删除比率,也远大于增量或差量备份,因此,比较不同产品之间的重复数据删除比率其实是没有意义的,更不能借些来判别产品的优劣。
不能影响服务器性能
某些采用资源端重复数据删除技术的解决方案,必须在生产服务器上安装代理程序来执行重复数据删除,无可避免的给生产服务器造成了相当大的性能负担。任何改变传统的数据保护方式,都必须建立在不影响系统运行的前提下才能被接受,换句话说,服务器的性能绝不能受到数据保护方案的牵制(无论是应用服务器还是,因此在这个前提下,目标端重复数据删除技术才是最理想的选择。以飞康最新推出的FDS为例,只对备份到FDS内的数据进行分析比对,然后再删除重复数据,前端服务器不需要安装代理程序,所有运行负载也都集中在FDS上,重复数据删除工作对生产服务器的性能毫无影响。
在线处理不一定比后处理好
重复数据删除技术依据数据处理方式的不同,分成备份与重复数据删除同时执行的在线处理(Inline),以及备份完成后执行重复数据删除的后处理(Post processing)两种,有些厂商宣称在线处理才是最先进的技术,这其实是错误的观念。
事实上无论采用哪种数据处理方式,绝大多数重复数据删除技术都是基于业界标准的哈希算法(Hash),仅有少数采用自主开发的专利技术,其运行方式也都大同小异:追踪核对数据区块,当新数据写入硬盘前先经由系统的扫描与核对,判定硬盘上是否存有相同的副本,万一有的话,这部分数据将只存入一个指向该副本地址的指针,不会重复储存,进而达到节省磁盘空间的目的。两者的差异在于,在线处理运用了大量的内存作为数据写入硬盘前的缓存空间,后处理则是先将备份数据写入硬盘后,再进行分析比对,然后删除重复数据。
乍看之下,在线处理似乎是效率比较高,但是,有两个问题不可忽视:
1. 数据处理速度慢:在线处理在备份资料写入前,必须先暂时存在内存中执行内容比对与删除演算等工作,这些动作会消耗大量CPU资源,亦会不可避免的拖慢备份速度,某些产品的备份性能甚至比磁带机还差,这样很容易导致备份窗口不足,能在要求时限内完成备份的数据量也相对变少。
2. 可靠性令人担心:在线处理方式由于是在数据写入磁盘的同时进行比对、删除重复数据、保留文件指针,没有校验、核对的机制,也就是说,没有厂商敢保证文件经过重复数据删除后,恢复时的数据是100%正确无误的,万一数据处理的某个环节出现错误,系统内储存的备份数据就只是一堆无法识别的代码,不得不令人担心其可靠性问题。
相比之下,后处理方式的重复数据删除技术就不用担心性能和可靠性的问题了。还是以飞康FDS为例,由于备份数据传输过程不受重复数据删除运行程序的干扰,能充分发挥高速磁盘的I/O处理能力,万一搭配备份服务器的Hosted backup主机式备份功能,还能运用服务器内部的高速链路取代速度较慢的以太网,消除备份服务器到存储系统间的传输瓶颈,进一步提升备份的性能。在可靠性方面,FDS即将推出的一致性校验功能(Self integrity check),可在备份数据写入磁盘并执行重复数据删除后,进行文件指针与单一存储区块比对的工作,万一发现有任何错误便会自动修复,确保所有处理过的备份资料都能正确恢复,系统可靠性与数据安全性更有保障。
不应局限在单一应用
当前市场中具备重复数据删除功能的解决方案,在架构和技术上或有不同,但应用范围几乎全都集中在数据备份领域,换而言之,这些产品本身不是备份软件就是必须搭配备份软件才能使用的硬设备。然而企业内部存在重复冗余数据的岂止只在备份?散落在各个部门的文件服务器内的非结构性数据(其中以Office文件居多),在经年累月不断增加之下已经累积了相当多的重复数据,在企业不具备完善的数据分级存储与归档机制的情况下,管理员面对文件服务器数据量不断增长的问题,也只能消极的以扩展硬盘空间的方式应对。换个角度想,万一文件服务器能够利用重复数据删除技术,理论上就可以有效的抑制这个问题,可惜的是大多数的重复数据删除方案受限于技术和性能,功能 上只能局限在备份应用。
飞康FDS则突破了“重复数据删除只能用在备份”的局限,提供了基于管理策略的重复数据删除功能。这个功能允许管理员在设定FDS的网络共享文件夹时,根据文件大小、被读取或修改的频率来定义是否进行重复数据删除。举例来说,管理员可以设定30天内未曾被用户存取过的文件,在时间到达后自动执行重复数据删除。大多数的情况下,文件服务器内的数据被存取的机率会随着时间而递减,经常被用户使用的文件由于不会执行重复数据删除,可以快速的存取、修改而不受文件重组的程序影响性能;不常使用的文件可以通过重复数据删除,减少占用的磁盘空间,便于存储更多的文件数据,可谓一举数得。
远程复制与全局重复数据删除能力不可少
除了节省存储空间外,重复数据删除技术与远程复制相结合,则可以消除通过网络执行远程备份时,一再传送重复数据而造成的带宽浪费的问题,进而达到广域网优化的功效。用户不需要投资昂贵的专线,就能建立两地之间的异地备份。对于许多有分公司、远程办公室或分支机构的企业来说,还能借此建立多网站远程集中备份,可兼具节省带宽和存储空间的双重效果,这也是重复数据删除技术之所以吸引这么多厂商的重要因素。但是,并不是所有厂商现在都能提供足够成熟的技术,因此,大部分重复数据删除+远程复制方案仍有限制。
某些的重复数据删除方案本身并不具备远程复制技术,数据经过处理后必须利用其他软件或磁盘阵列的复制功能,才能将数据传送到灾备中心。这不仅要求用户必须购买更多的设备才能实现异地备份,万一用户具备多个远程站点需要进行集中备份受到的限制则更多,徒增项目实施的复杂程度与成本。
飞康FDS采用了只有企业级VTL才有的全局重复数据删除(Global Deduplication)技术,是市场上少数完全整合重复数据删除与远程复制的方案,不仅支持一对一、多对一远程集中备份环境,远程网站和数据中心的FDS通过比对单一存储区内有无相同数据,仅复制和传送单一数据,在20:1的重复数据删除比率下,可以节省95%的网络带宽占用。在数据中心,用户可以采用能够外接不同厂商磁盘阵列的FDS网关设备,利用超大容量的单一存储区和高速磁盘存取优势,彻底消除远程网站之间备份的重复数据,充分发挥重复数据删除技术的同时,节省成本、提升性能。