与基于文件的重复数据删除解决方案相比,在SUBFILE或数据块级分析数据的方式删除的冗余数据会更多。比如,一个4MB大小的文件被修改了一行内容,万一是文件级解决方案,整个4MB的文件都必须再被保存,而存储上就需要保存两遍。万一这个文件被发送给多个人(这种情况非常普遍),这种负面的效应也会随之倍增。
大多数SUBFILE重复数据删除处理是通过将大量的数据分割成“块”,就像虚拟磁带匣一样,在相对小尺寸的数据块中搜索重复数据。分割成大块的数据处理速度更快,但发现的重复数据也比较少;而分割成小块的数据可以更轻松地发现更多重复数据,但它在扫描数据时所需的开销也会更高。
万一数据在磁带(或其他应用的数据流)的时候就被分割成“块”,重复数据删除处理在备份软件创建的元数据上就能进行。优秀的解决方案可以分离元数据,从而在分割成“块”的实际数据文件中发现重复数据,这种方式使找到重复数据的机率更高。有些重复数据删除解决方案甚至可以按照所掌握的数据格式来调节分割的“块”的大小。万一能将这些技术结合应用,将使发现的重复数据数量大幅增加。这在重复数据删除解决方案的经济效益标准方面影响重大。