重复数据删除技术大大提升了基于磁盘的数据保护策略、基于WAN的远程分公司备份整合策略、以及灾难恢复策略的价值主张。这种技术能识别重复数据,消除冗余,减少需转移和存储的数据的总体容量。
一些重复数据删除技术在文件级别上运行,另一些则更加深入地检查子文件或数据块。尽管结果存在差异,但判断文件或块是否唯一都能带来好处。两者的差异在于减少的数据容量不同,判断重复数据所需的时间不同。
文件级重复数据删除技术
文件级重复数据删除技术通常也称为单实例存储(SIS),根据索引检查需要备份或归档的文件的属性,并与已存储的文件进行比较。万一没有相同文件,就将其存储,并更新索引;否则,仅存入指针,指向已存在的文件。因此,同一文件只保存了一个实例,随后的副本都以“存根”替代,而“存根”指向原始文件。
块级重复数据删除技术
块级重复数据删除技术在子文件的级别上运行。正如其名所示,文件通常被分割成几部分——条带或块,并将这些部分与之前存储的信息予以比较,检查是否存在冗余。
最常见的检查重复数据的方法是:为数据块指定标识符,例如,利用散列算法产生唯一的ID或“足迹”,标识数据块。然后,将产生的ID与集中索引对比。万一ID已经存在,就说明以前曾处理并存储该数据块。因此,只需存入指针,指向之前存储的数据。万一ID不存在,就说明数据块独一无二。此时,将ID添加到索引中,将数据块存储到磁盘中。
每个供应商检查的数据块大小各不相同。一些供应商固定数据块的大小,一些则使用不同大小的块(有一些甚至允许终端用户改变固定块的大小,这会令人更加困惑)。固定块的大小可能为8 KB或64 KB,区别在于块越小,被判定为冗余的几率越大。这也就意味着消除的冗余更多,存储的数据更少。固定块只存在一个问题:万一文件发生变化,而重复数据删除产品依然利用上次检查到的固定块,那就可能无法监测冗余部分,因为文件中的数据块已被改变或移除,而利用的固定块仍是变化之前的,剩下的比较就没有意义了。
各种规模的块能够提高普通冗余的监测几率,尤其是在文件发生变化以后。这种方法能够监测文件中可能发生的实样模或断点,从而分割数据。即使文件变化,数据块被转移,这种方法也能发现重复的数据。不足之处呢?这种方法能改变块大小,需要供应商追踪并比较多个ID,因此会影响增大规模、增加计算时间。
文件级技术和块级技术不仅在运行上存在差异。两种方法各有优缺点。
文件级删除技术的效率不如块级技术的情形:
文件内部发生变化,就会导致整个文件需要重新存储。PowerPoint报告等文件可能需要改变一些简单的内容,例如改变首页,以显示新的报告人或日期,这也会导致整个文档需要重新存储。块级重复数据删除技术只存储文件的某个版本和下个版本之间发生变化的部分。文件级技术的压缩比一般小于5:1,而块级技术能将存储的数据容量压缩20:1甚至50:1。
文件级删除技术的效率高于块级技术的情形:
文件级重复数据删除技术的索引非常小,在判断重复数据时只需花费很少的计算时间。因此,删除过程对备份性能的影响很小。由于索引小、比较次数少,文件级删除技术所需的处理负荷较低。对恢复时间的影响较少。块级删除技术需要利用主索引匹配数据块和该数据块的指针,从而“重新组装”数据块。而文件级技术存储的是独一无二的文件以及指向该文件的指针,因此很少需要重组。