备份重复数据删除势在必行
IDC曾发布过关于数字宇宙(指由全球所有消费者和企业所创建的数据,包括视频、音频和文件等)未来十年的研究报告。报告指出,在2010年,数字宇宙将达到1.2ZB,或者120万PB。到2020年,数字宇宙将是2009年的44倍。
IDC今年公布的“数字宇宙”调查,2009年总容量0.8ZB,2020年将达到35.2ZB,增长44倍
报告中有一句话格外值得我们注意:当前创造出来的数字信息量比现有的存储容量多出35%,并将在未来几年跃升到60%。
如何弥补这一缺口?或者,至少不让它变得更大?
我们显然不能通过限制信息技术的使用量来减少数字信息的产生,就像时下流行的环保、"绿色"理念一样,要点是减少不必要的浪费,提高效率。
譬如,若不是出于容灾等主动性的考虑,为一份数据保存多个副本,便可视为一种浪费存储空间的行为。不难想到,日复一日的备份操作是制造重复数据的"重灾区"——就算每周做一次全备份,累积下来,重复数据的数量也将大得惊人。因此,重复数据删除(Data De-duplication,常简称De-dupe或"去重")技术最早在备份领域开花结果,完全在情理之中。
重复数据删除技术之因此能节省存储空间,在于遇到重复数据时,不会再次保存,而代之以一个指向第一份(也是唯一一份)数据的索引。看起来,重复数据删除和数据压缩很像,但数据压缩是在单个文件范围内删除重复的数据(代之以指向第一份数据的索引),而重复数据删除把这个概念扩展到跨文件、跨应用、跨客户端,乃至跨时间范围。
确切地说,重复数据删除与数据压缩的主要区别在于:假如你有两个完全相同的文件,数据压缩会对每个文件进行重复数据的排除,并代之以指向第一份数据的索引;而重复数据删除则能分辨出两个文件完全相同,从而只保存第一个文件。并且,它还跟数据压缩一样,排除掉第一个文件里的重复数据,使实际存储的数据进一步减少。
因此,重复数据删除的去重比例,明显高于数据压缩。根据数据类型的不同,重复数据删除率通常在2:1~10:1之间,但在实际应用中,还要考虑使用场合与重复数据删除技术具体实现的因素。以备份应用来说,经过一段的稳定运行后,重复数据删除率能达到20:1至50:1的水平。