主要文件系统存储优化(也就是在同样的空间塞进更多的数据)继续在日益普及。这里的挑战是主存储的重复数据删除并不是没有规则的。你不能删除这个重复的数据,也不能删除那个重复的数据,你必须要认识到删除重复数据之后对设备性能的影响。
EMC已经宣布了在自己的Celerra平台上删除重复数据的功能。NetApp使用这个功能已经有一段时间了。其它厂商也以积极的方式增加这个功能,其方法是在数据不流动之后对数据进行压缩和删除重复数据。然后,Storwize等公司一直以在线实时压缩的方式提供这种功能。
正如存储虚拟化和精简配置已经证明的那样,当你不必妥协的时候,主存储将更好。为主存储强加一些条件的问题是事情会变得更复杂。这种复杂性会导致人们不适用这个技术。技术越透明和越通用,取得成功的机会就越大。
一些主存储优化的挑战是它基本上依赖于你拥有的数据类型和访问那个数据的工作量。删除重复数据要产生一些好处的话,显然必须要有重复的数据。因此,每个星期进行完整的备份是删除重复数据的理想的应用程序。另一方面,主存储不都是重复的数据。
除了主存储之外,删除重复数据还与繁重的输入/输出任务和随机的读/写输入输出有关。在这些情况下,用户也许会感受到应用重复数据删除的性能影响。
因此,大多数厂商建议把这个技术的应用限制在家目录(home directories)和VMware镜像方面,因为这些地方数据重复的可能性非常高,工作量主要是读数据。
特别是不要在数据库中使用删除重复数据的功能。人们担心,数据库中有大量的重复的数据,删除重复的数据会对性能产生影响。正如我们在数据库存储优化的文章中指出的那样,减少Oracle公司数据库数据、联机和实施压缩解决方案也许更适合这里。数据库是最适合压缩的,无论是否有重复的数据,实时的压缩在大多数情况下都不会对性能产生直接的影响。
随着数据增长继续加快,将需要更多的数据优化。使用多种技术也许是阻止这个潮流的唯一途径。压缩也许会广泛地应用。作为应该应用于具体工作量的删除重复数据的补充,这种删除重复数据的做法应该应用于存档,并且不在主存储中使用。所有这些都需要能够提高人员效率和资源效率的工具。