恐怕没有哪个存储环境领域会像数据保护领域这样拥有如此之多的产品,这些产品从通用的操作系统保护到专门的应用保护,既有可以在数秒内恢复数据的解决方案,也有要花上数天的解决方案;既有可以删除重复数据以便保存更多副本的备份存储设备,也有保存了所有数据但非常廉价的备份设备。问题是,其中大多数解决方案并没有解决核心问题:主存储中的数据太多了。这些都是权宜之计,并非解决方案。
这种解决方案的问题在于,它们给用户造成了一种貌似安全的假象,导致用户将大笔投资放在看似精密的解决方案和基础架构上。这个问题的根源是,有大量的数据根本不需要进行备份。根据最新的数据研究显示,大多数数据中心的主存储设备都保存着未来6个月到1年之内不会被访问的静态数据。在很多数据中心中,这种静态数据所占比例甚至高达80%。
静态数据问题的影响
大多数数据中心每周或者每个月对整个环境进行一次完全备份。这意味着每次完全备份完成之后,网络中迁移和在备份目标中保存的数据中有80%在过去一年都是没有任何变化的。这个事实使得重复数据删除设备在市场中脱颖而出,这种设备使用块层级的认证来删除冗余信息。
然而有一个挑战是,这些重复数据删除设备并不能解决仍然要在网络中迁移所有数据的问题。因此,实际上这些设备只能对备份存储起到帮助作用。尽管它们是基于磁盘的,但只能大幅度缩短备份所需的时间。除此之外仍然需要在网络基础架构方面的投资,而这可能是很复杂且高成本的。
尽管人们在网络基础架构方面有投资的预算和意向,但是仍然存在着为备份准备所有文件的问题。在备份过程中,应用需要对每份文件进行检查,看它自最近一次备份以来是否发生过变更。这个过程是非常耗费时间的,尤其是那些保存了大量文件的服务器。
另外还有保留方面的问题。在大多数备份系统中,“重要”数据中往往混合着真正“关键”的数据,而真正“关键”的数据中又混合着法规遵从所需的数据。在大多数环境中,不同形式的数据往往具有不同的价值。有时候我们保存这些数据是为了法规遵从,有时候是为了企业内部监管。当所有这些数据与备份数据集混合在一起的时候,我们就很难制订专门的保留规划。因此,大多数企业机构决定将所有数据保存超过必须保存的时间期限,而这进一步加重了负担。这使得数据恢复就像是大海捞针。
最后是找回问题,这也是实时备份的最主要原因。所有静态数据与动态数据都是混合在一起的,因此这就会延长恢复数据所需的时间。例如,将一台服务器恢复在初始状态可能需要恢复1TB的数据,而实际上真正需要的数据也许只有200GB。不管使用什么技术,恢复200GB数据总要比恢复1TB数据快吧。万一除去这些静态数据的话,那么以前需要几天时间的恢复现在可能只要几小时就可以完成了。
利用归档解决静态数据难题
解决静态数据难题的最简单方法就是去掉静态数据,也就是将静态数据从主存储中迁移出来。假设一个环境中的所有静态数据被删除,那么将会释放大约80%的空间。即使不会完全停止存储采购,这种方法也可以大幅加快备份和恢复流程。对于上面那个1TB数据的例子来说,对200GB数据进行扫描、迁移和保存要比1TB数据容易得多了。
当然对于大多数企业机构来说,删除80%的数据不仅是不切实际的,还有可能是非法的。这里我们需要其他的方法:归档存储。通过创建一个归档存储层,IT经理可以将静态数据集从主存储和备份流程中排除掉。因为是单独保存这些数据的,所以可以制订单独的保存策略。备份流程不再需要检查那么多的文件来决定他们的备份需求。这样,不仅备份和恢复流程进一步完善了,在备份硬件和网络基础架构方面的投资也大幅度减少了。
归档并不是一个新理念。自从第一台大型主机问世以来,归档就一直是卸载主存储、减少备份流程负载的一种方法。开放存储和Windows平台很少使用这种技术。最主要的挑战是,大多数归档都是基于磁带的。这种归档需要有复杂且定制的软件以及客户代理。并且,从归档中恢复数据以及在基于磁盘的归档中分类数据也都是非常具有挑战性的。
在最近几年中,厂商们开发出来基于磁盘的归档技术来克服这种局限性。这种归档存储便于访问(通常通过NFS或者CFS加载点)、易于索引并提供了磁带系统无法做到的快速恢复。此外这种归档存储还通过提供更高的可扩展性和可靠性解决了使用廉价磁盘阵列的局限性。
磁盘归档的挑战
基于磁盘的归档也有自身的缺点。一些磁盘归档提供了“类似于磁带”的可扩展性,通过使用1U服务器或者互连存储组成的集群架构实现了这种可扩展性。典型的存储集群在添加节点数量方面是有限制的,所有这些都需要电力、空间和冷却资源的支持,而这会进一步增加成本。
另外,在很多情况下这些系统需要从一个相对大规模的节点部署起步。通常初始容量要求在25TB或者更高,而这对于小型和中型企业来说往往是不切实际的。
最后,在归档存储中,磁盘或者磁带仍然需要管理。我们需要创建、分配和监控存储来确保一切正常,不需要维护或者升级。考虑到当前IT人员的缩减,尽管磁盘归档可以带来诸多好处,但是企业机构可能没有足够的人员来执行这些任务。
利用云存储作为归档
有一个可行的选择,那就是云存储。使用云存储作为归档可以为用户带来很多好处。要想把云存储作为归档的话,大多数企业机构应该寻找这样的解决方案:即使用了本地设备将最近归档数据缓存在本地磁盘以便快速恢复、然后将数据迁移到云存储中作为长期保存。因为大多数云归档解决方案都是付费即用型的,所以这对于规模最小的企业也是一个可行的选择。
此外,一些云归档系统可以直接从API集中写入。例如,有些存储厂商与独立软件供应商合作,允许云归档直接与他们的应用进行集成。这是推动将数据保存到归档存储中的一个理想点。对于用户来说,信息仍然保持最新,提供了关于归档数据集的智能性,同时应用也可以起到帮助作用。
云归档还解决了其他归档形式可能给IT员工带来的操作问题。因为所有物理存储都是外包的,因此数据集管理所需时间为零。此外,这也不需要消耗企业机构的能源、空间或者冷却资源。单是这一点就证明了对云归档的投资是合理的,而其他归档解决方案则无法提供这项保证。