存储网 |中国存储网 |存储论坛 |灾备网 |容灾网

存储网

搜索

搜索历史

热搜词

EDA
光刻机
等离子刻蚀机

利用重复数据删除技术进行数据恢复

来源：存储网 2011-08-05 09:00容灾/BCM

曾经有一个公司忽略更新灾难恢复规划的例子。结果导致数据存储不断扩大。四年之后，数据增长使得磁带存储过程完全不能实现RTO。发现问题后，它的解决方案是更换恢复技术，从线性磁带存储改为异步复制存储。而异步复制存储位于距离主数据中心400多英里，这样的解决方案会花费更多的成本。

在如今的经济体制下，很少有IT公司对这种变更做预算。并且，磁带存储总是比备份慢。业界一直侧重于磁带备份时间窗，所以恢复时间往往迷失。你什么时候见过厂商公布其技术的恢复时间？我想是没有厂商会这样做的。

在市场上有很多相对新兴的技术，万一与某些技术相结合，可以在实现RTO的过程中避开一些昂贵的解决方案。我们看看如下这些技术：

重复数据删除

近来，生产商们都谈论重复数据删除(Data deduplication)技术。万一你还不知道这项技术，你应该了解一下。重复数据删除是压缩的更高形式，能找出文件系统内的重复文件。这项技术也可在数据块级得到应用——找出磁盘卷内重复的数据块。那么，它到底有哪些好处呢？它可以找出并删除存储卷中重复的文件或数据块，并用指向“主数据文件”或“主数据块”的指针替代这些重复数据。这样，存储的数据量就大大减少了。此外，它还可以与传统的文件压缩技术相结合，压缩“主文件”的大小。

那么，重复数据删除可以帮我们处理整个数据中心的所有数据吗？答案是否定的。这项技术对没有组织的数据尤其管用——那些存储员工办公生产文件的文件服务器。想想这样的情景：当人力资源部对职员发送福利公开计划信息时，大多数职员都会保存此信息。这样，同一信息的复本数几乎就和职员人数一样。更糟的是，你在灾难恢复时不得不保存所有这些信息数据。对于结构组织良好的数据信息，重复数据删除的效果又怎么样呢？有些数据库由一些大型的文件组成，因此文件级的重复数据删除不会有什么帮助。但是，数据块级的删除可以帮助减少数据，只是减少量可能不会太大。不过，如今哪怕是能够减少一点点也会有帮助。那些有相同数据块的类似数据库可以进行重复数据删除。然而，重复信息较少的数据库不会收到太明显的效果。

大多数备份、存储商的最新产品都包含了重复数据删除。所以，你应该考虑考虑产品更新，以便能利用这些功能，尤其是删除结构混乱的数据卷。数据越小，执行灾难恢复时所需恢复时间就越短。

存储分级

存储分级(storage tiering)也可以缓解数据增长。旧的数据被放到第二级存储(secondary storage tier)。有些产品能分离第二级存储，帮助实现RTO。这个过程涉及到数据分类，这意味着一级存储(primary storage tier)中的信息是最重要的，也是RTO需要的信息。二级存储的信息不如一级存储的信息重要，可以晚些再对其进行恢复。旧数据不是日常业务所需的必要信息，但也是必须要的信息，可以推迟一点再恢复。让我们看一个例子。一个结构混乱的数据卷通常只有20%的数据是经常要使用的，80%的数据是6个月甚至更长时间之前被访问过的。利用存储分级可以使主要数据的恢复速度提高5倍，轻松实现业务RTO。然而，不要忘了还有二级存储数据，它最后还是需要恢复的，只是可以晚一些而已。

很遗憾的是，允许分别恢复一级和二级数据的数据存储分级解决方案的数量很有限。因此，一定要与分级存储商核实好，确保一级数据可以在没有二级数据的情况下单独恢复。在不久的将来，会有更多的存储分级解决方案出现。

数据管理策略

公司的数据管理策略(Data management policies)也可以帮助实现RTO。在理念上，数据管理策略与存储分级比较相似，它包括公司旧数据的删除策略——有些旧数据存储到磁带、DVD等媒介后，可以从数据库删除。这样的策略通过移除旧数据以控制有效数据卷(Active Data Volume)的大小。超过一定时长的旧数据和数据库记录会被自动删除。依据数据类型和重要性，策略在处理数据时需要坚决果断。尽管很多财务记录是必须永久保留的，但大多数记录是不需保留在活性存储器(Active Storage)上超过3年的。一个数据文档就足够了。通常，终端用户办公生产数据在活性存储器的保留时间不需超过18个月。这些策略很大程度上取决于业务范围和其它制度要求，因此这些方法可能不会在所有情况下都适用。

数据管理策略的缺点是它需要一定的管理和审计。删除已存档的数据可能导致一些制度问题。万一是合法的保留，联邦民事诉讼规则(Federal Rules of Civil Procedure)会拒绝删除。另外，搜索引擎技术可能使所有的数据看起来都是最近被访问过的。搜索引擎必须打开并读取整个文件，创建索引。所以，一定要确保你的搜索技术会记录下已建立索引的文件。否则，自动删除系统将永远也找不到最近没被访问过的文件。

万一数据增长速率太快，以至于这些措施只能赢得少量时间，你将需要执行其它可选技术，以确保满足RTO。

（文章为作者独立观点，不代表存储网立场，版权疑问请联系客服。）

重复数据删除技术