取消
搜索历史

    基于NetApp存储系统的重复数据删除实战

    来源:存储网 2011-06-21 22:53重复数据删除

    NetApp 早在 2007 年就推出了重复数据删除技术,该技术可显著降低存储容量要求。利用 NetApp 重复数据删除技术可找到相同的数据块,在执行字节级验证检查之后,以引用单个共享块的方式将其替换,从而提高效率。该技术可删除位于相同卷或 LUN 中的冗余数据块,从而降低存储容量要求。

    NetApp重复数据删除技术介绍

    NetApp 重复数据删除是NetApp Data ONTAP 操作环境和WAFL 文件系统(管理NetApp 存储系统中的所有数据)不可或缺的组成部分。重复数据删除“在后台”运行,而与所运行的应用程序或访问数据的方式无关。此外,其开销极低。

    人们经常会问及的一个问题是:“你们能节省多少空间?”,我们稍后将就此问题进行详细说明。但一般来说,节省多少空间取决于数据集大小及其包含的重复数据量。下面,我们通过亚特兰大 Polysius Corporation 公司的例子,来看看 NetApp 重复数据删除在企业数据与工程数据组成的混合环境中的价值。该公司从事新水泥厂的设计和老水泥厂的改进工作。

    其生产方面的存储要求每年增长多达 30%。通过对 AutoCAD 文件、Microsoft Office 文档及其他非结构化数据组成的混合环境执行重复数据删除,Polysius 回收了 47% 的存储空间。有些卷中的数据减少了多达 70%。最后,该公司推迟了新存储设备的采购,并且成功使备份数据在磁盘上的保留时间延长了一倍。

    NetApp 重复数据删除的一些明显优势包括:

    • 在 NetApp 或第三方主存储、二级存储及归档存储设备上运行

    • 不依赖于任何应用

    • 不依赖于任何协议

    • 开销极低

    • 在 NetApp FAS 和 V 系列存储系统上都能执行

    • 逐字节验证

    • 既可用于新数据,也可用于以前存储在卷和 LUN 中的数据

    • 可在非高峰期运行

    • 与其他 NetApp 存储效率技术相集成

    • 使用 SnapMirror 或闪存时,可继承重复数据删除实现的空间缩减

    • 简单的评估工具

    • 免费

    这部分的“基础知识回顾”介绍如何实施 NetApp 重复数据删除、最常见的用例、重复数据删除的实施方法等。

    在Data ONTAP 中实施重复数据删除

    从本质上讲,NetApp 重复数据删除依赖的是一项成熟的计算机科学技术 — 引用计数。过去,Data ONTAP 仅跟踪数据块是闲置还是在使用。现在,借助重复数据删除,它还能跟踪数据块的使用次数。对于 NAS 和 SAN 配置,借助重复数据删除,单个块最多可引用 255 次。文件不“知道”它们在使用共享块 — 在 WAFL 中进行记录能以不可见的方式管理这些详细信息。

      ▲图 1) NetApp 重复数据删除的工作原理。

    Data ONTAP 如何确定两个块可以共享?答案是它会计算每个块的“指纹”,也就是块数据的哈希值。指纹相同的两个块便适合共享。

    启用 NetApp 重复数据删除之后,它会计算卷中所有在用数据块的指纹数据库(此过程称为“收集”)。完成此初始设置之后,即可对数据执行重复数据删除。

    为避免减慢常规操作的速度,重复数据搜索作为单独的批处理任务来执行。在正常使用期间,WAFL 会在写入数据时创建该数据的指纹目录。该目录一直积累,直到存储系统管理员确定的以下任一事件触发重复数据删除为止:

    • 手动发出重复数据删除“启动”命令

    • 开始执行计划的重复数据删除过程

    • 卷中写入了 20% 的新数据

    • 当 SnapVault 传输完成时

    启动重复数据删除过程之后,以更改的块的指纹作为键值开始排序操作。然后,此排序列表将与指纹数据库文件合并。只要两个列表中存在相同的指纹,就有可能将相同的块合并为一个。在这种情况下,Data ONTAP 会弃用其中一个块,而以引用另一个块的方式将其替换。因为文件系统时刻在变,只要两个块确实仍在使用且包含相同数据,我们当然就可以执行这一操作。为确保两个块确实相同,在确定适合重复数据删除的块之后,会进行逐字节比较。

    NetApp 重复数据删除的实施利用了 WAFL 的一些特殊功能,可以最大限度地降低重复数据删除的成本。例如,磁盘上的每个数据块都使用校验和进行保护。

    NetApp 使用该校验和作为指纹的基础。由于无论如何都会计算校验和,相当于“无偿”获得,因此不会给系统增加任何负担。且由于 WAFL 从不覆盖正在使用的数据块,因此在释放数据块之前,指纹将保持有效。NetApp 重复数据删除与 WAFL 的紧密集成也意味着更改日志的操作将会非常高效。其结果是:重复数据删除可用于大量的工作负载,而不仅仅用于备份,这与其他重复数据删除实施方案是不同的。

     

    (文章为作者独立观点,不代表存储网立场,版权疑问请联系客服。)
    关于我们| 隐私条例| 版权申明| 联系我们

    2018-2022 Copyright © Stor.com.cn