CIO智库 |中国存储网 |医疗软件网 |IT技术网 |容灾网

存储网

搜索历史

热搜词

大数据是可重复数据删除的？

来源：存储网 2011-10-07 14:53大数据

我们所谈论的“文本”大数据，如日志或者从不同的来源(如网络、信贷机构、Facebook)收集的信息，它们都是高度可压缩的。事实上，大多数数据仓库产品都是基于column的压缩，以达到较高的重复数据删除比率和提高性能。毕竟，最快的I/O是你不必实现的I/O。

重复数据删除数据的结果是提高缓存利用率，而降低磁盘I/O。重复数据删除可用于任何规模的数据;只是当前大多数重复数据删除产品还不能处理大容量的数据，但这并不意味着不能实现。

当我们从整体存储角度来考虑，而不仅仅是从专业数据库的角度考虑时，Rob Peglar对于元数据的担忧就是有道理的。但也有许多的解决方法。

微软曾在名为“ChunkStash”的技术研究中提出了一种减少重复数据删除对RAM需求的方法。这种方法在RAM中仅为每个记录分配2个字节。

而复制节点之间的元数据问题可由初创厂商Scality提供的方法来解决，它使用DHT(Distributed Hash Tables)来处理元数据的分布。这与P2P(端对端)系统处理PB级规模数据所使用的技术是一样的。

从性能的角度来看，Scality并没有Isilon高效，但它提供了一种可能解决该问题的方法。

NetApp采用的方法和Isilon的方法一样“高性能”，并且是以更加简单的方式来解决这个问题，它并没有重复删除元数据的复制。重复数据删除在单个节点上实现，而集群更加智能于聚合同类型的文件。这对性能和重复数据删除都更加有利。

而诸如Vertica和Greenplum的数据库也得益于数据的位置。它们并不使用全局重复数据删除，却获得了可观的压缩比。

由DELL公司收购的压缩/重复数据删除厂商Ocarina曾展示过如何从意外的文件(比如图像和视频)获得更好压缩率的方法。该方法可以用于像石油和天然气这样的行业，它们的数据曾长期被认为是不可能达到良好的压缩率。

许多其他厂商处理数据的方法可能会获得更高的压缩率。来自IBM公司的Jesse Jonas曾介绍了如何堆积数据的方法，这是一种非常不错的数据精简算法。

压缩和重复数据删除将在大数据中起到举足轻重的作用;这一切都将关于与经济。正如Steve Duplessie所指出的那样，下一代存储之争将围绕着经济所展开。万一你的系统相比竞争供应商的系统需要更多数据级的存储，那么你就难以去竞争。

（文章为作者独立观点，不代表存储网立场，版权疑问请联系客服。）

关于我们| 隐私条例| 版权申明| 联系我们