最近我们看到了首字母为M,A和Q的技术涌现出来。对于开源爱好者而言,最令他们激动的事情就是关注Hadoop生态系统。
如我们常常看到的,存储需要匹配剩余的IT堆栈。数据集本身需要高度分布。数据和大数据的运算出现在种类繁多的分布式设备上。
并且,由于将运算导入数据比将数据导入运算要容易,所以SMAQ堆栈的存储部分需要确保所有未结构化数据和半结构化数据的安全而有效地分布到所有运算节点,且既可以被扩展也可以满足高性能的要求。这意味着大数据必须:
a) 在广布于互联网的各种商业设备上运行
b) 为与分析相关的密集式数据处理提供性能帮助
c) 避免设计失误,如集中式元数据存储以及大量遗留系统将存储大小限制在16TB
d) 允许在相同硬件上出现运算和存储功能。综上所述,将运算迁移到存储的成本更低。不过万一存储被锁定那就会有些麻烦。
e) 扩展至PB级别甚至是EB级别。
结论:专属与整体的存储方法不适合大数据。不过,随着大数据SMAQ技术的不断发展,相信大数据存储和存储效益方面的价值会被充分地释放出来。