重复数据删除数据库供应商RainStor打算让其分析引擎和企业数据库向Hadoop看齐,而不是让Hadoop的数据向其引擎看齐。
Hadoop正逐渐成为存储海量数据的标准,但大多数商业智能分析软件比如Greenplum、Netezza和Teradata等推出的相关产品并没有为Hadoop文件系统即HDFS提供本地支持,因此数据必须被抽取出来,然后再移动到分析引擎。这个过程需要时间,储存该过程中复制的数据也需要磁盘空间。
RainStor的首席执行官John Bantleman向我们简要介绍了RainStor对Hadoop的支持功能,他说,现有的商业智能分析软件对抽取的Hadoop数据的常规操作通常要花好几个小时的时间,而RainStor的分析引擎支持Hadoop,因此分析数据的速度要快很多,比它说的快10到100倍。在接受这个说法以前,让我们先来看看RainStor的发展历程。
RainStor最初起源于一家名为Clearpace的英国公司,当时还是2008年。该公司的NParchive产品可以将Oracle公司数据库或其他的RDBMS中的那些不经常被访问到的数据进行重复数据删除处理并归档在廉价的SATA磁盘上,重复数据删除的比率为20:1或者更高。SQL数据库的常规运行与NParchive无关,因此没有必要将数据重新释放。
Bantleman将Clearpace带到了硅谷,然后将公司和产品的名称更换为RainStor。第二阶段的开发主要是朝着电信领域前进的,主要是想利用它的数据库来解决每天上百亿网络事件记录的存储问题。
用Hadoop MapReduce来查询某一只股票某一天在纽约股市交易中的平均价格可能需要4个小时的时间,这比利用SQL查询命令在RainStor本地存储的Hadoop数据库中查询的速度快1800倍。
RainStor的其中一家客户是日本软银集团。它储存了2PB的原始数据,那些数据经过压缩和重复数据删除处理后的容量为135TB,数据被储存在HP公司scale-out NAS磁盘整理存储设备上。 它可以在2到5秒的时间里查出某一位用户在一天里所做的事情。传统数据库/数据仓库解决方案可能包括了数个PB的数据,平均每TB数据的平均成本为2万美元,这意味着一个容量为3PB的客户数据库需要花费高达6000万美元的成本。 RainStor/HP公司的硬件系统的价格大约为500万美元。