就在去年刮过云计算之风,其中部分“泡沫”已经破裂,人们的关注度有些下降之后。大数据这个概念又被一些厂商“利用”为宣传利器,EMC作为其中的代表从去年EMC World 2011大会就开始发动了攻势。
可能是由于工作经历的缘故,笔者对云计算、大数据,包括由后者而提出的CDO(首席数据官)这些新的热点话题,其中偏概念而非具体技术的部分,在一段时间内持谨慎旁观的态度。从用户的需求来看,真的是“老同志遇到新问题”了吗?当然IT技术、应用模式的发展,对业务不断提出了新的要求。海量增长的非结构化、半结构化数据中确实有值得挖掘的价值,但这并不等于人们就要一下子更换全新的方法、工具来处理它们。就像需求是渐进式的增长一样,业务的变革也是渐进式的。
在《纪录中国——企业存储的自主之路》一文中,笔者曾经谈到了一些国内存储品牌自主的研发理想和OEM转销的现实。而这篇文章我想以部分厂商为代表,“批判”或者说“揭露”对大数据宣传背后的实质内容。其中可能不完全是肯定的,总之希望读者能够更全面、客观的看待大数据这个概念。当然,我的评论中也可能会有不当之处,欢迎大家提出不同意见,批评指正。
大数据世界论坛:2011和2012的不同
首先,我想提一下去年和今年在北京举行的大数据世界论坛(BIG DATA World Forum)。个人感觉今年参与(赞助)的厂商没有去年多,也相对缺乏有新意的话题。
退出的几家厂商大致包括:比如说Teradata(天睿),去年他们谈的数据仓库;IBM公司 Netezza的资深专家去年发表了精彩的演讲,他们的产品也属于一种新型的数据仓库,与Teradata的通用x86硬件相比增添了FPGA(现场可编程门阵列)芯片来加快数据从存储中调出的筛选速度;SAP去年还不否认他们的HANA内存计算方案属于“大数据”,而今年就开始宣称“大数据是个谎言”——传统列式数据库就能很好地处理大数据。
还有EMC。这里倒不是说EMC不再重视大数据,而是就Greenplum核心产品线本身而言并没有太多的变化——仍然分为Greenplum Database(数据仓库)、Greenplum HD(Hadoop分析)和Greenplum DCA(数据计算设备),后者还是基于高性价比的工业标准x86服务器的MPP(大规模并行处理)分布式可扩展架构。站在厂商的角度,万一没有更多的新鲜东西,过多的投入资源来重复宣传显然不划算。因此EMC将其Atmos云存储(对象存储)、Isilon集群NAS都囊括在大数据的概念下,当然也有技术方面的努力,比如Isilon对HDFS(Hadoop文件系统)的支持,但其实用价值有多大就是个见仁见智的问题了。
EMC Greenplum在与数据打交道的各种用户之间又加入了一个“Chorus-分析生产力层”。也就是说Chorus是处于Greenplum结构化/非结构化数据平台和用户分析应用之间的衔接部分。
至于SAP的策略转变,估计和他们的产品有一定的独特性有关,适合的应用场景也与众多基于Hadoop开源方案的产品有着较大的不同。因此SAP可能觉得与“那些人”站在同一条起跑线上有些吃亏?索性就干脆划清界限——“我有成熟的Sybase数据库,并且它能够满足当今用户的需求。”
前面提到的都不是什么新闻了,并且这几家厂商(或者被收购的业务部门)都是做数据库或者数据仓库出身的,相对而言与大数据的关系还比较紧密一些。接下来笔者想就最近发生的一些事件,几家看似与大数据不相关的IT厂商推出的策略,发表些简单的观点。