当Oracle公司联合创始人兼首席执行官Larry Ellison在去年10月爬上他自己的大数据“大象”的背上——他的公司在去年10月宣布Big Data Appliance,Oracle公司公司给人的印象,这将是积累他们自己的开放源码的Apache Hadoop的数据实施。这原来是不正确的。
事实上,Oracle公司公司最近透露他们开始出货Hadoop堆栈(以“在喂饱的大象之后”的名字命名),他们实际上已经签署了一项与Cloudera的OEM协议 - 第一和迄今最大的商业的Hadoop disties - 大数据设备的mapper和reducer。具体来说,Big Data Appliance将包括来自Cloudera的CDH3累积版本的Hadoop,附加他们的Cloudera Manager 3.7,早在2011年12月推出的一个控件。
由于Oracle使用CDH3作为其核心的Hadoop,客户不会只限于使用Oracle公司自己的NoSQL数据库核心价值存储,这是基于其收购的BerkeleyDB。这以前,去年秋天在Oracle公司OpenWorld宣传中谈到Big Data Appliance时,它是唯一的数据存储。数据仓库技术的副总裁Cetin Ozbutun,告诉我们大数据设备的客户将能够将数据存储在Hadoop分布式文件系统(HDFS)作为Apache Hadoop堆栈的一部分,万一他们不想来运行Oracle的NoSQL,在Oracle的企业级Linux,他们的RHEL重新执行版本上。并且,因为CDH3还包括了HBase - 在列导向的对HDFS的附加,是以谷歌的BigTable数据存储为蓝本 - Oracle公司的客户会也将能够使用HBase,万一他们的应用程序可以比在原始HDFS或Oracle公司的NoSQL数据库运行得更好。大数据设备使用了Oracle社区版NoSQL数据存储和运行在Oracle Enterprise Linux之上的HotSpot Java虚拟机 。
Oracle公司可以抓取的Apache Hadoop的代码,并推出自己的发行版,这很像他们已经获得了红帽企业Linux并成为其分支,来针对自己的硬件和软件堆栈调优,同时保持与RHEL兼容。Ozbutun说,Oracle公司进行了评估这种替代以及其它来自Hortonworks和MapR的Hadoop发行版。Hortonworks从雅虎团队分拆,曾经在搜索引擎巨头的内部支持Hadoop,MapR是Hadoop的商业化,其软件OEM给EMC的Greenplum的数据设备部门。
“我们也考虑了很多不同的选择,但我们认为最好是与Cloudera的合作”Ozbutun解释说。“Cloudera显然是在这一领域的领导者,我们在其他领域的专业知识是相辅相成的。”
当然,Oracle公司曾经是红帽的合作伙伴,然后出售红帽支持的一个克隆(版本),然后决定做自己的发布和控制所有的钞票和代码。有可能的是,从长远来看,Oracle公司将购买Cloudera,购买其他的发行版,或推出自己的。 Hadoop太重要了,恰好对于Oracle没有自己的这一块来说,就这么简单。
接下篇:Oracle公司骑上Cloudera的大数据大象(下)