接上篇:Oracle公司骑上Cloudera的大数据大象(上)
不只是简单的混搭
关于Big Data Appliance(大数据设备)重要的是,这是一个精心设计的系统,不只是一个混搭Oracle公司和Cloudera的软件。Ozbutun说,Oracle公司公司已经花了几个月微调底层的硬件配置,来运行大数据的算法、他们的各种数据存储和插件,让Oracle数据库和Hadoop的数据存储共享信息。
Big Data Appliance是18个Sun Fire x86服务器节点的机架。每个节点有两个运行在3.06GHz的六核心Xeon X5675处理器。服务器最高支持144GB的内存,但这个特定的配置有48GB主内存(或者说每核心4GB)。该服务器有一个磁盘控制器,带有512MB电池后备的Cache存储器和十二块3TB的7.2K RPM SAS磁盘(3.5寸,每CPU核心对应一个)。这些服务器有两个40Gb/sec InfiniBand端口和4个千兆以太网端口。机架有两个InfiniBand交换机,它们有32个QDR InfiniBand端口和8个万??兆以太网端口,以及另一个平常普通的36端口QDR InfiniBand交换机。(Oracle公司是芯片和交换机制造商Mellanox Technologies公司的少数股份持有者,并在其自己的交换机使用Mellonox的芯片。)在机架上还有另外一个以太网交换机,为Hadoop节点提供一个单独的管理网络。
Ozbutun说,关于Exadata数据库集群、Exalogic中间件集群和现在的大数据设备,主要的是不要再思考在CPU上的处理能力,并开始关注系统I/O和网络带宽的正确组合。许多客户的CPU超额配置而在网络和I/O方面配备不足。这意味着他们花了很多钱在硬件上,将不利于Hadoop的良好运行。Oracle公司公司已经花了几个月来配置和调优这个系统,并确保机架内没有不需要的东西,这是因为 - 就像其他高性能计算客户那样 - Hadoop的购买者也是吝啬的。
这种大数据设备包括一个CDH3的终身OEM许可证和Oracle公司核心软件许可证,每机架的成本45万美元。这是大大低于昂贵的完全配置Exadata机架 - 其中包括数据库服务器、Exadata存储阵列,以及Oracle 11g R2数据库和Real Application clusters(RAC,真正应用集群)扩展,这将在一个96核心的Exadata X2-2上花费你447万美元(标价)。硬件成本在这里是110万美元,只是作为一个比较。
衔接起来
除了大数据设备,Oracle公司也推出了一套连接器连接Oracle数据库到Hadoop的数据存储。这些暗示在Oracle公司去年十月的幻灯片后面,但没有任何更多的详细讨论。
首先是Oracle Loader(加载器)for Hadoop,它移动数据从Oracle 11g R2数据库到Hadoop的数据存储。有很多方法来处理这个事情,但Ozbutun说这个连接器的设计是独一无二的,于是大部分的数据分区、转换,和其它工作由Hadoop集群来做,而不是用机器(或者一组机器)运行Oracle数据库。
第二个连接器是Oracle Data Integrator(数据集成器)for Hadoop,现有数据集成工具的一种转变,可自动生成的MapReduce代码处理数据,并把数据集呈现给Oracle数据库。
第三个连接器被称为Direct Connection(直接连接)for HDFS,这实质上是将HDFS文件系统的一部分map和reduce数据作为Oracle数据库表来查看。最后,第四个连接器称为R Connector for Hadoop。有了这个,Oracle公司确实已经采取开源的R统计分析软件包,并添加优化的数学库链接到Big Data Appliance堆栈中的各种数据存储。此连接器不是基于来自Revolution Analytics的Hadoop友好的R工具。
来自Oracle的四个Hadoop数据连接器捆绑价格为2,000元每服??务器处理器。