取消
搜索历史

    大数据时代 看各存储厂商如何应对

    来源:存储网 2011-12-27 21:59大数据

    时至今天,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论坛到游戏社区再到微博,从互联网到移动互联网再到物联网,人类以及各类物理实体的实时联网已经并且还将继续产生难以估量的数据。对于时刻关注市场走向的企业来讲,他们需要关注的数据显然已经不仅限于企业内部数据库中的业务数据,还要包括互联网(以及未来的物联网)上各类网络活动所产生的相关数据记录。

    显然,大数据是一种创新,它在任何时候都知道你在哪里。我们可以以有效方式利用这些数据,并且已经看到了市场需求。

    日前,在北京举办的大数据世界论坛上,内存计算、实时查询、有效的存储管理、智能挖掘分析,成为了众多IT人士关注的焦点。

    用户需求——海量+实时分析

    来自IDC全球存储及大数据研究项目副总裁Benjamin Woo表示,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。35ZB是什么概念呢?(1ZB=1024EB=1048576PB=1073741824TB,1073741824TB*35=37580963840TB),也就是说全球大概需要376亿个1TB硬盘来存储数据。

    而另一个需求则来自于对海量数据的实时查询访问需求。在数据仓库诞生的第一天,一直就有一个话题,要把大查询分解成小任务,这些小任务由一台台的机器来完成。

    “我们的要求在于,上亿条数据的分析能够在5秒钟内完成”,中国民族证券信息技术部总经理颜阳表示,在证券行业由于发展的波动性很大,因此证券公司的投入也是基于量入为出,采用了MPP(大规模并行处理)架构的数据库(数据仓库)。其基本特征在于是由多个SMP服务器通过节点互连,而每个节点只能访问本地资源,是一种完全无共享的结构,因此扩展性很好。当基于此数据库来开发应用时,不需要考虑服务器由多少节点组成,也不需要考虑负载问题。

    显然,和NUMA架构(非一致性存储访问)相比,MPP的优势在于更适合复杂的数据总和分析与处理。当然它也需要借助支持MPP的数据库系统来屏蔽节点之间的负载均衡与调度复杂性。

    同时,颜阳也给出了BI和ETL工具选型建议——兼容性、操作性、功能性、展现力、维护性。他表示,在数据中心,每一个转换要保证数据的完整性和准确性,要进行安全性的管理和控制,这些都要通过开发工具加上适度的编程来实现。万一开发团队对这个工具的理解和整合程度不好的话,最后的数据仓库的数据会形成很多垃圾,甚至造成很多错误的数据出现。因此,要兼顾五个方面去开展。

    大数据并不等于IT重构

    本次大会传递出来的另一个信息是,对真正需要大数据的企业而言,大数据的需求并不等于IT重构。

    实际上,并非所有的数据都需要进行分析,对企业而言,核心在于找出关键的数据,并运用适合MPP系统的相干数据,得到一些结构化的数据,而一些非结构化的数据,可以用Hadoop进行处理。

    另一方面,大数据的基础架构需要的是前瞻性,随着数据的不断增长,用户需要从硬体、软件层面思考需要什么样的架构去实现。必然,未来需要的是一个能够支持非常好的、可扩张性的、对文件存储友好的文件系统。

    当前,不管是IBM公司、EMC还是SAP都推出了自己的Bigdata Total solution,从中对比我们可见一斑。

    IBM公司——数据仓库一体机

    IBM公司将数据仓库做成了硬件化的产品,标配Power服务器、存储,再加上刚收购的Netezza。Netezza新型数据仓库一体机渠道经理郑晓军表示,“凡是玩过云计算、Hadoop的用户,对于Netezza的环境搭建只是小菜一碟。”据了解,Netezza一体机是一个小型的、成集成度很高的多机并行处理环境。其架构基于MPP,由两个Hosts系统接受查询请求,查询语句将分散成几十个或者上百个分片,传给第二层,第二层的每一个单元是一样的(内部名称S-Blades分区内存),再把每一个分片看成MPP环境中的每一台机器,中间的网络构成MPP网络。

    当数据存进去的时候,会把数据平均的分在所有的节点上,节点的均衡是由Netezza自己来决定的。数据存在硬盘的时候用的格式是“Zone Maps”,把一张表里所有的字段,根据值不同,分了所有的分片。有了Zone Maps之后,FPGA扫描的时候,只会读取那些包含记录的区域,这些地方硬盘加速效率很高的。万一数据修改的话,会在新增添的数据记录里面增添,定时会对数据重组,进行压缩,这些都是通过后台进程管理的。

    EMC——自服务数据仓库

    Greenplum Chorus是EMC的数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。

    EMC中国研发中心首席技术官陶波表示,Greenplum Chorus构成主要由自助式的调配、数据服务协作分析所组成。当用户同时部署Chorus、VMware、Greenplum后,可以完全实现自服务,自服务可以是一个服务器,也可以生成一个沙箱,而这个沙箱既可以基于虚拟化的IT云计算平台上,也可以是在Greenplum的数据库上。同时,用户可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作。与此同时,开发者还可以创造一个合作环境,在分享数据的同时要控制授权,避免私人数据被不适当的使用。比如写一段R代码,并把R代码进行分享,同时看到别人的评论,可以随时随地的进行自己的工作。

    (文章为作者独立观点,不代表存储网立场,版权疑问请联系客服。)
    关于我们| 隐私条例| 版权申明| 联系我们

    2018-2022 Copyright © Stor.com.cn