CIO智库 |中国存储网 |医疗软件网 |IT技术网 |容灾网

存储网

搜索

搜索历史

热搜词

EDA
光刻机
等离子刻蚀机

大数据存算分离成主流趋势,华瑞指数云抢占行业高地

来源：存储网 2022-05-23 18:14大数据

在数字经济加速发展的背景下,数据成为新的生产资料,企业通过大数据平台对海量业务数据进行充分挖掘、有效利用,不仅可以优化资源配置和使用效率,还能驱动业务流程帮助管理层进行决策分析。

如今,大数据平台已经成为企业数字化转型的基础设施。但随着近年来云计算、5G、AI等技术的日新月异,企业数据量指数级增长,新的数据业务层出不穷,传统大数据平台依托的存算耦合架构,其性能和可扩展已无法应对时代发展——比如计算存储紧耦合导致的扩容和运维困难的问题、基于三副本的数据冗余技术带来的高昂的数据存储成本问题等,数据存储层性能不足,接口不丰富,特性不足导致的数据存储不下,数据孤岛问题,导致企业不得不开始面临“存不下、流不动、用不好”的挑战。

随着技术的发展和业务诉求的推动,存算分离大数据架构应运而生,此架构下计算和存储是两套独立的集群,大幅提升了存储层面的存储能力,可用性,可扩展性和运维管理能力,也提升了计算层面的可扩展性和灵活性,成为解决行业痛点的一大利器。当下,从业务需求和大数据技术发展趋势中看,计算、存储的分离模式已势在必行,“存算分离”架构正在大数据领域掀起一场深刻变革。

大数据架构变革进行时,存算分离成主流方向

想要了解企业大数据架构向存算分离演进的必然性,首先要了解大数据架构的发展历史。

提到大数据架构,不能忽略的是Hadoop。2003年左右,由Google发布GFS和MapReduce论文为节点拉开了大数据处理技术的序幕,文中介绍了一种利用普通PC服务器构建大规模分布式系统,来解决海量数据的存储和计算问题的方法。此后,Apache基金会开发的分布式Hadoop开源体系,逐步成为处理大数据的一种通用技术框架——这是一种存算耦合的架构,其本质的出发点是在网络带宽不足的条件下,尽可能的减少数据的移动。这种技术框架第一次实现利用集群的计算和存储能力,对大量数据进行可靠、高效、可伸缩的分布式高速运算,被企业广泛采纳,成为炙手可热的技术之一,甚至也被看作是一种前沿技术标准。

如今,Hadoop依然活跃在大数据领域,但近二十年里,它并非一成不变,而是进行了3次迭代。从它的进化历程中,我们可以看出,大数据架构正在从存算一体不断向存算分离演进。

Hadoop1.0时代,计算和存储是高度融合,仅能处理单一的MapReduce分析业务;Hadoop2.0时代,计算层与数据开始解耦,通过Yarn实现了独立的资源管理;而如今,来到Hadoop3.0时代,计算存储已分开演进,通过HDFS EC来支持冷数据的存储,逐步向数据湖架构演进。

透过Hadoop走过的三个阶段,不难发现存算分离正逐渐成为主流趋势。除了Hadoop本身的架构进化,行业内关于存算分离的讨论和实践也变得越来越流行。比如近年来非常流行的各种云数据库以及云上的大数据服务就不约而同的都选择了存储和计算分离的架构;Facebook根据自己的业务需求,研发了一套存算分离的架构来支撑上亿用户产生的大数据;Starburst联合创始人贾斯汀·伯格曼也提出,想要让企业数据架构经得起时间的考验,关键之一就是拥抱存算分离。

历史进程下,存算一体架构的瓶颈日益凸显

那么,为何大数据架构要从存算耦合走向存算分离?具体来看,是由于在技术迭代和业务发展的相催之下,其本身性能的局限性使然。

首先是网络技术的发展。网络性能从当时的百兆网卡100Mb增长到了现在的万兆网卡10Gb, 网络带宽提升100倍,而同时期的HDD硬盘的性能基本没有太大变化,大数据的瓶颈从IO变成了CPU。但存储耦合架构却无法弹性处理释放CPU资源。

其次是企业业务的变化。近年来,在一些购物节期间,很多企业会面临突发的数据高峰,而这个时候,由于计算、存储资源捆绑,无法只对计算资源进行快速扩容,必须同时扩容存储资源,导致资源浪费。并且随着企业信息化、数字化建设加深,业务复杂度随之增加,新业务上线加快,存储计算耦合的设计对服务器资源配比的要求也会随之增加,进而提高企业部署成本。

此外,存算一体架构的原生缺点也有很多,以Hadoop经典存储系统HDFS为例,其对海量小文件处理能力较差,三副本的设计也带来极大的存储空间浪费,同时存算耦合导致系统的升级和扩容都很麻烦,限制了系统的可扩展性以及资源的高效利用。

而存算分离架构则可以很好地弥补这些缺陷。由于计算、存储分为两个独立的集群,因此各自可以独立进行扩容、升级、调优等运维,两者互不影响,并同时还能为二者带来性能的提升。

具体来说,在计算层面,可以支持多种计算框架,多种版本,避免特定厂商,特定计算框架版本的锁定;可以实现计算完全无状态化,轻量化和动态弹性;计算任务的调度、分发和管理可以更加动态、灵活;计算层的硬件资源,可以实现高度复用和极高的利用率。

在存储方面,能够引入丰富的企业级存储能力,提升数据的可靠性和安全性,并降低存储层的TCO,形成跨云跨多站点的统一存储平面,让数据湖和数据仓库融合,实现所有数据原生存储于统一存储平面上。无需移动数据,就可以让所有业务都按需按权限访问需要的数据,随时进行数据分析。

不过,值得注意的是,存算分离虽然能够解决目前的一些痛点,但也并非是完美的绝佳良药,在技术架构和具体实现上面还需要有进一步的创新。现有的一些架构,虽然实现了存算分算,但仍有一些棘手的难点,比如Hadoop3.0阶段,虽然HDFS可以使用EC替代了3副本减低存储成本,存算解耦后能独立扩计算集群和存储集群提高资源利用率,但依然还有许多的痛点需要解决,比如:(1)存储面能力单一,无法提供多种接口存储全场景数据,导致许多数据孤岛和费时费力的数据拷贝和集成工作;(2)处理海量小文件的性能低,规模受限;(3)管理多套异构集群,数据跨集群迁移耗用大量计算和带宽资源; (4)难以管理HDFS协议和S3协议异构存储;(5)面向高性能数据分析,实时数据仓库等场景,存储面难以提供足够的性能。

存算分离建设正当时,华瑞指数云驭数而行

为了更好应对未来大数据行业的发展,进一步打造技术更前沿、能力更丰富、业务适配能力更强的存算分离架构和解决方案,有些厂商早早投入到了下一代存算分离架构的技术研发中,并已形成比较完善的产品和解决方案,形成了一批相应的优秀案例。

作为数据基础设施整体解决方案提供商—华瑞指数云科技有限公司(ExponTech),就在打造“以数据为中心”的下一代智能数据基础架构,采用分布式架构以及软件定义技术,使用普通标准服务器作为主要硬件,形成统一的分布式存储池和数据平台,使用完全的存算分离架构,企业可以构建统一并且独立的数据平面,彻底解决数据孤岛以及数据管理和数据价值利用的挑战,也实现了计算平面的无状态化和弹性伸缩,可以极大的提升数据分析效率,提升IT资源利用率,简化管理。华瑞指数云基于存算分离架构的新一代数据基础设施产品和解决方案,具备技术上的前瞻性和领先性,可以适应当前业务需求和未来向数字化和智能化演进的需求,其能力远远超越以Hadoop以及HDFS为中心的传统大数据解决方案,可以与企业已经建设的虚拟化,私有云,大数据平台等计算面的系统直接对接并配合使用,为计算面提供丰富存储和数据管理能力。其关键能力特征包括:

全场景数据存储能力

对象存储:兼容业务标准的对象存储接口S3,可用于存储海量非结构化数据,用于视频点播、视频监控、基因测序、企业云盘、备份归档等应用场景。对象存储桶可用户无感知的聚合多个存储池,使得单一存储桶可以跨越物理池边界,为用户提供近似无限扩展的单桶容量,提升单桶并发访问能力,获得更高聚合性能。对象存储支持数据存储分级、数据生命周期管理、多站点全局命名空间、数据异步复制、智能数据处理框架、数据存储加密、WORM 模式等高级特性。

大数据接口HDFS: 支持与主流大数据Hadoop生态进行无缝对接,在统一数据平台上直接提供丰富的大数据分析能力,在大数据分析场景提供计算和存储分离解决方案, 不仅满足海量数据高效处理,还帮助用户实现真正计算和存储资源独立按需要扩展。基于 HDFS 的传统大数据存储方案,在数据增长迅速场景中,扩展能力、使用成本、可靠性和灵活度都存在问题。统一分布式数据存储平台支持存算分离的大数据解决方案,主要面向海量数据的批量分析场景,如历史数据明细查询 (流水审计,设备历史能耗分析,轨迹回放,车辆驾驶行为分析,精细化监控)、海量行为日志分析(学习习惯分析,运营日志分析,系统操作日志分析查询)、公共事务分析统计 (犯罪追踪,关联案件查询,交通拥堵分析,景点热度统计)等场景,为用户提供按需扩容、高性能、成本优化的存储能力。

块存储接口: 提供 RBD、iSCSi、NVME-oF标准接口,可以与VMware, OpenStack, Kubernetes等主流的虚拟化和云计算环境无缝对接,为云计算环境提供统一的存储池,广泛支持适用于虚拟化、私有云、容器、云桌面和 OLTP 数据库等典型业务场景,支持iSCSI 多路径、卷快照、卷克隆、自动精简配置等企业级存储特性,满足业务连续性、数据保护、存储资源利用率提升的要求。

文件存储:提供 POSIX, NFS v3/v4, SMB v2.0/v3.0/v3.1 标准文件访问协议,linux 和 windows 平台高性能专用客户端,还提供高性能的 FUSE POSIX文件接口,广泛支持企业办公、文件共享、内容管理、高性能计算、备份归档等应用场景,还提供按需横向扩展、文件快照、目录级配额、数据分级流动等特性。

SQL接口:面向数据的实时分析场景(OLAP)直接提供数据存储能力和数据分析能力,使用SQL作为查询语言(支持GROUPBY、ORDERBY、JOIN、IN等大部分标准SQL),在数据存取方面,使用列式存储来提升查询与分析性能,既支持分区(纵向扩展,利用多线程原理),也支持分片(横向扩展,利用分布式原理),实现在亿级数据的体量下,毫秒级的查询响应时间。

应对性能挑战

可混合搭配 SATA SSD 或者 NVMe SSD 作为数据读写缓存,该机制通过数据读热点优化、数据预读、小 I/O 和小文件合并、大 I/O 和大文件直通 HDD 主存等一系列技术,实现系统整体高水平读写性能。

智能数据缓存和调度技术能够感知业务应用的数据访问模型,为不同 I/O 模型采取不同的 I/O 策略,对 OPS 要求高的小对象访问进行实时归并成大 I/O,让带宽要求高的大 I/O 直通主存池,对大 I/O 进行智能调度排序,尽可能的优化数据写盘性能。

专为全闪存硬件优化的极速存储,提供单卷百万级IOPS和单路百微秒级稳定时延,满足企业关键应用极高的性能要求,面向大型数据库、大规模虚拟化、 HPDA、AI/ML等高性能要求场景,在许多场景下都可以直接替换AFA全闪阵列,还具备可以水平扩展,软硬件解耦等AFA全闪阵列所不具备的优势。

在小文件处理上,依靠小文件在线聚合技术,能够优化海量小文件数据读写效率和存储利用率。

面向多样化非结构化数据处理场景提供对应的IO性能支持:比如AI/ML人工智能和机器学习依赖于大量不同的数据(图像、文本、结构化和半结构化数据)来构建有用的训练模型和提供推理结果,这些数据从多种来源采集,可能来自于边缘、企业内部或者公有云端和第三方数据服务,数据文件大小、类型和访问方式各异,训练和推理的数据IO模型复杂,既有大文件高带宽读写,也有随机小IO 密集访问,且要求极低时延。

系统具备可横向弹性扩展的能力以及可以线性扩展的系统总体吞吐带宽,可充分满足分析型(OLAP)数据库的持续增长的容量扩展要求。

大数据分析能力

无缝对接使用以Hadoop生态为基础的大数据框架来提供计算和数据分析能力,其数据存储能力则是通过存算分离架构,从分离部署的分布式数据存储平台上获得。

平台封装大数据相关技术并提供简单易用的操作界面,摆脱大数据建设对复杂底层技术的要求,通过简单的脚本(SQL、Python等)即可让企业在数据汇聚,数据分析,治理实施方面拥有快速的大数据服务能力。

云原生架构

整体架构基于云原生技术来设计,超越存储介质、地理位置和平台的界限,按需迅速的部署到任意地理位置和任意平台。

基于微服务模式开发的软件体系结构,将各个系统各模块组件隔离为微服务,并封装在容器环境中,从而提高系统的容错能力、扩展能力和安全性。基于微服务的形态使得系统各模块组件可单独升级,快速交付增强服务能力。基于容器的封装使之能完美适配云原生环境,可敏捷的在云、数据中心和边缘任意位置轻松数秒内发放数据存储服务,同时保持运维管理的一致体验。

多级安全可靠

全分布式架构,整个系统无单点故障。

兼具 EC 纠删码和多副本机制数据冗余保护策略。

提供双站点异步复制,分布式双活等高可靠技术,提供单硬盘、服务器、机柜和数据中心多级别系统可用性和数据可靠性,使数据持久性高达 99.999999999%,系统可用性在 99.9%以上,为业务连续性护航。

完善的运维管理平台,提供全图形化的运维管理能力,支持硬盘亚健康和网络亚健康检测等故障预防手段,支持一键巡检即刻获得系统运行状态的全视图,支持硬盘点灯,硬盘漫游,在线图形化方式升级,高效扩容缩容等便捷的运维方式。

支持数据传输加密和服务器端存储加密、WORM(Write Once Read Many)、等安全技术保证数据存储和访问安全性,支持数据访问日志和运维操作日志,满足用户合规审计追溯的要求。

提供数据生命周期管理功能实现数据存储按热、温、冷分级并自动流动,并且可以通过使用第三方对象存储池和公有云对象存储服务作为数据分级,实现海量数据备份归档,从而实现存储数据的总拥有成本(TCO)下降。

安全可靠的权限管理,运维管理面对用户权限进行分级管理,用户角色包含超级管理员、普通管理员、运维员和审计员四种角色。超级管理员只能进行运维用户管理,不能对存储资源进行操作。普通管理员不能管理运维用户,可以执行存储资源配置、信息收集等日常运维管理操作,不能执行启停服务和修改系统等高危操作配置; 运维员角色拥有除用户管理之外的所有操作权限;审计员角色只能访问运维面操作日志。

统一数据管理

基于统一元数据管理引擎,实现数据跨越多池,多云的统一管理和流动, 在全场景的数据存储基座上,提供统一数据管理和分析能力。

支持跨位置和跨平台敏捷分布、多站点统一命名空间、数据跨站点同步的能力,可解决数据来源分散背景下数据的统一管理和访问难题。

技术的变化有迹可循,是在历史前进的逻辑中前进,在时代发展的潮流中发展。回溯大数据架构的发展也正是如此。未来,ExponTech大数据存算分离方案将更好地帮助企业进行数据的管理和应用,满足数字化时代下新型基础设施的建设要求。同时,ExponTech也将打造更多基于前沿技术的数据存储和数据基础设施产品,助力国内数据存储和国产系统软件的发展。在像ExponTech一样越来越多的企业的共同努力下,相信智能的、美好的、高效的数字化世界和智能化世界将加速到来。

（文章为作者独立观点，不代表存储网立场，版权疑问请联系客服。）