CIO智库 |中国存储网 |医疗软件网 |IT技术网 |容灾网

存储网

搜索

搜索历史

热搜词

EDA
光刻机
等离子刻蚀机

焱融科技拿下多项关键性能第一剑指大模型训练优化

来源：存储网 2024-12-04 13:49业界资讯

大模型存储新标杆，中国AI存储厂商焱融科技在多项性能指标上获世界第一。为大模型而生的存储长什么样？大模型爆发的三大堵点可归结为计算、存储、网络，其中存储在AI产业中的重要性不言而喻，它需要为海量多模态数据提供存储与高效管理，保障数据安全可靠，同时支持快速数据读取、并行计算、实时数据获取和缓存优化提升训练与推理效率。

在大模型产业飞速发展的同时，对存储的要求也水涨船高，存储系统在大模型时代正被改写。此前海外供应商占主导的全球存储市场也在被重塑，国内AI存储厂商在其中的地位愈发重要。

这也可以从一些权威组织的测评指标中看出来。去年，全球权威AI基准测评MLCommons组织首次推出了MLPerf存储基准测试（MLPerf Storage Benchmark），这也是目前首个唯一开源、公开透明的AI/ML基准测试。

上个月，该机构公布的MLPerf v1.0存储性能基准测试中，国内一家存储厂商崭露头角，其全闪存储产品在带宽、模拟GPU数量以及GPU利用率等关键性能指标上获得多项世界第一。

这就是成立于2016年的焱融科技，其最新推出的企业级全闪分布式存储一体机追光F9000X，实现了3节点存储集群的性能达到750万IOPS和270GBps带宽，可满足大规模训练、推理及高算力场景的需求。

焱融科技CTO张文涛谈道，大模型发展对存储系统在性能、稳定性和成本方面都提出了更高要求，这也正是其进行产品研发和优化的关键所在。

（图：焱融科技CTO张文涛）

就在9月底，全球权威AI基准测评厂商MLCommons公布的MLPerf v1.0存储性能基准测试结果中，焱融科技榜上有名。测试结果显示，其产品全闪F9000X在带宽、模拟GPU数量以及GPU利用率等关键性能指标上，拿下了多项世界第一。

（图：MLPerf Storage测试结果公开数据）

在MLPerf Storage的测试中，包括3D-Unet、CosmoFlow和ResNet 50，焱融科技也是国内唯一一家参与了全部模型测试的存储厂商。

为了测试存储系统在支持机器学习工作负载方面的性能，测试规则中定义了存储系统可以采用单个计算节点运行多个ACC（Accelerators，加速器）进行相应模型应用测试，同时支持大规模分布式训练集群场景，多个客户端模拟真实数据并行的方式并发访问存储集群。

张文涛解释道，在大模型场景中，模型算力利用率（MFU）备受关注，在MLPerf对应的指标就是算力有效利用率（AU），MLPerf Storage要求AU达到90%，要求存储能使GPU利用率保持高位运行。在此之上，为了进一步体现存储支持模型训练的能力，存储系统需要尽可能提升其中单个计算节点中ACC的数量。

效率与成本，是大模型中的存储系统至关重要的两个点。这两点在MLPerf Storage的测试结果中都得到了验证。

测试结果显示，在分布式训练集群场景，焱融存储在所有三个模型的测试中，能够支撑的每个计算节点平均ACC数量和存储带宽性能均排名第一。

张文涛说，归根结底就是有效的算力利用率，只有存储足够快，在模型训练中，在存储中使用的时间越少，有效算力就越高。其次就是成本，单个存储节点提供的有效带宽越高，所需要的存储的集群规模越小，就意味着成本越低。

这项测试对于存储玩家的重要性不言而喻，既是存储系统的竞赛场，还是其客户选择合适产品的权威指南。

综合来看，整个大模型产业的急速发展，对存储系统提出了更高的要求，性能、稳定性和成本成为存储厂商必须越过的门槛。深谙技术创新与企业需求的焱融科技，在拿出更强计算能力、更高性能数据存储的方案后，为大模型时代的企业探索出了一条行之有效的路径。

（文章为作者独立观点，不代表存储网立场，版权疑问请联系客服。）

AI性能