过去几年,中国智算中心建设按下快进键,也掀起了一股算力应用新浪潮。
3月,超大规模智算集群被写入政府工作报告,标志着我国算力建设迎来高速发展期,整体规模呈现指数级增长。但在行业快速扩张的同时,一个现实问题也愈发突出——不少智算中心持续加码 GPU,算力规模越堆越大,实际利用率却始终难以提升。究其原因,核心瓶颈在于数据流动效率不足。
面对这一行业困境,中科曙光率先提出 “算存传一体化” 解决方案 —— 将计算、存储、网络作为一个整体统一设计、深度优化,为数据流动铺就高效畅通的通道,让算力真正 “用起来”,而不只是 “堆起来”。
为此,我们有幸采访到了曙光信息产业(北京)有限公司总裁助理、分布式存储产品部总经理石静与scaleFabric产品经理纵瑞博,听听他们对“算存传一体化”的技术细节、生态定位与未来发展预期。
当算力堆砌遇到效率瓶颈,AI基础设施如何破局?
据ClearML 发布的2025-2026 年全球AI基础设施调研报告显示,在不少企业环境GPU算力卡的平均利用率长期低于50%;而在OCR、NLP 推理的典型在线场景中,单卡算力利用水平甚至只有20%-30%,这意味着超过一半的算力投资被白白浪费。
“如今大家都去堆砌算力卡,但如果不能很好地发挥效能,就是制约AI发展的很大挑战。”石静表示。那么如何才能解决这一问题,让算力价值最大化呢?她将挑战拆解为三个层面:计算层面是如何让GPU效率充分发挥、存储层面是“怎么能更好地匹配算力”以及网络层面则更为根本——“计算有自己内部的互联线,存储也有自己内部的互联线,谁把计算跟存储连接起来?就是网络。”
这番话点出了一个容易被忽视的事实:我们往往把目光聚焦在算力本身的迭代,却忽略了算力之间的协同。就像一个拥有顶级发动机的车队,但如果道路拥堵、调度混乱,再强的马力也跑不起来。由此看来,计算、存储、网络三者的关系可以说是“一荣俱荣,一损俱损”,而管理者们需要的就是“怎么把这三块强耦合起来,实现存算强耦合性,让用户投资的回报率最高。”
这正是曙光“算存传一体化”要回答的问题。在谈到这个问题时,石静特别强调这里的“一体化”并非物理集成,而是逻辑协同。“我们虽然从架构上来说是存算分离的,但从逻辑上让它实现一体化、强协同的效果……紧耦合不是指物理概念上耦合在一个机器里,而是服务于中大型算力中心的逻辑架构。”
理解了这个前提,我们才能看懂曙光后续的一系列技术布局——它们不是为了炫技,而是为了解决这个实实在在的行业痛点,其核心就在于如何通过算力与存力的合理配比,通过网络资源的有效调动来实现效率最大化。为此,曙光也拿出了自己的“独门秘籍”——“超级隧道”和scaleFabric400G无损高速网络。
存储网络双向奔赴,开启算力基础设施“直飞时代”
其实业界一直都在着力解决数据传输与利用率的难题,最常见的做法就是“全闪+RDMA”,几乎每个厂商都有类似的解决方案——将NVMe SSD闪存通过支持RDMA的网络(如RoCE或InfiniBand)连接到计算节点,这样就实现了GPU绕过CPU直接访问远端内存,降低了延迟。
“传统方案相当于转机,数据需要在多个节点间辗转;而曙光的方案是直飞,数据从存储直达计算,无需中途换乘”,在谈到曙光优势的时候,纵瑞博解释说。这里的“直飞”主要依靠存储端的“超级隧道”和网络端的400G scaleFabric,它们从底层架构上改变了主流模式,达到了不只是“快”,而且是“协同快”的效果。
“超级隧道”是曙光存储的核心技术之一,它可以为不同数据流在硬件层面配置独享的RDMA连接和PCIe通道,并在软件层面实现线程、内存与存储资源的绑定调度,确保数据永远沿着最优、最不拥堵的路径流动。就像石静说的那样:“跟数据相关的CPU、内存、网络、SSD都会放到一个独有的数据域里面。在这个数据域里,资源是隔离的,数据可以跑得更快,相当于为每一笔数据构建一个‘超级隧道’。”
但这只是第一步。在一个存储节点中,通常有12、24或者更多块盘,而网卡一般只配2到4块。要让数据传输更均衡,网络需要先做虚拟化。纵瑞博补充道:“我们会用独有的虚拟网卡技术,把网卡切成多个小网卡,每个都做数据传输,先把链路保障下来。”这样在动辄超万卡的集群中,就可以通过预先分配加动态共享,既保障内存够用,又保证集群稳定性。
这套组合拳打下来,效果是实实在在的。“我的全闪节点依托国产化平台,单个节点能做到220G带宽、1000万IOPS。”石静自信的表示。
220G意味着什么?以英伟达的GPU卡为例,在高通量训练场景中,一张卡要求3-4G带宽。一个存储节点220G,就可以支撑好几十张GPU卡,让GPU切换时更快,把更多时间用在计算上。
如此出色的成绩离不开scaleFabric的支持,这也是曙光自研的又一款“技术重器”。如果说“超级隧道”是“直飞引擎”,那scaleFabric具备的400G带宽就是连接存储与计算的“高速航线”。一直以来,我们在高速互联领域大多采用国外的IB网络(InfiniBand),缺乏自主技术能力与创新。而这一次曙光scaleFabric 400G网络的发布,不仅与IB同属原生RDMA路线、完美兼容IB生态,更实现了技术层面的自主可控,也打造出符合业界主流要求的高速、可靠、安全的网络解决方案。
除了技术领先之外,即便从成本和可靠性来看,scaleFabric依然值得选择。目前业界大部分网卡、交换机的应用场景都是基于400G网络实现的,更高速网络虽然也存在,但是在成本控制、应用场景等方面依然处于小范围实验阶段,难以实现万卡集群规模的高效部署。而在可靠性方面,scaleFabric的优势更为明显——“哪怕0.1%的丢包发生在RoCE集群,整个算力就会下降50%。而我们的scaleFabric基于原生RDMA技术,可以真正做到无损”,纵瑞博表示。
至此,曙光“超级隧道”与scaleFabric 400G网络之间实现了“双向奔赴”。从技术上讲,“超级隧道”从存储端向网络端奔赴,把数据以最高效率、最有序的方式送到网络入口;而400G网络则从通信端向存储端奔赴,铺就了一条超宽、零拥堵的专属航线,完成了数据的无缝交接——这不仅是物理连接,更是协议、调度、资源管理的深度融合。
而从战略层面看来,它们共同奔赴的终极目标就是“算存传一体化”这一战略蓝图。没有“超级隧道”,400G网络只是一张很快的网,无法解决存储内部的拥堵问题;没有400G网络,“超级隧道”处理好的高效数据流也只能在慢速通道上爬行,无法发挥价值。两者结合,才真正打通了数据从存储到计算的“任督二脉”,实现了系统级的效率跃升。
正如石静在采访中所说的:“这是国内少数国产存储加上国产完全自研网络的组合。你现在看到的RDMA网络基本都是国外产品,无论从供应链还是深度优化方面都有一定限制。曙光把这两大国产化集合在一起,能做更多深层次的对接。”这番话同样点出了一个容易被忽略的关键——当存储和网络来自同一家国产厂商,而且是全栈自研,深层次的协同优化就成为可能。这正是“双向奔赴”的技术基础,不是简单的硬件拼装,而是从底层芯片到上层协议的深度融合。
广泛生态兼容,让用户“脚本都不用改”
当然,一款技术再先进,如果让用户付出巨大的迁移成本,也难以被市场接受。深谙此道的曙光,早在生态兼容性上下足了功夫。
在谈到这一问题时,石静首先确认:“scaleFabric完全兼容IB,从驱动层来说,我们的存储软件如果可以支持相关技术,就可以快速用到我们的卡和交换机。同时我们提供了完善的工具包和运维工具,体验上非常实用方便。”纵瑞博更从管理工具上给用户吃了一颗定心丸:“使用方面,我们的管理工具也基本一致。开源的管理工具我们也同样支持。用户之前用什么,甚至脚本都不用改,直接可以切换过来。”
这种“零配置”、“脚本不改”的体验,背后是研发团队对用户痛点的深刻理解——在大规模集群建设中,每一个额外的配置项、每一次脚本修改,都意味着时间成本、人力成本和出错风险。让用户无感切换,才是真正的生态兼容。不仅如此,在部署成本上,scaleFabric比传统的RoCE方案更胜一筹,就可以节省大量的人力物力。
“我们基本上零配置,只要启动服务,它就能自动识别路由、计算运行状态。而RoCE控制相关配置非常复杂,可能有几百上千个参数,哪个配不好都可能出问题。”纵瑞博解释说,“我们在国家超算互联网核心节点部署的三套scaleX万卡超集群,全面应用了scaleFabric高速网络,从第一台交换机上电到最终交付用户上线,一共只花了36小时。”
根据行业经验,如果换作RoCE方案,这可能一两个星期都完成不了。36小时vs 一两周,这个对比本身就说明了问题——在AI算力竞争日益激烈的今天,谁能更快地将算力交付给用户,谁就能抢占先机。
“而且从2月5日上线到现在,(三套超集群)试运行了一个半月,非常稳定,没有因为网络问题导致用户作业跑不起来。”纵瑞博补充道。
多样化场景应用,智能基础设施的“直飞时代”
如今,国家超算互联网核心节点已经承载了多种类型的客户,全面覆盖万亿参数模型训练、高通量推理、AI for Science等大规模AI计算场景。相比以往压缩数据的准备工作,如今BurstBuffer技术可以把计算节点上的存储放到缓存池中,实现数据共享存储,大大降低了客户应用难度,提升了数据调取效率。
“在数据处理的小文件场景下,其性能不亚于本地盘”,石静表示。而到了正式训练阶段,checkpoint的表现让用户没有任何疑问:“几分钟就把几个TB的数据回传过来,确实很快。”最后推理阶段,结合超算互联网平台,一套存储把整个业务流程贯串起来,解决了用户以往需要频繁数据调取的老大难问题。

由此看来,国家超算互联网核心节点不仅是曙光“算存传一体化”方案的落地案例,更重要的是打造出了适合终端业务应用的、高效可靠的国产三万卡智算集群,强力支持了众多国产厂商的智能化应用。“scaleFabric相当于补齐了国产IB技术的空白,至此整个国产化版图也算完整了。”
从“将就”用国外产品,到RoCE“够用”但需妥协,再到scaleFabric“好用”且性能对标国际主流……曙光选择的这条演进路径,正是中国科技自主创新的一个缩影。透过这条路径可以清晰地看到,“算存传一体化”并非营销概念,而是一套扎实落地的技术体系——它始于对AI基础设施核心挑战的深刻洞察,落于“超级隧道”与400G网络的深度协同,更通过广泛的生态兼容与国家级工程的实战检验,证明了自身的可行性与价值。
在国家超算互联网核心节点,这套体系不仅验证了技术的成熟度,更展示了在实际应用中带来的效率跃升。它证明了一个更重要的命题:通过“算存传一体化”这种系统级的协同创新,国产技术完全有能力在AI时代提供业界一流的应用体验——这,正是中国科技走向未来的底气与信心所在。