华为UB-Mesh互联 技术解析| HotChips2025
芝能智芯出品
在2025年Hot Chips大会上,华为展示了其面向超大规模人工智能系统的UB-Mesh互联架构,从协议、拓扑到系统弹性的全面思考,核心目标是支撑未来百万级芯片集群的超级节点。
随着人工智能训练规模迅速扩展,传统互联网络在带宽、延迟和成本上的瓶颈愈发明显,华为提出的统一总线与分层网格结构,为如何在千兆瓦级AI数据中心中实现高效互联提供了新的路径。

Part 1 超级节点与互联架构的挑战

随着大模型训练进入新阶段,单一数据中心所需的算力规模不断攀升,百万级加速芯片组成的超级节点逐渐成为常态。
这种规模的集群不仅包括GPU,还涵盖内存池、存储设备、网络接口以及交换机,实际上相当于一个完整的超大型数据中心。
问题在于,如何在如此庞大的系统中实现高效互联。

传统的网络拓扑如CLOS虽然成熟,但在规模扩展时,成本会随节点数以超线性方式增加。一旦规模超过数千乃至上万节点,网络设备的费用可能超过计算芯片本身,从而削弱整体效能。

跨数据中心的物理链路普遍依赖光纤,而光纤的错误率相比铜缆要高出2到3个数量级,这对可靠性提出了极高要求。
节点数量增多也意味着硬件故障从“小概率事件”转变为“必然发生”,系统必须具备在不影响整体运行的情况下快速恢复的能力。

华为在这一背景下提出了UB-Mesh。其核心理念是采用统一总线协议,将本地总线的概念扩展至数据中心级别。
通用协议意味着不同类型端口间的通信无需额外转换,既降低了延迟,也简化了系统结构。这与当前行业中多种协议并存、需要复杂适配的现状形成鲜明对比。
从设计目标上看,UB-Mesh不仅要解决扩展性和延迟问题,还要在成本和可靠性之间找到平衡点。

Part 2 UB-Mesh的架构设计与系统弹性

在拓扑设计上,UB-Mesh采取分层局部多维全互连的方式。
通过在不同维度实现任意节点间的完全连接,再由高维度连接低维度,从而形成一种混合型结构。与传统CLOS相比,UB-Mesh在成本随规模扩展时表现为亚线性增长,这使其能够在支持百倍带宽扩展的同时,避免百倍成本的上升。
在一个真实的8K节点示例中,UB-Mesh通过CLOS与二维网格的组合展现了成本与性能的平衡,这为未来百万级节点的设计提供了可复制的参考。

可靠性是另一个关键问题。华为提出了两层应对方案
◎ 一是链路层的增强,例如在同一模块上支持链路级重试,以避免错误数据重复经过同一问题路径;
◎ 二是硬件层的交叉冗余,例如将MAC与多个光学模块交织连接,即便其中一个模块失效,仍能保持链路畅通。

在系统层面,UB-Mesh还引入了“热备机架”概念。
通过为集群配备预留机架,当某个机架发生故障时,热备机架能够立刻接管任务,待修复后的机架则重新作为新的热备单元。这样一来,系统的多业务吞吐量平均无故障时间可提升百倍,显著增强了集群运行的连续性。
华为在演讲中特别提到大语言模型训练的流量模式具有层次化和成对性。这意味着在并行训练中,通信需求并非均匀分布,而是集中于特定的维度和层次。

UB-Mesh正是利用这种规律,设计出能够在局部保持高带宽、在全局保持高效路由的混合拓扑,从而减少不必要的通信开销。


小结
华为在Hot Chips 2025上展示的UB-Mesh互联,是面向未来AI超级节点的系统性思路,是将协议统一、拓扑分层和系统弹性结合起来的整体架构,人工智能数据中心规模迈向千兆瓦级,互联问题将越来越成为制约算力释放的瓶颈。从这个角度看,UB-Mesh在成本、性能和可靠性之间找到新的平衡点。
原文标题 : 华为UB-Mesh互联 技术解析| HotChips2025
图片新闻
最新活动更多
-
12月15日立即申请试用>> 【免费试用】金升阳助力机器人行业电源国产化
-
【深圳专场】立即报名 >> 12月16-17日 AMD 嵌入式峰会
-
12月19日立即报名>> 【线下会议】OFweek 2025(第十届)物联网产业大会
-
即日-1.20免费下载>> 【白皮书】COMSOL 多物理场仿真赋能电子器件设计——仿真应用实例
-
1月30日点击报名>>> 【免费试用】宏集运输冲击记录仪
-
精彩回顾立即查看>> 恩智浦创新技术峰会
-
7 硅片,洗牌进行时


分享














发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论