大模型训练正在改变数据中心网络的设计假设。过去,网络更多承担“连接服务器”的角色;今天,它已经成为 GPU 集群能否跑满算力的关键路径。AllReduce、All-to-All、参数同步、专家并行、KV Cache 传输,这些通信模式共同指向一个事实:AI 后端网络必须同时满足高带宽、低尾延迟、高路径利用率和大规模可运维性。
Ultra Ethernet,简称 UE,正是在这一背景下出现的新一代高性能以太网体系。制定它的组织是 Ultra Ethernet Consortium(UEC),核心传输协议是 Ultra Ethernet Transport(UET)。UEC 于 2025 年 6 月发布 UEC Specification 1.0,官方将其定位为面向 AI 与 HPC 的完整以太网通信栈,覆盖 NIC、交换机、光模块、线缆以及软件接口等层面。1
# UE 的定位:AI/HPC 后端网络的系统性升级
Ultra Ethernet 并不是要替代所有以太网,而是首先瞄准 AI/HPC 集群中的后端高性能网络,也就是常说的 Scale-Out Fabric。UE 规范作者在设计论文中说明,UE 1.0 主要面向后端网络,适用于 400Gbps 以上链路、中等距离连接以及较大消息负载的场景。2

图 1:UE 规范中的网络类型示意。Local/Scale-Up 网络连接节点内 CPU 与加速器,Backend/Scale-Out 网络连接计算设备,Frontend 网络承载传统数据中心流量。UE 1.0 的主要目标是后端高性能网络。
UE 的目标不是抛弃以太网生态,而是在尽量保持以太网/IP 兼容性的基础上,为 AI/HPC 增加新的传输、拥塞控制、负载均衡和可靠性机制。UE 设计论文明确指出,UE 使用 IPv4/IPv6 兼容的三层寻址和报文头,Fabric Endpoint(FEP)则是传输层两端的逻辑实体,可近似理解为传统 NIC 在 UE 语境下的对应物。2
# RoCEv2 的历史包袱
RoCEv2 的价值在于,它把 RDMA 带入了可路由以太网。NVIDIA 文档也将 RoCE 描述为一种利用 RDMA 能力、在应用层实现直接内存到内存传输、并由硬件完成传输处理和内存放置的协议。3
但 RoCEv2 的历史包袱同样明显。UE 设计论文指出,RoCEv2 基本沿用了 InfiniBand 的传输协议,要求无损传输和严格按序交付;在融合以太网中,这通常依赖 PFC 作为主要机制。PFC 需要独立流量类别和较大的 headroom buffer,并会带来拥塞扩散与队头阻塞问题。2
这正是大模型集群中的痛点。训练通信往往高度同步、突发且集中,某一处拥塞可能通过 PFC 暂停机制向上游传播,最终形成链式阻塞。与此同时,传统 ECMP 通常按 flow 哈希选路,同一个 flow 的包会走同一路径;一旦大流发生哈希碰撞,就会出现某些链路拥堵、其他链路空闲的带宽浪费。UE 官方博客也明确把 UET 的 packet spraying 描述为对 ECMP flow collision 问题的改进。4
# UE 协议栈形态

图 2:UE 规范中的分层视图。UE 最大的变化集中在 Transport 层;PHY、Link、Network 层保持以太网/IP 兼容,同时引入若干可选增强。
从分层看,Ultra Ethernet 的核心是 UET。UEC 1.0 白皮书将 UET 称为 UEC 1.0 最重要的交付物:它提供从网络直接到应用内存、从应用内存直接到网络的数据交付能力,也就是 RDMA 能力,但引入了不同于既有 RDMA 协议的新机制。

图 3:UET 协议栈与报文结构示意。UET 位于应用层与 IP 网络层之间,通过 SES、PDS、CMS、TSS 等子层分别承载语义、包交付、拥塞管理和传输安全能力;下层仍基于以太网数据链路与物理层,并可叠加 Link Level Retry、Credit-Based Flow Control 等可选增强。
这张图进一步说明了 UE 的设计边界:UET 并不是一个孤立的“新 RDMA 协议”,而是位于 libfabric 等上层通信接口与 IP/Ethernet 下层网络之间的一套传输层体系。它把应用侧需要的 Send/Receive、RMA Read/Write 等语义放在 SES 层,把请求、响应、控制包和丢包检测放在 PDS 层,把窗口式发送、可选接收端拥塞控制和负载均衡放在 CMS 层,再通过 TSS 处理密钥、重放保护等安全能力。换句话说,UE 的改造重点集中在传输层,但它并不脱离以太网/IP,而是在现有网络层、数据链路层和物理层之上,补上一套面向 AI/HPC 通信特征的新型传输机制。
这套设计的关键,不是简单把 RoCEv2 再调优一次,而是重新审视 AI/HPC 网络中的几个基本假设:网络是否必须严格无损?数据包是否必须按序到达?大规模端点之间的连接状态是否还能继续膨胀?拥塞是否只能依赖暂停链路来避免?
UE 给出的答案更接近一种“端网协同”的思路:网络可以更灵活,端侧必须更聪明;拥塞可以更早暴露,恢复必须更快发生。沿着这条主线,UET 的核心机制可以概括为三点:乱序友好、拥塞可感知、连接轻量化。
# UET 的关键机制
# Packet Spraying
Packet Spraying 是 UET 解决路径利用率问题的核心机制。

图 4:UE Packet Spraying 示意图
传统 ECMP 通常把同一个 flow 固定到一条路径。UE 则引入 Entropy Value(EV)机制,源端 FEP 可以为不同数据包选择不同 EV,使这些包在 ECMP 网络中走向不同路径;如果需要按序,也可以选择相同 EV。2
提示
这里的 EV 可以理解为给 ECMP 哈希使用的“扰动值”。它不是业务 ID,也不是直接指定路径的编号;源端通过为不同数据包设置不同 EV,让交换机在计算 ECMP 哈希时得到不同结果,从而把同一个大流的数据包分散到多条等价路径上。如果业务需要保持顺序,也可以让相关数据包使用相同 EV,使它们继续走同一路径。
因此,UE 的思路不是“一个大流选一条路”,而是“一个大流的不同包可以分散到多条路”。官方博客将其概括为:UET sender 可以把包喷洒到通往目的端的多条路径上,从而避免 ECMP flow collision,让链路负载更加均衡。4
这里需要避免一个误解:UE 并不是简单要求接收端把所有乱序包重新排成顺序。UET 定义了多种传输模式,包括 RUD、ROD、UUD、RUDI。其中 RUD(Reliable Unordered Delivery) 是面向大消息的默认高效可靠模式,因为它允许包在网络中乱序到达,并支持 packet spraying。UE 规范作者还指出,RUD 是 UET 中最高效的可靠传输模式之一。2
# Packet Trimming
Packet Trimming 是 UET 面向拥塞丢包的快速感知机制。

图 5:UE Packet Trimming 示意图
在传统设计里,交换机遇到缓冲区不足时,通常只有两种选择:丢包,或者通过 PFC 等机制暂停上游。UE 提供了第三种选择:当某个数据包本来会因为拥塞被丢弃时,支持该功能的交换机可以剪掉 payload,只保留必要头部,并把这个“被修剪的包”继续转发给目的端。目的端收到 trimmed packet 后,就能知道原始 payload 没有成功到达,并尽快请求源端重传。2
这套机制的价值在于,它把“隐式丢包”变成了“显式信号”。UEC 官方博客也把 packet trimming 描述为一种高级遥测方式:交换机在拥塞时截断数据包,而不是直接丢弃,并将包头和相关拥塞信息送到接收端,以便更快缓解 incast 型拥塞。5
总而言之,第一,Packet Trimming 是可选能力;第二,它需要交换机支持;第三,它主要用于拥塞丢包检测,并不能检测链路误码导致的 corruption drop。2
# Ephemeral PDC
UE 也重新思考了连接的成本。
传统 RDMA 模型中,连接、队列对和资源预留往往会带来可观的状态开销。在传统的 RDMA(如 RoCEv2 或 InfiniBand)中,两台服务器之间进行通信必须先建立 QP。
- QP 的问题是持久性的:一旦建立,连接就会一直保存在网卡(NIC)的硬件内存中,直到被显式销毁。
- 规模爆炸:在拥有数万甚至数十万个 GPU 的 AI 训练集群中,如果每个节点上的进程都要和其他节点建立连接(All-to-All 集合通信需求),全网所需的 QP 数量会呈几何级数 $ O(N^2) $ 级别暴增。
- 网卡内存耗尽:网卡芯片上的高速缓存非常有限,根本存不下几十万个 QP 的状态信息。这会导致频繁的“QP 缓存抖动(QP Cache Thrashing)”,使得网络性能雪崩。
UE 引入 ephemeral Packet Delivery Contexts(PDCs),用来管理源端到目的端的可靠包传输;规范说明,PDC 可以在首包到达时建立,不引入额外首包延迟。2,简单来说核心思想就是:不需要在初始化时为所有可能的目标预留硬件连接,而是只在通信的瞬间动态建立一个“临时通道”,传输完毕立刻释放。
这就是“短命连接”或“0-RTT 连接启动”背后的真实含义:它并不是说物理时延消失,而是说 UET 避免了传统连接模型中的额外握手等待,把可靠传输上下文的建立变得更轻、更快,也更适合大规模并发通信。
# 拥塞控制
UE 并不依赖单一机制解决拥塞。UET 的拥塞管理子系统包含拥塞控制和负载均衡,基础部署只要求交换机支持 ECMP 和基本 ECN;同时,UE 可以利用 packet trimming 等快速丢包检测机制提升恢复效率。2

图 6:UE 拥塞控制示意图
UET 定义了两类互补拥塞控制算法:NSCC(Network Signal-based Congestion Control) 和 RCCC(Receiver Credit-based Congestion Control)。NSCC 在源端运行控制环路,根据 RTT、ECN、丢包等网络信号调整窗口;RCCC 则由接收端分配 credit,是一种可选的接收端驱动机制。2
UEC 官方博客也解释了这一点:UET 的发送端拥塞控制会根据 RTT、ECN 标记和丢包调整窗口;接收端 credit 机制则允许发送端请求发送许可,由接收端授予 credit,以避免接收端被 incast 流量压垮。4
从这个角度看,UE 的拥塞控制不是把某一种算法推到极致,而是把网络信号、接收端反馈和快速丢包感知组合起来,形成更适合 AI 集群突发流量的闭环。
# IB、RoCEv2、UE 对比
如果把 InfiniBand、RoCEv2 和 Ultra Ethernet 放在同一个坐标系里看,它们之间的差异会更清楚。IB 的高性能能力包括成熟的拥塞控制、动态路由、SHARP 等网络内计算能力;RoCEv2 则把 RDMA 带到以太网/IP 体系中,但典型无损部署依赖 PFC 和 ECN;UE 的目标是在以太网生态内标准化面向 AI/HPC 的新传输层与拥塞控制机制。6
| 维度 | InfiniBand(IB) | RoCEv2 | Ultra Ethernet(UE / UET) |
|---|---|---|---|
| 技术定位 | 面向 HPC/AI 的专用高性能互连 | 基于以太网/IP 的 RDMA 承载方式 | 面向 AI/HPC 的增强型以太网通信栈 |
| 生态基础 | 专用 IB 设备、管理和运维体系 | 复用以太网交换机与 IP 网络 | 以以太网/IP 兼容为基础,扩展传输、拥塞控制和链路能力 |
| RDMA 语义 | 原生 RDMA | 继承 IBTA RDMA 语义 | 现代化 RDMA over Ethernet/IP,核心为 UET |
| 交付模型 | 高性能、低延迟、成熟专用 fabric | 通常要求无损或近无损以太网 | 支持 best-effort/lossy 网络,也可运行在 lossless 网络 |
| 流控机制 | 专用拥塞控制、QoS、虚拟通道等能力 | 典型 lossless 模式依赖 PFC,配合 ECN/CNP | 以端侧拥塞控制为核心,支持 NSCC、可选 RCCC、可选 CBFC/LLR |
| 负载均衡 | 支持动态/自适应路由,依赖具体实现 | 常见 ECMP flow-based 哈希,存在大流碰撞风险 | 支持 packet spraying,通过 EV 实现逐包多路径分发 |
| 顺序模型 | 传统上强调可靠按序语义 | 严格按序交付约束明显 | 同时支持 ROD、RUD、UUD、RUDI,面向乱序场景优化 |
| 丢包恢复 | 专用 fabric 内的可靠性机制 | 丢包代价高,常通过 PFC 避免丢包 | 支持快速丢包检测,可选 packet trimming 辅助精确重传 |
| 连接状态 | 成熟但状态较重 | Queue Pair 等连接状态较重 | Ephemeral PDC,面向大规模端点降低连接状态压力 |
| 互操作性 | 高性能但生态相对集中 | 以太网生态友好,但调优复杂 | 目标是开放标准、多厂商互操作、减少锁定 |
| 成熟度 | 商业部署成熟 | 大规模数据中心部署成熟 | 规范已发布,生态和产品仍在加速成熟 |
# 架构收益

图 7:UEC 1.0 白皮书中的收益对比表,列出了从传统 RDMA 网络到 Ultra Ethernet 的关键变化,包括乱序交付、packet spraying、拥塞控制、安全能力和大规模端点目标。
Ultra Ethernet 最值得关注的地方,不是某一个单点功能,而是它把多个长期困扰 AI 网络的问题放进了同一个协议框架里。
它用 Packet Spraying 改善路径利用率,用 Packet Trimming 缩短拥塞丢包感知时间,用 Ephemeral PDC 降低连接状态开销,用 NSCC / RCCC 构建端侧闭环拥塞控制,并用多种传输模式适配 AI 与 HPC 不同的顺序语义需求。
UEC 官方将 UEC 1.0 描述为跨 NIC、交换机、光模块和线缆的完整以太网通信栈,并强调其开放标准、互操作和避免厂商锁定的目标。1
但也正因为 UE 试图解决的是系统性问题,它的落地不会只取决于一个协议版本。基础 UET 可以尽量利用现有以太网/IP 能力,例如 ECMP 和 ECN;但要充分发挥 packet trimming、CBFC、LLR、链路级增强、端到端安全和高级拥塞控制等能力,仍需要 NIC、交换机、软件栈、运维工具和互操作认证共同成熟。UE 设计论文也指出,UE 的物理层和链路层保持以太网兼容,同时定义了若干可选扩展,以便在新部署中进一步提升性能。2
所以,与其把 UE 理解成“RoCEv2 的立即替代品”,不如把它看成一条更清晰的标准化演进路线:它试图把过去依赖专用网络、厂商实现和复杂调优经验的能力,逐步沉淀为开放以太网生态中的通用机制。
# 值得关注的方向
RoCEv2 曾经让 RDMA 进入以太网数据中心,这是它的重要历史贡献。但在大模型集群继续扩大之后,PFC 依赖、flow-based 哈希、严格按序交付、连接状态和尾延迟问题都被进一步放大。
Ultra Ethernet 的意义,正在于它没有继续沿着“把以太网调成无损网络”的路径走下去,而是承认 AI/HPC 通信的现实:数据包可能乱序,拥塞一定会发生,大流可能碰撞,连接状态不能无限膨胀,尾延迟会直接影响整体训练效率。
在这个前提下,UE 的价值不只是“更快”,而是“更对题”。它试图让以太网不再只是承载 RDMA 的通道,而是进一步成为一种面向 AI/HPC 原生优化的高性能互连。对于希望兼顾开放生态、成本可控和高性能能力的基础设施建设者来说,这种方向感本身就值得认真关注。
# 总结
如果说 InfiniBand 代表专用高性能互连,RoCEv2 代表 RDMA 进入以太网,那么 Ultra Ethernet 代表的,或许正是高性能以太网的下一次系统性升级。
它并不是对 RoCEv2 的简单微调,也不是对 InfiniBand 的直接复刻。它更像是在以太网这条主线上,重新吸收 AI/HPC 网络已经证明有效的设计经验:多路径利用、快速拥塞反馈、端侧可靠恢复、轻量连接状态,以及更开放的互操作生态。
Ultra Ethernet Consortium (UEC) Launches Specification 1.0 Transforming Ethernet for AI and HPC at Scale - Ultra Ethernet Consortium ↩︎ ↩︎
Ultra Ethernet’s Design Principles and Architectural Innovations ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Ultra Ethernet Specification Update - Ultra Ethernet Consortium ↩︎ ↩︎ ↩︎
UEC Progresses Towards v1.0 Set of Specifications - Ultra Ethernet Consortium ↩︎
