超以太网：AI 集群的开放高速底座

Sat, 23 May 2026 06:16:51 +0000

大模型训练正在改变数据中心网络的设计假设。过去，网络更多承担“连接服务器”的角色；今天，它已经成为 GPU 集群能否跑满算力的关键路径。AllReduce、All-to-All、参数同步、专家并行、KV Cache 传输，这些通信模式共同指向一个事实：AI 后端网络必须同时满足高带宽、低尾延迟、高路径利用率和大规模可运维性。

Ultra Ethernet，简称 UE，正是在这一背景下出现的新一代高性能以太网体系。制定它的组织是 Ultra Ethernet Consortium（UEC），核心传输协议是 Ultra Ethernet Transport（UET）。UEC 于 2025 年 6 月发布 UEC Specification 1.0，官方将其定位为面向 AI 与 HPC 的完整以太网通信栈，覆盖 NIC、交换机、光模块、线缆以及软件接口等层面。¹

# UE 的定位：AI/HPC 后端网络的系统性升级

Ultra Ethernet 并不是要替代所有以太网，而是首先瞄准 AI/HPC 集群中的后端高性能网络，也就是常说的 Scale-Out Fabric。UE 规范作者在设计论文中说明，UE 1.0 主要面向后端网络，适用于 400Gbps 以上链路、中等距离连接以及较大消息负载的场景。²

图 1：UE 规范中的网络类型示意。Local/Scale-Up 网络连接节点内 CPU 与加速器，Backend/Scale-Out 网络连接计算设备，Frontend 网络承载传统数据中心流量。UE 1.0 的主要目标是后端高性能网络。

UE 的目标不是抛弃以太网生态，而是在尽量保持以太网/IP 兼容性的基础上，为 AI/HPC 增加新的传输、拥塞控制、负载均衡和可靠性机制。UE 设计论文明确指出，UE 使用 IPv4/IPv6 兼容的三层寻址和报文头，Fabric Endpoint（FEP）则是传输层两端的逻辑实体，可近似理解为传统 NIC 在 UE 语境下的对应物。²

# RoCEv2 的历史包袱

RoCEv2 的价值在于，它把 RDMA 带入了可路由以太网。NVIDIA 文档也将 RoCE 描述为一种利用 RDMA 能力、在应用层实现直接内存到内存传输、并由硬件完成传输处理和内存放置的协议。³

但 RoCEv2 的历史包袱同样明显。UE 设计论文指出，RoCEv2 基本沿用了 InfiniBand 的传输协议，要求无损传输和严格按序交付；在融合以太网中，这通常依赖 PFC 作为主要机制。PFC 需要独立流量类别和较大的 headroom buffer，并会带来拥塞扩散与队头阻塞问题。²

这正是大模型集群中的痛点。训练通信往往高度同步、突发且集中，某一处拥塞可能通过 PFC 暂停机制向上游传播，最终形成链式阻塞。与此同时，传统 ECMP 通常按 flow 哈希选路，同一个 flow 的包会走同一路径；一旦大流发生哈希碰撞，就会出现某些链路拥堵、其他链路空闲的带宽浪费。UE 官方博客也明确把 UET 的 packet spraying 描述为对 ECMP flow collision 问题的改进。⁴

# UE 协议栈形态

图 2：UE 规范中的分层视图。UE 最大的变化集中在 Transport 层；PHY、Link、Network 层保持以太网/IP 兼容，同时引入若干可选增强。

从分层看，Ultra Ethernet 的核心是 UET。UEC 1.0 白皮书将 UET 称为 UEC 1.0 最重要的交付物：它提供从网络直接到应用内存、从应用内存直接到网络的数据交付能力，也就是 RDMA 能力，但引入了不同于既有 RDMA 协议的新机制。

图 3：UET 协议栈与报文结构示意。UET 位于应用层与 IP 网络层之间，通过 SES、PDS、CMS、TSS 等子层分别承载语义、包交付、拥塞管理和传输安全能力；下层仍基于以太网数据链路与物理层，并可叠加 Link Level Retry、Credit-Based Flow Control 等可选增强。

这张图进一步说明了 UE 的设计边界：UET 并不是一个孤立的“新 RDMA 协议”，而是位于 libfabric 等上层通信接口与 IP/Ethernet 下层网络之间的一套传输层体系。它把应用侧需要的 Send/Receive、RMA Read/Write 等语义放在 SES 层，把请求、响应、控制包和丢包检测放在 PDS 层，把窗口式发送、可选接收端拥塞控制和负载均衡放在 CMS 层，再通过 TSS 处理密钥、重放保护等安全能力。换句话说，UE 的改造重点集中在传输层，但它并不脱离以太网/IP，而是在现有网络层、数据链路层和物理层之上，补上一套面向 AI/HPC 通信特征的新型传输机制。

这套设计的关键，不是简单把 RoCEv2 再调优一次，而是重新审视 AI/HPC 网络中的几个基本假设：网络是否必须严格无损？数据包是否必须按序到达？大规模端点之间的连接状态是否还能继续膨胀？拥塞是否只能依赖暂停链路来避免？

UE 给出的答案更接近一种“端网协同”的思路：网络可以更灵活，端侧必须更聪明；拥塞可以更早暴露，恢复必须更快发生。沿着这条主线，UET 的核心机制可以概括为三点：乱序友好、拥塞可感知、连接轻量化。

# UET 的关键机制

# Packet Spraying

Packet Spraying 是 UET 解决路径利用率问题的核心机制。

图 4：UE Packet Spraying 示意图

传统 ECMP 通常把同一个 flow 固定到一条路径。UE 则引入 Entropy Value（EV）机制，源端 FEP 可以为不同数据包选择不同 EV，使这些包在 ECMP 网络中走向不同路径；如果需要按序，也可以选择相同 EV。²

提示

这里的 EV 可以理解为给 ECMP 哈希使用的“扰动值”。它不是业务 ID，也不是直接指定路径的编号；源端通过为不同数据包设置不同 EV，让交换机在计算 ECMP 哈希时得到不同结果，从而把同一个大流的数据包分散到多条等价路径上。如果业务需要保持顺序，也可以让相关数据包使用相同 EV，使它们继续走同一路径。

因此，UE 的思路不是“一个大流选一条路”，而是“一个大流的不同包可以分散到多条路”。官方博客将其概括为：UET sender 可以把包喷洒到通往目的端的多条路径上，从而避免 ECMP flow collision，让链路负载更加均衡。⁴

这里需要避免一个误解：UE 并不是简单要求接收端把所有乱序包重新排成顺序。UET 定义了多种传输模式，包括 RUD、ROD、UUD、RUDI。其中 RUD（Reliable Unordered Delivery） 是面向大消息的默认高效可靠模式，因为它允许包在网络中乱序到达，并支持 packet spraying。UE 规范作者还指出，RUD 是 UET 中最高效的可靠传输模式之一。²

# Packet Trimming

Packet Trimming 是 UET 面向拥塞丢包的快速感知机制。

图 5：UE Packet Trimming 示意图

在传统设计里，交换机遇到缓冲区不足时，通常只有两种选择：丢包，或者通过 PFC 等机制暂停上游。UE 提供了第三种选择：当某个数据包本来会因为拥塞被丢弃时，支持该功能的交换机可以剪掉 payload，只保留必要头部，并把这个“被修剪的包”继续转发给目的端。目的端收到 trimmed packet 后，就能知道原始 payload 没有成功到达，并尽快请求源端重传。²

这套机制的价值在于，它把“隐式丢包”变成了“显式信号”。UEC 官方博客也把 packet trimming 描述为一种高级遥测方式：交换机在拥塞时截断数据包，而不是直接丢弃，并将包头和相关拥塞信息送到接收端，以便更快缓解 incast 型拥塞。⁵

总而言之，第一，Packet Trimming 是可选能力；第二，它需要交换机支持；第三，它主要用于拥塞丢包检测，并不能检测链路误码导致的 corruption drop。²

# Ephemeral PDC

UE 也重新思考了连接的成本。

传统 RDMA 模型中，连接、队列对和资源预留往往会带来可观的状态开销。在传统的 RDMA（如 RoCEv2 或 InfiniBand）中，两台服务器之间进行通信必须先建立 QP。

QP 的问题是持久性的：一旦建立，连接就会一直保存在网卡（NIC）的硬件内存中，直到被显式销毁。
规模爆炸：在拥有数万甚至数十万个 GPU 的 AI 训练集群中，如果每个节点上的进程都要和其他节点建立连接（All-to-All 集合通信需求），全网所需的 QP 数量会呈几何级数 $ O(N^2) $ 级别暴增。
网卡内存耗尽：网卡芯片上的高速缓存非常有限，根本存不下几十万个 QP 的状态信息。这会导致频繁的“QP 缓存抖动（QP Cache Thrashing）”，使得网络性能雪崩。

UE 引入 ephemeral Packet Delivery Contexts（PDCs），用来管理源端到目的端的可靠包传输；规范说明，PDC 可以在首包到达时建立，不引入额外首包延迟。²，简单来说核心思想就是：不需要在初始化时为所有可能的目标预留硬件连接，而是只在通信的瞬间动态建立一个“临时通道”，传输完毕立刻释放。

这就是“短命连接”或“0-RTT 连接启动”背后的真实含义：它并不是说物理时延消失，而是说 UET 避免了传统连接模型中的额外握手等待，把可靠传输上下文的建立变得更轻、更快，也更适合大规模并发通信。

# 拥塞控制

UE 并不依赖单一机制解决拥塞。UET 的拥塞管理子系统包含拥塞控制和负载均衡，基础部署只要求交换机支持 ECMP 和基本 ECN；同时，UE 可以利用 packet trimming 等快速丢包检测机制提升恢复效率。²

图 6：UE 拥塞控制示意图

UET 定义了两类互补拥塞控制算法：NSCC（Network Signal-based Congestion Control） 和 RCCC（Receiver Credit-based Congestion Control）。NSCC 在源端运行控制环路，根据 RTT、ECN、丢包等网络信号调整窗口；RCCC 则由接收端分配 credit，是一种可选的接收端驱动机制。²

UEC 官方博客也解释了这一点：UET 的发送端拥塞控制会根据 RTT、ECN 标记和丢包调整窗口；接收端 credit 机制则允许发送端请求发送许可，由接收端授予 credit，以避免接收端被 incast 流量压垮。⁴

从这个角度看，UE 的拥塞控制不是把某一种算法推到极致，而是把网络信号、接收端反馈和快速丢包感知组合起来，形成更适合 AI 集群突发流量的闭环。

# IB、RoCEv2、UE 对比

如果把 InfiniBand、RoCEv2 和 Ultra Ethernet 放在同一个坐标系里看，它们之间的差异会更清楚。IB 的高性能能力包括成熟的拥塞控制、动态路由、SHARP 等网络内计算能力；RoCEv2 则把 RDMA 带到以太网/IP 体系中，但典型无损部署依赖 PFC 和 ECN；UE 的目标是在以太网生态内标准化面向 AI/HPC 的新传输层与拥塞控制机制。⁶

维度	InfiniBand（IB）	RoCEv2	Ultra Ethernet（UE / UET）
技术定位	面向 HPC/AI 的专用高性能互连	基于以太网/IP 的 RDMA 承载方式	面向 AI/HPC 的增强型以太网通信栈
生态基础	专用 IB 设备、管理和运维体系	复用以太网交换机与 IP 网络	以以太网/IP 兼容为基础，扩展传输、拥塞控制和链路能力
RDMA 语义	原生 RDMA	继承 IBTA RDMA 语义	现代化 RDMA over Ethernet/IP，核心为 UET
交付模型	高性能、低延迟、成熟专用 fabric	通常要求无损或近无损以太网	支持 best-effort/lossy 网络，也可运行在 lossless 网络
流控机制	专用拥塞控制、QoS、虚拟通道等能力	典型 lossless 模式依赖 PFC，配合 ECN/CNP	以端侧拥塞控制为核心，支持 NSCC、可选 RCCC、可选 CBFC/LLR
负载均衡	支持动态/自适应路由，依赖具体实现	常见 ECMP flow-based 哈希，存在大流碰撞风险	支持 packet spraying，通过 EV 实现逐包多路径分发
顺序模型	传统上强调可靠按序语义	严格按序交付约束明显	同时支持 ROD、RUD、UUD、RUDI，面向乱序场景优化
丢包恢复	专用 fabric 内的可靠性机制	丢包代价高，常通过 PFC 避免丢包	支持快速丢包检测，可选 packet trimming 辅助精确重传
连接状态	成熟但状态较重	Queue Pair 等连接状态较重	Ephemeral PDC，面向大规模端点降低连接状态压力
互操作性	高性能但生态相对集中	以太网生态友好，但调优复杂	目标是开放标准、多厂商互操作、减少锁定
成熟度	商业部署成熟	大规模数据中心部署成熟	规范已发布，生态和产品仍在加速成熟

# 架构收益

图 7：UEC 1.0 白皮书中的收益对比表，列出了从传统 RDMA 网络到 Ultra Ethernet 的关键变化，包括乱序交付、packet spraying、拥塞控制、安全能力和大规模端点目标。

Ultra Ethernet 最值得关注的地方，不是某一个单点功能，而是它把多个长期困扰 AI 网络的问题放进了同一个协议框架里。

它用 Packet Spraying 改善路径利用率，用 Packet Trimming 缩短拥塞丢包感知时间，用 Ephemeral PDC 降低连接状态开销，用 NSCC / RCCC 构建端侧闭环拥塞控制，并用多种传输模式适配 AI 与 HPC 不同的顺序语义需求。

UEC 官方将 UEC 1.0 描述为跨 NIC、交换机、光模块和线缆的完整以太网通信栈，并强调其开放标准、互操作和避免厂商锁定的目标。¹

但也正因为 UE 试图解决的是系统性问题，它的落地不会只取决于一个协议版本。基础 UET 可以尽量利用现有以太网/IP 能力，例如 ECMP 和 ECN；但要充分发挥 packet trimming、CBFC、LLR、链路级增强、端到端安全和高级拥塞控制等能力，仍需要 NIC、交换机、软件栈、运维工具和互操作认证共同成熟。UE 设计论文也指出，UE 的物理层和链路层保持以太网兼容，同时定义了若干可选扩展，以便在新部署中进一步提升性能。²

所以，与其把 UE 理解成“RoCEv2 的立即替代品”，不如把它看成一条更清晰的标准化演进路线：它试图把过去依赖专用网络、厂商实现和复杂调优经验的能力，逐步沉淀为开放以太网生态中的通用机制。

# 值得关注的方向

RoCEv2 曾经让 RDMA 进入以太网数据中心，这是它的重要历史贡献。但在大模型集群继续扩大之后，PFC 依赖、flow-based 哈希、严格按序交付、连接状态和尾延迟问题都被进一步放大。

Ultra Ethernet 的意义，正在于它没有继续沿着“把以太网调成无损网络”的路径走下去，而是承认 AI/HPC 通信的现实：数据包可能乱序，拥塞一定会发生，大流可能碰撞，连接状态不能无限膨胀，尾延迟会直接影响整体训练效率。

在这个前提下，UE 的价值不只是“更快”，而是“更对题”。它试图让以太网不再只是承载 RDMA 的通道，而是进一步成为一种面向 AI/HPC 原生优化的高性能互连。对于希望兼顾开放生态、成本可控和高性能能力的基础设施建设者来说，这种方向感本身就值得认真关注。

# 总结

如果说 InfiniBand 代表专用高性能互连，RoCEv2 代表 RDMA 进入以太网，那么 Ultra Ethernet 代表的，或许正是高性能以太网的下一次系统性升级。

它并不是对 RoCEv2 的简单微调，也不是对 InfiniBand 的直接复刻。它更像是在以太网这条主线上，重新吸收 AI/HPC 网络已经证明有效的设计经验：多路径利用、快速拥塞反馈、端侧可靠恢复、轻量连接状态，以及更开放的互操作生态。

Ultra Ethernet on Cuterwrite's Blog