超级以太网联盟(UEC)旨在创建一个“基于以太网的完整通信堆栈架构”,该架构将像以太网一样普及且具有成本效益,同时提供超级计算互连的性能。该联盟的创始成员包括在HPC和网络领域深度参与的公司,包括英特尔、AMD、惠普企业、Arista、Broadcom、思科、Meta和微软,项目本身托管在Linux基金会中。
UEC主席J·梅茨博士表明,该项目的目标不是改变以太网,而是对其进行调整,以更好地适应人工智能和HPC工作负载的更高要求特性。
他说:“以太网是我们构建之上的基本技术,因为它是行业内持久、灵活且适应性强的基本网络技术的最佳例子。”
“UEC的目标是专注于如何在以太网之上最好地传输人工智能和HPC工作负载流量。当然,以前已经尝试过这样做,但没有一个项目从头开始专为高要求的人工智能和HPC工作负载设计,也没有一个项目是开放、易于使用并获得广泛采用的。”
该项目针对网络堆栈的多个层级,工作组负责制定“增强物理层和链路层性能、延迟和管理”的规范,以及制定传输层和软件层的规范。
网络对于训练规模不断增长的人工智能模型变得越来越关键;有些模型参数达到了数万亿个,需要在大型计算集群上进行训练,而网络需要尽可能高效,以保持这些集群的繁忙状态。
虽然人工智能(AI)工作负载往往对带宽需求很高,但高性能计算(HPC)也包括对延迟更敏感的工作负载,这两种要求都需要满足。
为了满足这些需求,UEC确定了以下理想特性:灵活的传输顺序;现代拥塞控制机制;多路径和分组喷射;以及更大的可扩展性和端到端遥测。
旧技术使用的刚性分组排序限制了效率,因为它阻止了乱序数据直接从网络传递到应用程序。支持放宽分组排序要求的现代API对于减少“尾延迟”至关重要。
多路径和分组喷射是同时沿源和目标之间的所有可用网络路径发送数据包,以实现最佳性能。
在AI和HPC中,网络拥塞主要是在多个发送方都针对同一节点时,交换机和接收节点之间的链路上出现的问题。而,UEC声称,目前的拥塞管理算法不能满足针对AI优化的网络的所有需求。
主要来说,UEC似乎旨在用一种新的传输层协议取代基于以太网的RDMA over Converged Ethernet(RoCE)协议,以提供所需的特性。这种Ultra Ethernet Transport将支持多路径、分组喷射传输、高效的速率控制算法,并向AI和HPC工作负载提供简单的API。
HPE参与UEC的原因值得注意,因它已经有一个基于以太网的H互连。Cray Slingshot技术是以网的“超集”,如我们在The Next Platform的同事详细描述的那样,同时保持与标准以太网帧的兼容性在HPE近年来参与的许多超级计算机项目中得到应用,例如Frontier超级计算系统。
HPE高性能互连总理Mike Vildibill告诉我们,支持UEC的动机是为了确保Slingshot在一个开放的生态系统中运行。
他说:“我们希望UEC兼容的网卡能够体验到Slingshot互连的一些性能和可扩展性优势。”
Vildibill确认,HPE将继续开发Slingshot,但他认为总会有一些第三方网卡或智能网卡可能具有Slingshot网卡上未实现的功能。
他说:“因此,UEC提供了建立强大的第三方网卡生态系统的机制,以确保我们能够满足广泛的客户需求,同时提供一些Slingshot独特的功能。”
UEC目前处于早期开发阶段,关键技术概念仍在确定和研究中。Metz博士表示,第一个正式的草案可能会在2023年底或2024年初准备好,同时也预计明年会有第一个基于标准的产品问世。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。