超级以太网联盟(UEC)旨在创建一个“基于以太网的完整通信堆栈架构”,该架构将像以太网一样普及且具有成本效益,同时提供超级计算互连的性能。该联盟的创始成员包括在HPC和网络领域深度参与的公司,包括英特尔、AMD、惠普企业、Arista、Broadcom、思科、Meta和微软,项目本身托管在Linux基金会中。
UEC主席J·梅茨博士表明,该项目的目标不是改变以太网,而是对其进行调整,以更好地适应人工智能和HPC工作负载的更高要求特性。
他说:“以太网是我们构建之上的基本技术,因为它是行业内持久、灵活且适应性强的基本网络技术的最佳例子。”
“UEC的目标是专注于如何在以太网之上最好地传输人工智能和HPC工作负载流量。当然,以前已经尝试过这样做,但没有一个项目从头开始专为高要求的人工智能和HPC工作负载设计,也没有一个项目是开放、易于使用并获得广泛采用的。”
该项目针对网络堆栈的多个层级,工作组负责制定“增强物理层和链路层性能、延迟和管理”的规范,以及制定传输层和软件层的规范。
网络对于训练规模不断增长的人工智能模型变得越来越关键;有些模型参数达到了数万亿个,需要在大型计算集群上进行训练,而网络需要尽可能高效,以保持这些集群的繁忙状态。
虽然人工智能(AI)工作负载往往对带宽需求很高,但高性能计算(HPC)也包括对延迟更敏感的工作负载,这两种要求都需要满足。
为了满足这些需求,UEC确定了以下理想特性:灵活的传输顺序;现代拥塞控制机制;多路径和分组喷射;以及更大的可扩展性和端到端遥测。
旧技术使用的刚性分组排序限制了效率,因为它阻止了乱序数据直接从网络传递到应用程序。支持放宽分组排序要求的现代API对于减少“尾延迟”至关重要。
多路径和分组喷射是同时沿源和目标之间的所有可用网络路径发送数据包,以实现最佳性能。
在AI和HPC中,网络拥塞主要是在多个发送方都针对同一节点时,交换机和接收节点之间的链路上出现的问题。而,UEC声称,目前的拥塞管理算法不能满足针对AI优化的网络的所有需求。
主要来说,UEC似乎旨在用一种新的传输层协议取代基于以太网的RDMA over Converged Ethernet(RoCE)协议,以提供所需的特性。这种Ultra Ethernet Transport将支持多路径、分组喷射传输、高效的速率控制算法,并向AI和HPC工作负载提供简单的API。
HPE参与UEC的原因值得注意,因它已经有一个基于以太网的H互连。Cray Slingshot技术是以网的“超集”,如我们在The Next Platform的同事详细描述的那样,同时保持与标准以太网帧的兼容性在HPE近年来参与的许多超级计算机项目中得到应用,例如Frontier超级计算系统。
HPE高性能互连总理Mike Vildibill告诉我们,支持UEC的动机是为了确保Slingshot在一个开放的生态系统中运行。
他说:“我们希望UEC兼容的网卡能够体验到Slingshot互连的一些性能和可扩展性优势。”
Vildibill确认,HPE将继续开发Slingshot,但他认为总会有一些第三方网卡或智能网卡可能具有Slingshot网卡上未实现的功能。
他说:“因此,UEC提供了建立强大的第三方网卡生态系统的机制,以确保我们能够满足广泛的客户需求,同时提供一些Slingshot独特的功能。”
UEC目前处于早期开发阶段,关键技术概念仍在确定和研究中。Metz博士表示,第一个正式的草案可能会在2023年底或2024年初准备好,同时也预计明年会有第一个基于标准的产品问世。
好文章,需要你的鼓励
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面
“未来软件定义汽车”的设想也成为马丁当前运营路线的指导方针,且高度关注数据、零件和资产管理等议题。