超级以太网联盟(UEC)旨在创建一个“基于以太网的完整通信堆栈架构”,该架构将像以太网一样普及且具有成本效益,同时提供超级计算互连的性能。该联盟的创始成员包括在HPC和网络领域深度参与的公司,包括英特尔、AMD、惠普企业、Arista、Broadcom、思科、Meta和微软,项目本身托管在Linux基金会中。
UEC主席J·梅茨博士表明,该项目的目标不是改变以太网,而是对其进行调整,以更好地适应人工智能和HPC工作负载的更高要求特性。
他说:“以太网是我们构建之上的基本技术,因为它是行业内持久、灵活且适应性强的基本网络技术的最佳例子。”
“UEC的目标是专注于如何在以太网之上最好地传输人工智能和HPC工作负载流量。当然,以前已经尝试过这样做,但没有一个项目从头开始专为高要求的人工智能和HPC工作负载设计,也没有一个项目是开放、易于使用并获得广泛采用的。”
该项目针对网络堆栈的多个层级,工作组负责制定“增强物理层和链路层性能、延迟和管理”的规范,以及制定传输层和软件层的规范。
网络对于训练规模不断增长的人工智能模型变得越来越关键;有些模型参数达到了数万亿个,需要在大型计算集群上进行训练,而网络需要尽可能高效,以保持这些集群的繁忙状态。
虽然人工智能(AI)工作负载往往对带宽需求很高,但高性能计算(HPC)也包括对延迟更敏感的工作负载,这两种要求都需要满足。
为了满足这些需求,UEC确定了以下理想特性:灵活的传输顺序;现代拥塞控制机制;多路径和分组喷射;以及更大的可扩展性和端到端遥测。
旧技术使用的刚性分组排序限制了效率,因为它阻止了乱序数据直接从网络传递到应用程序。支持放宽分组排序要求的现代API对于减少“尾延迟”至关重要。
多路径和分组喷射是同时沿源和目标之间的所有可用网络路径发送数据包,以实现最佳性能。
在AI和HPC中,网络拥塞主要是在多个发送方都针对同一节点时,交换机和接收节点之间的链路上出现的问题。而,UEC声称,目前的拥塞管理算法不能满足针对AI优化的网络的所有需求。
主要来说,UEC似乎旨在用一种新的传输层协议取代基于以太网的RDMA over Converged Ethernet(RoCE)协议,以提供所需的特性。这种Ultra Ethernet Transport将支持多路径、分组喷射传输、高效的速率控制算法,并向AI和HPC工作负载提供简单的API。
HPE参与UEC的原因值得注意,因它已经有一个基于以太网的H互连。Cray Slingshot技术是以网的“超集”,如我们在The Next Platform的同事详细描述的那样,同时保持与标准以太网帧的兼容性在HPE近年来参与的许多超级计算机项目中得到应用,例如Frontier超级计算系统。
HPE高性能互连总理Mike Vildibill告诉我们,支持UEC的动机是为了确保Slingshot在一个开放的生态系统中运行。
他说:“我们希望UEC兼容的网卡能够体验到Slingshot互连的一些性能和可扩展性优势。”
Vildibill确认,HPE将继续开发Slingshot,但他认为总会有一些第三方网卡或智能网卡可能具有Slingshot网卡上未实现的功能。
他说:“因此,UEC提供了建立强大的第三方网卡生态系统的机制,以确保我们能够满足广泛的客户需求,同时提供一些Slingshot独特的功能。”
UEC目前处于早期开发阶段,关键技术概念仍在确定和研究中。Metz博士表示,第一个正式的草案可能会在2023年底或2024年初准备好,同时也预计明年会有第一个基于标准的产品问世。
好文章,需要你的鼓励
中科大团队开发出LongAnimation系统,解决了长动画自动上色中的色彩一致性难题。该系统采用动态全局-局部记忆机制,能够为平均500帧的动画进行稳定上色,性能比现有方法提升35-58%。核心创新包括SketchDiT特征提取器、智能记忆模块和色彩优化机制,可大幅提升动画制作效率。
传统数据工程面临数据质量差、治理不善等挑战,成为AI项目的最大障碍。多智能体AI系统通过协作方式正在彻底改变数据准备、治理和应用模式。Google Cloud基于Gemini大语言模型构建协作生态系统,让不同智能体专门负责数据工程、科学、治理和分析等任务。系统通过分层架构理解组织环境,自主学习历史工作流程,能够预防问题并自动处理重复性任务,大幅提升效率。
南开大学团队开发出DepthAnything-AC模型,解决了现有AI距离估算系统在恶劣天气和复杂光照条件下性能下降的问题。通过创新的扰动一致性训练框架和空间距离约束机制,该模型仅用54万张图片就实现了在雨雪、雾霾、夜晚等复杂环境下的稳定距离判断,同时保持正常条件下的优秀性能,为自动驾驶和机器人导航等应用提供了重要技术支撑。