超级以太网联盟希望为人工智能和高性能计算优化网络

科技公司已经启动了一个项目，将以太网标准进行适应性改进，使其更适合满足人工智能和高性能计算（HPC）应用的高要求网络需求。

超级以太网联盟（UEC）旨在创建一个“基于以太网的完整通信堆栈架构”，该架构将像以太网一样普及且具有成本效益，同时提供超级计算互连的性能。该联盟的创始成员包括在HPC和网络领域深度参与的公司，包括英特尔、AMD、惠普企业、Arista、Broadcom、思科、Meta和微软，项目本身托管在Linux基金会中。

UEC主席J·梅茨博士表明，该项目的目标不是改变以太网，而是对其进行调整，以更好地适应人工智能和HPC工作负载的更高要求特性。

他说：“以太网是我们构建之上的基本技术，因为它是行业内持久、灵活且适应性强的基本网络技术的最佳例子。”

“UEC的目标是专注于如何在以太网之上最好地传输人工智能和HPC工作负载流量。当然，以前已经尝试过这样做，但没有一个项目从头开始专为高要求的人工智能和HPC工作负载设计，也没有一个项目是开放、易于使用并获得广泛采用的。”

该项目针对网络堆栈的多个层级，工作组负责制定“增强物理层和链路层性能、延迟和管理”的规范，以及制定传输层和软件层的规范。

网络对于训练规模不断增长的人工智能模型变得越来越关键；有些模型参数达到了数万亿个，需要在大型计算集群上进行训练，而网络需要尽可能高效，以保持这些集群的繁忙状态。

虽然人工智能（AI）工作负载往往对带宽需求很高，但高性能计算（HPC）也包括对延迟更敏感的工作负载，这两种要求都需要满足。

为了满足这些需求，UEC确定了以下理想特性：灵活的传输顺序；现代拥塞控制机制；多路径和分组喷射；以及更大的可扩展性和端到端遥测。

旧技术使用的刚性分组排序限制了效率，因为它阻止了乱序数据直接从网络传递到应用程序。支持放宽分组排序要求的现代API对于减少“尾延迟”至关重要。

多路径和分组喷射是同时沿源和目标之间的所有可用网络路径发送数据包，以实现最佳性能。

在AI和HPC中，网络拥塞主要是在多个发送方都针对同一节点时，交换机和接收节点之间的链路上出现的问题。而，UEC声称，目前的拥塞管理算法不能满足针对AI优化的网络的所有需求。

主要来说，UEC似乎旨在用一种新的传输层协议取代基于以太网的RDMA over Converged Ethernet（RoCE）协议，以提供所需的特性。这种Ultra Ethernet Transport将支持多路径、分组喷射传输、高效的速率控制算法，并向AI和HPC工作负载提供简单的API。

HPE参与UEC的原因值得注意，因它已经有一个基于以太网的H互连。Cray Slingshot技术是以网的“超集”，如我们在The Next Platform的同事详细描述的那样，同时保持与标准以太网帧的兼容性在HPE近年来参与的许多超级计算机项目中得到应用，例如Frontier超级计算系统。

HPE高性能互连总理Mike Vildibill告诉我们，支持UEC的动机是为了确保Slingshot在一个开放的生态系统中运行。

他说：“我们希望UEC兼容的网卡能够体验到Slingshot互连的一些性能和可扩展性优势。”

Vildibill确认，HPE将继续开发Slingshot，但他认为总会有一些第三方网卡或智能网卡可能具有Slingshot网卡上未实现的功能。

他说：“因此，UEC提供了建立强大的第三方网卡生态系统的机制，以确保我们能够满足广泛的客户需求，同时提供一些Slingshot独特的功能。”

UEC目前处于早期开发阶段，关键技术概念仍在确定和研究中。Metz博士表示，第一个正式的草案可能会在2023年底或2024年初准备好，同时也预计明年会有第一个基于标准的产品问世。

来源：至顶网网络与安全频道

0赞

好文章，需要你的鼓励

超级以太网联盟希望为人工智能和高性能计算优化网络

来源：至顶网网络与安全频道

2023

07/21

16:39

分享

点赞

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

Mistral的Le Chat聊天机器人推出"深度研究"模式，生产力大幅提升

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径