超级以太网联盟(UEC)旨在创建一个“基于以太网的完整通信堆栈架构”,该架构将像以太网一样普及且具有成本效益,同时提供超级计算互连的性能。该联盟的创始成员包括在HPC和网络领域深度参与的公司,包括英特尔、AMD、惠普企业、Arista、Broadcom、思科、Meta和微软,项目本身托管在Linux基金会中。
UEC主席J·梅茨博士表明,该项目的目标不是改变以太网,而是对其进行调整,以更好地适应人工智能和HPC工作负载的更高要求特性。
他说:“以太网是我们构建之上的基本技术,因为它是行业内持久、灵活且适应性强的基本网络技术的最佳例子。”
“UEC的目标是专注于如何在以太网之上最好地传输人工智能和HPC工作负载流量。当然,以前已经尝试过这样做,但没有一个项目从头开始专为高要求的人工智能和HPC工作负载设计,也没有一个项目是开放、易于使用并获得广泛采用的。”
该项目针对网络堆栈的多个层级,工作组负责制定“增强物理层和链路层性能、延迟和管理”的规范,以及制定传输层和软件层的规范。
网络对于训练规模不断增长的人工智能模型变得越来越关键;有些模型参数达到了数万亿个,需要在大型计算集群上进行训练,而网络需要尽可能高效,以保持这些集群的繁忙状态。
虽然人工智能(AI)工作负载往往对带宽需求很高,但高性能计算(HPC)也包括对延迟更敏感的工作负载,这两种要求都需要满足。
为了满足这些需求,UEC确定了以下理想特性:灵活的传输顺序;现代拥塞控制机制;多路径和分组喷射;以及更大的可扩展性和端到端遥测。
旧技术使用的刚性分组排序限制了效率,因为它阻止了乱序数据直接从网络传递到应用程序。支持放宽分组排序要求的现代API对于减少“尾延迟”至关重要。
多路径和分组喷射是同时沿源和目标之间的所有可用网络路径发送数据包,以实现最佳性能。
在AI和HPC中,网络拥塞主要是在多个发送方都针对同一节点时,交换机和接收节点之间的链路上出现的问题。而,UEC声称,目前的拥塞管理算法不能满足针对AI优化的网络的所有需求。
主要来说,UEC似乎旨在用一种新的传输层协议取代基于以太网的RDMA over Converged Ethernet(RoCE)协议,以提供所需的特性。这种Ultra Ethernet Transport将支持多路径、分组喷射传输、高效的速率控制算法,并向AI和HPC工作负载提供简单的API。
HPE参与UEC的原因值得注意,因它已经有一个基于以太网的H互连。Cray Slingshot技术是以网的“超集”,如我们在The Next Platform的同事详细描述的那样,同时保持与标准以太网帧的兼容性在HPE近年来参与的许多超级计算机项目中得到应用,例如Frontier超级计算系统。
HPE高性能互连总理Mike Vildibill告诉我们,支持UEC的动机是为了确保Slingshot在一个开放的生态系统中运行。
他说:“我们希望UEC兼容的网卡能够体验到Slingshot互连的一些性能和可扩展性优势。”
Vildibill确认,HPE将继续开发Slingshot,但他认为总会有一些第三方网卡或智能网卡可能具有Slingshot网卡上未实现的功能。
他说:“因此,UEC提供了建立强大的第三方网卡生态系统的机制,以确保我们能够满足广泛的客户需求,同时提供一些Slingshot独特的功能。”
UEC目前处于早期开发阶段,关键技术概念仍在确定和研究中。Metz博士表示,第一个正式的草案可能会在2023年底或2024年初准备好,同时也预计明年会有第一个基于标准的产品问世。
好文章,需要你的鼓励
Gartner预测,到2030年所有IT工作都将涉及AI技术的使用,这与目前81%的IT工作不使用AI形成鲜明对比。届时25%的IT工作将完全由机器人执行,75%由人类在AI辅助下完成。尽管AI将取代部分入门级IT职位,但Gartner认为不会出现大规模失业潮,目前仅1%的失业由AI造成。研究显示65%的公司在AI投资上亏损,而世界经济论坛预计AI到2030年创造的就业机会将比消除的多7800万个。
CORA是微软研究院与谷歌研究团队联合开发的突破性AI视觉模型,发表于2023年CVPR会议。它通过创新的"区域提示"和"锚点预匹配"技术,成功解决了计算机视觉领域的一大挑战——开放词汇目标检测。CORA能够识别训练数据中从未出现过的物体类别,就像人类能够举一反三一样。在LVIS数据集测试中,CORA的性能比现有最佳方法提高了4.6个百分点,尤其在稀有类别识别上表现突出。这一技术有望广泛应用于自动驾驶、零售、安防和辅助技术等多个领域。
人工智能正从软件故事转向AI工厂基础,芯片、数据管道和网络协同工作形成数字化生产系统。这种新兴模式重新定义了性能衡量标准和跨行业价值创造方式。AI工厂将定制半导体、低延迟结构和大规模数据仪器整合为实时反馈循环,产生竞争优势。博通、英伟达和IBM正在引领这一转变,通过长期定制芯片合同和企业遥测技术,将传统体验转化为活跃的数字生态系统。
中国电信研究院联合重庆大学、北航发布T2R-bench基准,首次系统评估AI从工业表格生成专业报告的能力。研究涵盖457个真实工业表格,测试25个主流AI模型,发现最强模型得分仅62.71%,远低于人类专家96.52%。揭示AI在处理复杂结构表格、超大规模数据时存在数字计算错误、信息遗漏等关键缺陷,为AI数据分析技术改进指明方向。