要想降低延迟,目前最好的办法就是尽可能采用英伟达互连技术。当然,如果能够容忍较慢的训练速度,继续选择传统技术也不是不行。
Dell’Oro分析师Sameh Boujelbene表示,不断增长的AI功能需求将拉动数据中心交换市场增长50%。他还预测,网络交换领域即将出现一波重大技术创新。
Boujelbene估计,AI系统目前在整个网络交换潜在市场中的占比“远低于10%”,而且其中约九成部署的都是英伟达/Mellanox的InfiniBand,而非传统以太网。这些部署将英伟达的网络收入拉升至每年100亿美元,也使其成为该领域内的第二大参与者,成功反超瞻博和Arista。
而这一切绝非偶然:对于AI工作负载,带宽和延迟永远是重中之重。而InfiniBand的延迟确实很低,因为其架构能够减少数据包丢失。相比之下,以太网中的数据包丢失问题则明显更为严重。
虽然不少应用程序都能处理数据包丢失问题,但这会拖慢AI训练的执行速度,而且本身就成本高昂、耗费时间。可能也正因为如此,微软才会在为机器学习工作负载构建数据中心时选择InfiniBand。
但InfiniBand也有自己的短板,首先就是原始传输带宽上限往往不及以太网。英伟达最新Quantum InfiniBand交换机端口的传输速度上限可达25.6 Tb/秒、单端口达400 Gb/秒;相比之下,以太网交换速度在近两年之前就已经达到51.2 Tb/秒,单端口则为800 Gb/秒。
在传统数据中心内,只有在聚合层上才可能存在速度如此之快的套件。而且常规服务器节点不要说耗尽400 Gb/秒的端口带宽上限了,连用掉其中四分之一的情况都很少见。
但AI集群的情况则完全不同。常见的AI节点往往需要为每个GPU都配备一块400 Gb/秒网卡。而单一节点大多可以容纳四到八张GPU(网卡数量也须同步增加),且经常被AI工作负载产生的巨大数据流给占满。
Boujelbene将InfiniBand和以太网这两种竞争性标准,分别比作速度稍慢但很少拥堵的国道(InfiniBand)和限速更高但偶发碰撞事故的高速公路(以太网)。
虽然以太网在技术层面拥有传输带宽优势,但其他现实瓶颈(例如网卡的可用PCIe带宽)的存在往往令这种优势荡然无存。
2024年已经到来,目前我们能选择的最高技术标准也就是PCIe 5.0。其双向传输带宽大约为64 GB/秒,就是说需要16x接口才能支持单一400 Gb/秒接口。
包括英伟达在内的部分芯片制造商则巧妙地将PCIe交换集成到自家网卡之内以提高 性能。这种加速设计不是把GPU和网卡塞进CPU,而是通过PCIe交换机以菊花链的形式接入网络接口。我们推测在PCIe 6.0或7.0标准面世之前,英伟达就是以这样的方式实现800 Gb/秒和1600 Gb/秒网络传输性能。
Dell’Oro预计到2025年,AI网络中部署的绝大多数交换机端口都将以800 Gb/秒的速度运行;而到2027年,这个数字将翻一番,达到1600 Gb/秒。
除了保持更高的传输带宽之外,最近以太网交换领域也在不断创新,希望解决自身相较于InfiniBand互连技术的种种不足。
但这一切尽在英伟达的算计之内。颇为讽刺的是,随着SPectrumX平台的推出,英伟达反而成为无损以太网技术的最大支持者。
根据英伟达网络部门营销副总裁Gilad Shainer在此前采访中的解释,InfiniBand更适合那些运行少量超大规模工作负载(例如GPT-3或数字孪生建模)的用户。但在动态程度更高的大规模云环境中,用户往往会首选以太网解决方案。
以太网的优势主要体现在开放性以及能够适配大多数工作负载的能力,这也成为其备受云服务商和超大规模基础设施运营商接纳的原因。无论是出于避免管理双栈网络的麻烦,还是防止被少数InfiniBand供应商锁定,他们都有充分理由选择以太网技术。
英伟达的SpectrumX产品组合就结合了自家51.2 Tb/秒Spectrum-4以太网交换机与BlueField-3 SuperNIC,采用400 Gb/秒RDMA融合以太网(ROCE)提供可与InfiniBand比肩的网络性能、可靠性和延迟表现。
博通在其Tomahawk和Jericho交换机家族中也做出类似选择。这些交换机要么使用数据处理单元来管理拥塞,要么通过去年发布的Jericho3-AI平台在顶架式交换机中处理拥塞。
Boujelbene表示,博通明显是看到超大规模基础设施运营商和亚马逊云科技等云服务商已经在这方面取得了成功。英伟达SpectrumX的作用也是将这项工作整合进单一平台,从而轻松建立起无损以太网。
虽然微软在其AI云基础设施中明显更青睐InfiniBand,但亚马逊云科技正利用自家Elastic Fabric Adapter 2(EFA2)中经过改进的拥塞管理技术实现其16384个GH200计算集群(已经在2023年末的最新re: Invent大会上正式公布)的互连互通。
尽管Dell’Oro预计InfiniBand在可预见的未来将继续保持AI交换领域的主导地位,但也预计以太网技术将取得大幅增长,到2027年将收入份额提升至20个百分点。而这种变化的背后,主要推手正是那些云服务商和超大规模数据中心运营商。
好文章,需要你的鼓励
这篇研究揭示了大语言模型强化学习中的"熵崩塌"现象——模型在训练早期迅速失去探索能力,导致性能达到可预测的上限。研究者发现验证性能和策略熵之间存在精确的数学关系:R = -a·exp(H) + b,并深入分析了熵变化的内在机制。基于这些发现,他们提出了两种简单有效的方法(Clip-Cov和KL-Cov)来缓解熵崩塌问题,显著提升了模型性能,特别是在困难任务上。这项研究为大模型强化学习的规模化应用提供了关键指导。
Skywork OR1是昆仑公司AI团队开发的开源推理大模型,通过创新的强化学习方法显著增强了语言模型的推理能力。该研究基于DeepSeek-R1-Distill模型系列,采用名为MAGIC的训练方法,在AIME24、AIME25和LiveCodeBench三大基准测试中实现了显著性能提升,32B模型平均准确率提高15.0%,7B模型提高13.9%。研究团队通过系统研究策略熵崩塌现象,提出了有效的缓解策略,并开源了全部代码、数据和模型权重,为AI社区提供了宝贵资源。
上海交通大学研究团队发现多模态大语言模型中的"啊哈时刻"(自我反思模式)虽存在但并不意味着推理能力提升。他们提出了"冷启动强化学习"两阶段方法:先用监督微调建立推理模式,再通过强化学习优化。实验表明,这种方法在多个多模态数学推理基准上表现卓越,使3B参数模型达到接近甚至超越部分7B模型的性能,为增强多模态AI推理能力提供了有效路径。
MBZUAI研究团队开发的SVRPBench是首个模拟真实物流环境的随机车辆路径问题基准测试平台。它通过建模时间依赖的交通拥堵、概率性延误和客户特定时间窗口,为500多个包含最多1000客户的测试实例注入真实世界的不确定性。实验结果显示,先进的强化学习算法在分布变化时性能下降超过20%,而传统方法表现更为稳健。该开源平台通过GitHub和Hugging Face发布,旨在推动更适应现实世界不确定性的路由算法研究。