要想降低延迟,目前最好的办法就是尽可能采用英伟达互连技术。当然,如果能够容忍较慢的训练速度,继续选择传统技术也不是不行。
Dell’Oro分析师Sameh Boujelbene表示,不断增长的AI功能需求将拉动数据中心交换市场增长50%。他还预测,网络交换领域即将出现一波重大技术创新。
Boujelbene估计,AI系统目前在整个网络交换潜在市场中的占比“远低于10%”,而且其中约九成部署的都是英伟达/Mellanox的InfiniBand,而非传统以太网。这些部署将英伟达的网络收入拉升至每年100亿美元,也使其成为该领域内的第二大参与者,成功反超瞻博和Arista。
而这一切绝非偶然:对于AI工作负载,带宽和延迟永远是重中之重。而InfiniBand的延迟确实很低,因为其架构能够减少数据包丢失。相比之下,以太网中的数据包丢失问题则明显更为严重。
虽然不少应用程序都能处理数据包丢失问题,但这会拖慢AI训练的执行速度,而且本身就成本高昂、耗费时间。可能也正因为如此,微软才会在为机器学习工作负载构建数据中心时选择InfiniBand。
但InfiniBand也有自己的短板,首先就是原始传输带宽上限往往不及以太网。英伟达最新Quantum InfiniBand交换机端口的传输速度上限可达25.6 Tb/秒、单端口达400 Gb/秒;相比之下,以太网交换速度在近两年之前就已经达到51.2 Tb/秒,单端口则为800 Gb/秒。
在传统数据中心内,只有在聚合层上才可能存在速度如此之快的套件。而且常规服务器节点不要说耗尽400 Gb/秒的端口带宽上限了,连用掉其中四分之一的情况都很少见。
但AI集群的情况则完全不同。常见的AI节点往往需要为每个GPU都配备一块400 Gb/秒网卡。而单一节点大多可以容纳四到八张GPU(网卡数量也须同步增加),且经常被AI工作负载产生的巨大数据流给占满。
Boujelbene将InfiniBand和以太网这两种竞争性标准,分别比作速度稍慢但很少拥堵的国道(InfiniBand)和限速更高但偶发碰撞事故的高速公路(以太网)。
虽然以太网在技术层面拥有传输带宽优势,但其他现实瓶颈(例如网卡的可用PCIe带宽)的存在往往令这种优势荡然无存。
2024年已经到来,目前我们能选择的最高技术标准也就是PCIe 5.0。其双向传输带宽大约为64 GB/秒,就是说需要16x接口才能支持单一400 Gb/秒接口。
包括英伟达在内的部分芯片制造商则巧妙地将PCIe交换集成到自家网卡之内以提高 性能。这种加速设计不是把GPU和网卡塞进CPU,而是通过PCIe交换机以菊花链的形式接入网络接口。我们推测在PCIe 6.0或7.0标准面世之前,英伟达就是以这样的方式实现800 Gb/秒和1600 Gb/秒网络传输性能。
Dell’Oro预计到2025年,AI网络中部署的绝大多数交换机端口都将以800 Gb/秒的速度运行;而到2027年,这个数字将翻一番,达到1600 Gb/秒。
除了保持更高的传输带宽之外,最近以太网交换领域也在不断创新,希望解决自身相较于InfiniBand互连技术的种种不足。
但这一切尽在英伟达的算计之内。颇为讽刺的是,随着SPectrumX平台的推出,英伟达反而成为无损以太网技术的最大支持者。
根据英伟达网络部门营销副总裁Gilad Shainer在此前采访中的解释,InfiniBand更适合那些运行少量超大规模工作负载(例如GPT-3或数字孪生建模)的用户。但在动态程度更高的大规模云环境中,用户往往会首选以太网解决方案。
以太网的优势主要体现在开放性以及能够适配大多数工作负载的能力,这也成为其备受云服务商和超大规模基础设施运营商接纳的原因。无论是出于避免管理双栈网络的麻烦,还是防止被少数InfiniBand供应商锁定,他们都有充分理由选择以太网技术。
英伟达的SpectrumX产品组合就结合了自家51.2 Tb/秒Spectrum-4以太网交换机与BlueField-3 SuperNIC,采用400 Gb/秒RDMA融合以太网(ROCE)提供可与InfiniBand比肩的网络性能、可靠性和延迟表现。
博通在其Tomahawk和Jericho交换机家族中也做出类似选择。这些交换机要么使用数据处理单元来管理拥塞,要么通过去年发布的Jericho3-AI平台在顶架式交换机中处理拥塞。
Boujelbene表示,博通明显是看到超大规模基础设施运营商和亚马逊云科技等云服务商已经在这方面取得了成功。英伟达SpectrumX的作用也是将这项工作整合进单一平台,从而轻松建立起无损以太网。
虽然微软在其AI云基础设施中明显更青睐InfiniBand,但亚马逊云科技正利用自家Elastic Fabric Adapter 2(EFA2)中经过改进的拥塞管理技术实现其16384个GH200计算集群(已经在2023年末的最新re: Invent大会上正式公布)的互连互通。
尽管Dell’Oro预计InfiniBand在可预见的未来将继续保持AI交换领域的主导地位,但也预计以太网技术将取得大幅增长,到2027年将收入份额提升至20个百分点。而这种变化的背后,主要推手正是那些云服务商和超大规模数据中心运营商。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。