作为按市场份额排序的全球三大原始系统制造商,戴尔、HPE和联想正在进一步充实其为企业客户提供的互连产品阵容。而这波趋势的核心,就是Spectrum-4以太网交换机加上BlueField-3 DPU(英伟达称之为Spectrum-X)的组合。
英伟达正在不断为那些希望构建大规模AI训练集群以及运行HPC模拟/建模工作负载的基础设施提供InfiniBand互连方案,这也推动其网络业务在公司历史上首次突破百亿美元大关。如此惊人的收入除了英伟达本体之外,还要归功其通过收购拿下的Mellanox Technologies技术成果。最近一个季度,英伟达的网络业务首次突破100亿美元的年化经营收入,我们认为其中21.4亿美元来自InfiniBand,但只有4.35亿美元由以太网/其他产品贡献(这里的其他,大部分来自NVSwitch),可以看到比例存在严重失调。具体来讲,InfiniBand的销量几乎相当于以太网设备的5倍,且同比增长了5倍;而以太网设备在2024财年第三季度的收入下降了25.2%。(由于统计数据并不完整,所以最终可能还是要等待全年数字出炉再做进一步调整,但目前预测模型已经参考了以往各个季度的表现。)
而与更广泛的数据中心交换市场进行比较,假设InfiniBand交换业务在InfiniBand总收入的一半(另外一半来自网卡和线缆),那么交换技术的年化营收将达到40亿美元左右。但咨询公司IDC公布的数据显示,截至2023年6月的这12个月来,以太网数据中心交换业务共带动181亿美元的销售额,又反过来约等于InfiniBand销售额的5倍。
诚然,AI集群也是HPC应用的一个子集,或者说是一种特殊的HPC用例。但换个角度看,生成式AI训练和推理也是首个得到各行各业普遍接纳的HPC工作负载类型。因此也许InfiniBand和以太网之间的网络市场份额对比,其实可以理解成数据中心内“通用”交换机制与HPC系统间互连的对比。而且即使是在没有收购Mellanox之前,InfiniBand在英伟达内部的份额占比也不过就是一半左右。
时间终会证明一切,预算则会决定一切。不过早在英伟达于2019年3月斥资69亿美元收购Mellanox之前,Mellanox就已经将自身的业务定位牢牢锚死在HPC、超大规模基础设施和云计算领域的InfiniBand及以太网市场。公平地讲,自从被收购以来,Mellanox已经从英伟达的以太网与InfiniBand当中汲取了SerDes串行解串电路中汲取了精华,使得InfiniBand当中最适合HPC与AI工作负载的部分开始融合进现有Spectrum-4以太网技术栈当中。
而这也是技术发展的大势所趋。在英伟达此番联手超大规模基础设施运营商微软、Meta Platform推动的Spectrum-X出现之前,由博通Jericho3-AI、思科G200和HPE Rosetta(用于Slingshot交换机)支持的超以太网联盟就已经将矛头指向了主要由英伟达掌控的AI专用交换ASIC方案InfiniBand。Spectrum-X这个名头只是典型的营销手段,但其技术内核却相当扎实,设计目的同样是为了缩小标准数据中心以太网与InfiniBand之间的差距。
英伟达网络营销高级副总裁Gilad Shainer在采访中表示,“Spectrum-4与之前的Spectrum-1、Spectrum-2和Spectrum-3不同,具体运作方式也有差异。当我们为AI构建网络时,其必须具备分布式计算属性,因此网络本身也属于端到端体系。由于必须要以尽可能低的延迟和尽可能少的卡顿拉平性能表现,因此必须在NIC端和交换机端执行某些操作。传统的以太网数据中心网络可以容忍卡顿,允许通过丢弃数据包来处理拥塞,但基于以太网的AI网络绝不能如此。”
英伟达宣称,Spectrum-X产品组合在运行分布式AI工作负载时,能够将传统数据中心以太网的性能提升约1.6倍,并表示InfiniBand还能在此基础之上额外提供20%的性能提升。
Spectrum-4交换机分为两款机型。SN5600包含64个以800 Gb/秒运行的端口、128个以400 Gb/秒运行的端口,或者256个以200 Gb/秒运行的商品;如果必要,这256个端口也可回归更传统的100 Gb/秒或50 Gb/秒速率。此外SN5600还具有一个1 Gb/秒的管理商品。Spectrum-4 ASIC的总交换容量额定为51.2 Tb/秒,每秒可处理333亿个数据包。SN5400基于Spectrum-4ASIC,但总带宽仅达到5600的一半(25.6 Tb/秒),且不支持800 Gb/秒端口,仅通解以400 Gb/秒的速率驱动64个端口,以200 Gb/秒的速率驱动128个端口,或者以100 Gb/秒甚至更低的速率驱动256个端口。出于某种设计考量,SN5400配备2个1 Gb/秒的管理端口。
Spectrum-X的特别之处,在于采用RoCE协议的自适应路由及拥塞控制,这也是从InfiniBand借用的直接内存访问技术。很多人认为这项技术本身并不算强(但事实证明并非如此),但确实能让以太网的延迟降低至前所未有的水平。对于自适应路由,BlueField-3 DPU的作用就是对无序以太网数据包进行重新排序,并通过RoCE以正确顺序将其放置在服务器内存内。BlueField-3 DPU上实时运行的深度学习算法还增强了Spectrum-4交换机中驱动拥塞控制的带内遥测功能,这些算法可以根据用户和条件变化持续优化基础设施设置。
然而,Spectrum-4交换机仍然欠缺SHARP的交换内处理功能,这也是Quantum和Quantum 2 InfiniBand交换机的亮点所在,并已经被添加至NVSwitch 3 GPU内在结构当中。虽然比较遗憾,但这也可能是给Spectrum-5保留了升级空间。与InfiniBand一样,Spectrum-4支持分布式系统中常用MPI协议的英伟达NCCL实现,而且经过调整以在Spectrum-4和BlueField-3 DPU上良好运行。与传统以太网相比,这套方案能够在端到端性能、传输延迟和卡顿控制等方面迎来显著进步。
我们期待看到InfiniBand下一步要如何与Spectrum-X、Jericho3-AI和G200等竞争对手相对抗,最好能有人在这些AI集群上运行基准测试、用客观数字给出结论。
英伟达本身可能也会主动出击,毕竟他们正与戴尔合作,开发一款慕名而来地PowerEdge XE9690服务器的2000节点GPU集群,该服务器就基于“Hopper”H100 GPU加BlueField-3 DPU。这套服务器集群被命名为Israel-1,属于进行基准测试的参考架构。据SHainer介绍,该集群最终将被纳入DGX Cloud,供英伟达全球客户根据各类基础设施计算负载性能和应用运行效果。
戴尔、HPE和联想均计划在2024年第一季度公布基于Spectrum-X参考架构的集群产品。
好文章,需要你的鼓励
后来广为人知的“云上奥运”这一说法,正是从这一刻起走上历史舞台。云计算这一概念,也随之被越来越多的人所熟知。乘云科技CEO郝凯对此深有感受,因为在2017年春节过后不久,他的公司开始成为阿里云的合作伙伴,加入了滚滚而来的云计算大潮中。同一年,郝凯带领团队也第一次参加了阿里云的“双11”活动,实现了800万元的销售业绩。
随着各行各业数字化变革的不断深入,人类社会正加速迈向智能化。作为智能世界和数字经济的坚实底座,数据中心也迎来了蓬勃发展。面