企业级AI尚未动，以太网设施须先行

英伟达正在不断为那些希望构建大规模AI训练集群以及运行HPC模拟/建模工作负载的基础设施提供InfiniBand互连方案，这也推动其网络业务在公司历史上首次突破百亿美元大关。

作为按市场份额排序的全球三大原始系统制造商，戴尔、HPE和联想正在进一步充实其为企业客户提供的互连产品阵容。而这波趋势的核心，就是Spectrum-4以太网交换机加上BlueField-3 DPU（英伟达称之为Spectrum-X）的组合。

英伟达正在不断为那些希望构建大规模AI训练集群以及运行HPC模拟/建模工作负载的基础设施提供InfiniBand互连方案，这也推动其网络业务在公司历史上首次突破百亿美元大关。如此惊人的收入除了英伟达本体之外，还要归功其通过收购拿下的Mellanox Technologies技术成果。最近一个季度，英伟达的网络业务首次突破100亿美元的年化经营收入，我们认为其中21.4亿美元来自InfiniBand，但只有4.35亿美元由以太网/其他产品贡献（这里的其他，大部分来自NVSwitch），可以看到比例存在严重失调。具体来讲，InfiniBand的销量几乎相当于以太网设备的5倍，且同比增长了5倍；而以太网设备在2024财年第三季度的收入下降了25.2%。（由于统计数据并不完整，所以最终可能还是要等待全年数字出炉再做进一步调整，但目前预测模型已经参考了以往各个季度的表现。）

而与更广泛的数据中心交换市场进行比较，假设InfiniBand交换业务在InfiniBand总收入的一半（另外一半来自网卡和线缆），那么交换技术的年化营收将达到40亿美元左右。但咨询公司IDC公布的数据显示，截至2023年6月的这12个月来，以太网数据中心交换业务共带动181亿美元的销售额，又反过来约等于InfiniBand销售额的5倍。

诚然，AI集群也是HPC应用的一个子集，或者说是一种特殊的HPC用例。但换个角度看，生成式AI训练和推理也是首个得到各行各业普遍接纳的HPC工作负载类型。因此也许InfiniBand和以太网之间的网络市场份额对比，其实可以理解成数据中心内“通用”交换机制与HPC系统间互连的对比。而且即使是在没有收购Mellanox之前，InfiniBand在英伟达内部的份额占比也不过就是一半左右。

时间终会证明一切，预算则会决定一切。不过早在英伟达于2019年3月斥资69亿美元收购Mellanox之前，Mellanox就已经将自身的业务定位牢牢锚死在HPC、超大规模基础设施和云计算领域的InfiniBand及以太网市场。公平地讲，自从被收购以来，Mellanox已经从英伟达的以太网与InfiniBand当中汲取了SerDes串行解串电路中汲取了精华，使得InfiniBand当中最适合HPC与AI工作负载的部分开始融合进现有Spectrum-4以太网技术栈当中。

而这也是技术发展的大势所趋。在英伟达此番联手超大规模基础设施运营商微软、Meta Platform推动的Spectrum-X出现之前，由博通Jericho3-AI、思科G200和HPE Rosetta（用于Slingshot交换机）支持的超以太网联盟就已经将矛头指向了主要由英伟达掌控的AI专用交换ASIC方案InfiniBand。Spectrum-X这个名头只是典型的营销手段，但其技术内核却相当扎实，设计目的同样是为了缩小标准数据中心以太网与InfiniBand之间的差距。

英伟达网络营销高级副总裁Gilad Shainer在采访中表示，“Spectrum-4与之前的Spectrum-1、Spectrum-2和Spectrum-3不同，具体运作方式也有差异。当我们为AI构建网络时，其必须具备分布式计算属性，因此网络本身也属于端到端体系。由于必须要以尽可能低的延迟和尽可能少的卡顿拉平性能表现，因此必须在NIC端和交换机端执行某些操作。传统的以太网数据中心网络可以容忍卡顿，允许通过丢弃数据包来处理拥塞，但基于以太网的AI网络绝不能如此。”

英伟达宣称，Spectrum-X产品组合在运行分布式AI工作负载时，能够将传统数据中心以太网的性能提升约1.6倍，并表示InfiniBand还能在此基础之上额外提供20%的性能提升。

Spectrum-4交换机分为两款机型。SN5600包含64个以800 Gb/秒运行的端口、128个以400 Gb/秒运行的端口，或者256个以200 Gb/秒运行的商品；如果必要，这256个端口也可回归更传统的100 Gb/秒或50 Gb/秒速率。此外SN5600还具有一个1 Gb/秒的管理商品。Spectrum-4 ASIC的总交换容量额定为51.2 Tb/秒，每秒可处理333亿个数据包。SN5400基于Spectrum-4ASIC，但总带宽仅达到5600的一半（25.6 Tb/秒），且不支持800 Gb/秒端口，仅通解以400 Gb/秒的速率驱动64个端口，以200 Gb/秒的速率驱动128个端口，或者以100 Gb/秒甚至更低的速率驱动256个端口。出于某种设计考量，SN5400配备2个1 Gb/秒的管理端口。

Spectrum-X的特别之处，在于采用RoCE协议的自适应路由及拥塞控制，这也是从InfiniBand借用的直接内存访问技术。很多人认为这项技术本身并不算强（但事实证明并非如此），但确实能让以太网的延迟降低至前所未有的水平。对于自适应路由，BlueField-3 DPU的作用就是对无序以太网数据包进行重新排序，并通过RoCE以正确顺序将其放置在服务器内存内。BlueField-3 DPU上实时运行的深度学习算法还增强了Spectrum-4交换机中驱动拥塞控制的带内遥测功能，这些算法可以根据用户和条件变化持续优化基础设施设置。

然而，Spectrum-4交换机仍然欠缺SHARP的交换内处理功能，这也是Quantum和Quantum 2 InfiniBand交换机的亮点所在，并已经被添加至NVSwitch 3 GPU内在结构当中。虽然比较遗憾，但这也可能是给Spectrum-5保留了升级空间。与InfiniBand一样，Spectrum-4支持分布式系统中常用MPI协议的英伟达NCCL实现，而且经过调整以在Spectrum-4和BlueField-3 DPU上良好运行。与传统以太网相比，这套方案能够在端到端性能、传输延迟和卡顿控制等方面迎来显著进步。

我们期待看到InfiniBand下一步要如何与Spectrum-X、Jericho3-AI和G200等竞争对手相对抗，最好能有人在这些AI集群上运行基准测试、用客观数字给出结论。

英伟达本身可能也会主动出击，毕竟他们正与戴尔合作，开发一款慕名而来地PowerEdge XE9690服务器的2000节点GPU集群，该服务器就基于“Hopper”H100 GPU加BlueField-3 DPU。这套服务器集群被命名为Israel-1，属于进行基准测试的参考架构。据SHainer介绍，该集群最终将被纳入DGX Cloud，供英伟达全球客户根据各类基础设施计算负载性能和应用运行效果。

戴尔、HPE和联想均计划在2024年第一季度公布基于Spectrum-X参考架构的集群产品。

来源：至顶网网络与安全频道

0赞

好文章，需要你的鼓励

企业级AI尚未动，以太网设施须先行

来源：至顶网网络与安全频道

2023

12/04

19:03

分享

点赞

Vibe Bot推出桌面AI智能体设备

Razer推出桌面AI动漫全息投影智能助手

Cloudera：构建符合伦理标准的AI，可信数据是关键

Nvidia发布Vera Rubin AI计算平台，性能大幅提升

7种削弱IT业务价值的致命做法

PTC在NRF 2026大会上发布AI驱动的FlexPLM新功能

如何终结针对IT部门的指责游戏

Windchill + Makersite，让可持续性从“理念”变为“行动”

Linux基金会领导者：我们并未处在AI泡沫中

全新软件与模型优化为 NVIDIA DGX Spark 注入强大动力

NVIDIA DGX Spark 为桌面端最新开源与前沿AI模型提供强大算力支持

AI流量激增为何现在就需要光网络自动化

数据中心增长与可持续发展并非对立关系

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

MWC 2025：英特尔展示基于至强6处理器的基础网络设施

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

英特尔至强6新品发布，能为数据中心带来哪些改变？

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

AI 如何重塑数据中心：电力、制冷和基础设施挑战

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: