Nvidia 表示 Spectrum-X 自适应路由可提升存储网络带宽

Nvidia 推出 Spectrum-X 以太网网络技术，结合 InfiniBand 自适应路由功能，可显著提升存储网络性能。测试表明，在大规模 AI 训练和推理场景中，该技术能将存储网络读取带宽提高近 50%，有效缓解网络拥塞，加速 AI 工作负载。

Nvidia 表示，其融合 InfiniBand 技术的 Spectrum-X 以太网可将存储网络的读取带宽提升近 50%。

Spectrum-X 是基于 Spectrum-4 ASIC 的以太网交换机产品与 InfiniBand 产品的结合。它支持 RoCE v2 (用于融合以太网上的远程直接内存访问) 和 BlueField-3 SuperNIC。Nvidia 的 InfiniBand 产品具有自适应路由功能，当初始选择的路由繁忙或链路中断时，可以通过最不拥塞的网络路由发送数据包。Spectrum-4 SN5000 交换机提供高达 51.2 Tbps 带宽，配备 64 个 800 Gbps 以太网端口。它具有用于自适应路由和拥塞控制的 RoCE 扩展功能，这些功能可与 BlueField-3 产品协同工作。

自适应路由的数据包可能会乱序到达目的地，而 Nvidia 的 BlueField-3 产品能够正确重组这些数据包，"将它们按顺序放入主机内存，使自适应路由对应用程序透明。"

Nvidia 的一篇博客解释说，由于 Spectrum-X 自适应路由能够减轻流量冲突并提高有效带宽，其有效存储性能远高于 RoCE v2，而"RoCE v2 是大多数数据中心用于 AI 计算和存储网络的以太网协议。"

博客讨论了大语言模型 (LLM) 训练过程中的检查点操作，这种训练可能持续数天、数周甚至数月。系统会定期保存作业状态，这样如果训练运行失败，可以从保存的检查点状态重启，而不是从头开始。博客指出："对于拥有数十亿和万亿参数的模型，这些检查点状态变得非常大 - 当今最大的 LLM 可达数 TB 数据 - 保存或恢复它们会产生'大象流量'...可能会使交换机缓冲区和链路不堪重负。"

这里假设检查点数据是通过网络发送到共享存储（例如存储阵列），而不是发送到 GPU 服务器的本地存储，后者是 Microsoft LLM 训练中使用的技术。

Nvidia 还表示，在 LLM 推理操作中，当从存储 RAG (检索增强生成) 数据的网络存储源向 LLM 发送数据时，也会出现这种网络流量峰值。它解释说："向量数据库是多维的，可能会非常大，特别是在包含图像和视频的知识库的情况下。"

RAG 数据需要以最小的延迟发送到 LLM，这在"多租户生成式 AI 工厂中变得更为重要，因为每秒查询量是巨大的。"

Nvidia 表示已在其 Israel-1 AI 超级计算机上测试了这些 Spectrum-4 功能。测试过程测量了 Nvidia HGX H100 GPU 服务器客户端访问存储时产生的读写带宽，分别在标准 RoCE v2 网络配置下和启用 Spectrum-X 的自适应路由和拥塞控制功能的情况下进行测试。

测试使用不同数量的 GPU 服务器作为客户端，范围从 40 个到 800 个 GPU。在每种情况下，Spectrum-X 都表现更好，读取带宽提升 20% 到 48%，写入带宽提升 9% 到 41%。

Nvidia 表示 Spectrum-X 与其他产品配合良好，可加速存储到 GPU 的数据路径：

- AIR 云端网络模拟工具，用于对交换机、SuperNIC 和存储建模 - Cumulus Linux 网络操作系统，围绕自动化和 API 构建，"确保大规模运营和管理的顺畅" - 用于 SuperNIC 和 DPU 的 DOCA SDK，为存储、安全等提供可编程性和性能 - 与交换机遥测集成的 NetQ 网络验证工具集 - GPUDirect Storage，用于存储和 GPU 内存之间的直接数据路径，提高数据传输效率

我们可以期待 Nvidia 的合作伙伴如 DDN、Dell、HPE、Lenovo、VAST Data 和 WEKA 将支持这些 Spectrum-X 功能。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

Nvidia 表示 Spectrum-X 自适应路由可提升存储网络带宽

来源：BLOCKS & FILES

2025

02/06

11:49

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: