InfiniBand将乘AI东风大放异彩，还是说以太网将继续固守阵地？

AI系统目前在整个网络交换潜在市场中的占比“远低于10%”，而且其中约九成部署的都是英伟达/Mellanox的InfiniBand，而非传统以太网。这些部署将英伟达的网络收入拉升至每年100亿美元，也使其成为该领域内的第二大参与者，成功反超瞻博和Arista。

要想降低延迟，目前最好的办法就是尽可能采用英伟达互连技术。当然，如果能够容忍较慢的训练速度，继续选择传统技术也不是不行。

Dell’Oro分析师Sameh Boujelbene表示，不断增长的AI功能需求将拉动数据中心交换市场增长50%。他还预测，网络交换领域即将出现一波重大技术创新。

Boujelbene估计，AI系统目前在整个网络交换潜在市场中的占比“远低于10%”，而且其中约九成部署的都是英伟达/Mellanox的InfiniBand，而非传统以太网。这些部署将英伟达的网络收入拉升至每年100亿美元，也使其成为该领域内的第二大参与者，成功反超瞻博和Arista。

而这一切绝非偶然：对于AI工作负载，带宽和延迟永远是重中之重。而InfiniBand的延迟确实很低，因为其架构能够减少数据包丢失。相比之下，以太网中的数据包丢失问题则明显更为严重。

虽然不少应用程序都能处理数据包丢失问题，但这会拖慢AI训练的执行速度，而且本身就成本高昂、耗费时间。可能也正因为如此，微软才会在为机器学习工作负载构建数据中心时选择InfiniBand。

但InfiniBand也有自己的短板，首先就是原始传输带宽上限往往不及以太网。英伟达最新Quantum InfiniBand交换机端口的传输速度上限可达25.6 Tb/秒、单端口达400 Gb/秒；相比之下，以太网交换速度在近两年之前就已经达到51.2 Tb/秒，单端口则为800 Gb/秒。

在传统数据中心内，只有在聚合层上才可能存在速度如此之快的套件。而且常规服务器节点不要说耗尽400 Gb/秒的端口带宽上限了，连用掉其中四分之一的情况都很少见。

但AI集群的情况则完全不同。常见的AI节点往往需要为每个GPU都配备一块400 Gb/秒网卡。而单一节点大多可以容纳四到八张GPU（网卡数量也须同步增加），且经常被AI工作负载产生的巨大数据流给占满。

Boujelbene将InfiniBand和以太网这两种竞争性标准，分别比作速度稍慢但很少拥堵的国道（InfiniBand）和限速更高但偶发碰撞事故的高速公路（以太网）。

虽然以太网在技术层面拥有传输带宽优势，但其他现实瓶颈（例如网卡的可用PCIe带宽）的存在往往令这种优势荡然无存。

2024年已经到来，目前我们能选择的最高技术标准也就是PCIe 5.0。其双向传输带宽大约为64 GB/秒，就是说需要16x接口才能支持单一400 Gb/秒接口。

包括英伟达在内的部分芯片制造商则巧妙地将PCIe交换集成到自家网卡之内以提高性能。这种加速设计不是把GPU和网卡塞进CPU，而是通过PCIe交换机以菊花链的形式接入网络接口。我们推测在PCIe 6.0或7.0标准面世之前，英伟达就是以这样的方式实现800 Gb/秒和1600 Gb/秒网络传输性能。

Dell’Oro预计到2025年，AI网络中部署的绝大多数交换机端口都将以800 Gb/秒的速度运行；而到2027年，这个数字将翻一番，达到1600 Gb/秒。

AI时代，以太网仍在不断发展

除了保持更高的传输带宽之外，最近以太网交换领域也在不断创新，希望解决自身相较于InfiniBand互连技术的种种不足。

但这一切尽在英伟达的算计之内。颇为讽刺的是，随着SPectrumX平台的推出，英伟达反而成为无损以太网技术的最大支持者。

根据英伟达网络部门营销副总裁Gilad Shainer在此前采访中的解释，InfiniBand更适合那些运行少量超大规模工作负载（例如GPT-3或数字孪生建模）的用户。但在动态程度更高的大规模云环境中，用户往往会首选以太网解决方案。

以太网的优势主要体现在开放性以及能够适配大多数工作负载的能力，这也成为其备受云服务商和超大规模基础设施运营商接纳的原因。无论是出于避免管理双栈网络的麻烦，还是防止被少数InfiniBand供应商锁定，他们都有充分理由选择以太网技术。

英伟达的SpectrumX产品组合就结合了自家51.2 Tb/秒Spectrum-4以太网交换机与BlueField-3 SuperNIC，采用400 Gb/秒RDMA融合以太网（ROCE）提供可与InfiniBand比肩的网络性能、可靠性和延迟表现。

博通在其Tomahawk和Jericho交换机家族中也做出类似选择。这些交换机要么使用数据处理单元来管理拥塞，要么通过去年发布的Jericho3-AI平台在顶架式交换机中处理拥塞。

Boujelbene表示，博通明显是看到超大规模基础设施运营商和亚马逊云科技等云服务商已经在这方面取得了成功。英伟达SpectrumX的作用也是将这项工作整合进单一平台，从而轻松建立起无损以太网。

虽然微软在其AI云基础设施中明显更青睐InfiniBand，但亚马逊云科技正利用自家Elastic Fabric Adapter 2（EFA2）中经过改进的拥塞管理技术实现其16384个GH200计算集群（已经在2023年末的最新re: Invent大会上正式公布）的互连互通。

尽管Dell’Oro预计InfiniBand在可预见的未来将继续保持AI交换领域的主导地位，但也预计以太网技术将取得大幅增长，到2027年将收入份额提升至20个百分点。而这种变化的背后，主要推手正是那些云服务商和超大规模数据中心运营商。

来源：至顶网网络与安全频道

0赞

好文章，需要你的鼓励

InfiniBand将乘AI东风大放异彩，还是说以太网将继续固守阵地？

AI时代，以太网仍在不断发展

来源：至顶网网络与安全频道

2024

01/29

11:26

分享

点赞

CIO有效管理影子AI的六大策略

英国推出DaRe2THINK平台助力全科医生参与临床试验

OpenAI与谷歌解读AI如何重塑市场营销策略

帕洛阿托将为你揭示未来科技发展趋势

Belkin最新MagSafe充电产品实测体验

迪士尼与AI动画的新现实：瞬间生成30万个动画姿态

AI偏见问题已被证实存在但模型"承认"无法证明什么

数字化时代职场转型指南：三大核心能力助力职业发展

Sora负载过重限制用户生成：OpenAI面临GPU熔毁警告

Snap用户将破10亿，Meta推新XR应用，多项AI技术迎来突破

KDE Plasma设定日期彻底弃用X11，Wayland推进加速

PostHog承认Shai-Hulud 2.0是其历史上最严重的安全事件

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: