思科新路由器将分散数据中心整合为AI训练集群

思科发布8223路由器,搭载自研Silicon One P200 ASIC芯片,提供51.2 Tbps带宽。结合800 Gbps相干光学技术,可支持1000公里跨度连接。该架构理论上可实现3 EB/s聚合带宽,足以连接当今最大的AI训练集群,支持数百万GPU的多站点部署。微软和阿里巴巴等云服务商正在评估该技术。尽管延迟仍是挑战,但谷歌DeepMind研究表明通过模型压缩和通信调度可克服相关问题。

思科发布了一款新的路由ASIC芯片,旨在帮助数据中心运营商通过将现有数据中心连接成统一计算集群来克服电力和容量限制。

思科8223路由器突破性能新高

周三发布的思科8223是一款51.2 Tbps路由器,采用自研的Silicon One P200 ASIC芯片。结合800 Gbps相干光学技术,思科表示该平台可支持长达1000公里的连接距离。通过连接足够数量的路由器,思科称该架构理论上可实现每秒3艾比特的总带宽,足以连接目前最大的AI训练集群。

事实上,这样的网络能够支持包含数百万GPU的多站点部署,不过要达到这种带宽水平需要数千台路由器协同工作,成本不菲。对于不需要如此高速连接的客户,思科表示路由器可通过较小的双层网络支持高达13 Pbps的带宽。

云服务商积极评估新技术

这种高速跨数据中心网络的概念已经吸引了多家大型云服务提供商的关注,包括微软和阿里巴巴,思科透露他们正在评估这些芯片的潜在部署。

阿里云网络基础设施负责人Dennis Cai在声明中表示:"这种新的路由芯片将使我们能够扩展到核心网络,用P200驱动的设备集群取代传统的机箱式路由器。这一转变将显著提升我们DCI网络的稳定性、可靠性和可扩展性。"

行业竞争日趋激烈

思科只是跳上分布式数据中心潮流的最新网络设备供应商。今年早些时候,英伟达和博通也发布了各自的跨规模网络ASIC芯片。

与P200类似,博通的Jericho4是一款51.2 Tbps交换机,主要设计用于高速数据中心间网络结构。博通表示该芯片可以100 Pbps以上的速度连接相距100公里的数据中心。

英伟达也加入了这场竞争,在今年夏天的Hot Chips大会上展示了Spectrum-XGS交换机。虽然硬件细节仍然有限,但GPU数据中心运营商CoreWeave已承诺使用该技术将其数据中心连接成"单一统一超级计算机"。

技术挑战仍需克服

虽然这些交换和路由ASIC芯片可能帮助数据中心运营商克服电力和容量限制,但延迟仍然是一个持续挑战。

我们通常认为光速是瞬时的,但实际上并没有那么快。在相距1000公里的两个数据中心之间发送的数据包单程大约需要5毫秒才能到达目的地,这还没有考虑收发器、放大器和中继器等设备带来的额外延迟。

不过,谷歌DeepMind团队今年早些时候发布的研究显示,通过在训练期间压缩模型并战略性地调度两个数据中心之间的通信,可以克服许多这些挑战。

Q&A

Q1:思科8223路由器有什么特殊能力?

A:思科8223是一款51.2 Tbps路由器,采用自研Silicon One P200 ASIC芯片,结合800 Gbps相干光学技术,可支持长达1000公里的连接距离,能够将分散的数据中心整合成统一的AI训练集群。

Q2:跨数据中心网络连接面临什么技术挑战?

A:主要挑战是延迟问题。相距1000公里的数据中心间数据传输单程约需5毫秒,加上收发器、放大器等设备的额外延迟。不过谷歌研究显示可通过模型压缩和通信调度来缓解这些问题。

Q3:除了思科还有哪些公司在开发类似技术?

A:英伟达和博通也在开发跨规模网络ASIC芯片。博通的Jericho4可连接相距100公里的数据中心,英伟达展示了Spectrum-XGS交换机,CoreWeave已承诺使用该技术连接数据中心。

来源:The Register

0赞

好文章,需要你的鼓励

2025

10/09

13:13

分享

点赞

邮件订阅