思科发布了一款新的路由ASIC芯片,旨在帮助数据中心运营商通过将现有数据中心连接成统一计算集群来克服电力和容量限制。
思科8223路由器突破性能新高
周三发布的思科8223是一款51.2 Tbps路由器,采用自研的Silicon One P200 ASIC芯片。结合800 Gbps相干光学技术,思科表示该平台可支持长达1000公里的连接距离。通过连接足够数量的路由器,思科称该架构理论上可实现每秒3艾比特的总带宽,足以连接目前最大的AI训练集群。
事实上,这样的网络能够支持包含数百万GPU的多站点部署,不过要达到这种带宽水平需要数千台路由器协同工作,成本不菲。对于不需要如此高速连接的客户,思科表示路由器可通过较小的双层网络支持高达13 Pbps的带宽。
云服务商积极评估新技术
这种高速跨数据中心网络的概念已经吸引了多家大型云服务提供商的关注,包括微软和阿里巴巴,思科透露他们正在评估这些芯片的潜在部署。
阿里云网络基础设施负责人Dennis Cai在声明中表示:"这种新的路由芯片将使我们能够扩展到核心网络,用P200驱动的设备集群取代传统的机箱式路由器。这一转变将显著提升我们DCI网络的稳定性、可靠性和可扩展性。"
行业竞争日趋激烈
思科只是跳上分布式数据中心潮流的最新网络设备供应商。今年早些时候,英伟达和博通也发布了各自的跨规模网络ASIC芯片。
与P200类似,博通的Jericho4是一款51.2 Tbps交换机,主要设计用于高速数据中心间网络结构。博通表示该芯片可以100 Pbps以上的速度连接相距100公里的数据中心。
英伟达也加入了这场竞争,在今年夏天的Hot Chips大会上展示了Spectrum-XGS交换机。虽然硬件细节仍然有限,但GPU数据中心运营商CoreWeave已承诺使用该技术将其数据中心连接成"单一统一超级计算机"。
技术挑战仍需克服
虽然这些交换和路由ASIC芯片可能帮助数据中心运营商克服电力和容量限制,但延迟仍然是一个持续挑战。
我们通常认为光速是瞬时的,但实际上并没有那么快。在相距1000公里的两个数据中心之间发送的数据包单程大约需要5毫秒才能到达目的地,这还没有考虑收发器、放大器和中继器等设备带来的额外延迟。
不过,谷歌DeepMind团队今年早些时候发布的研究显示,通过在训练期间压缩模型并战略性地调度两个数据中心之间的通信,可以克服许多这些挑战。
Q&A
Q1:思科8223路由器有什么特殊能力?
A:思科8223是一款51.2 Tbps路由器,采用自研Silicon One P200 ASIC芯片,结合800 Gbps相干光学技术,可支持长达1000公里的连接距离,能够将分散的数据中心整合成统一的AI训练集群。
Q2:跨数据中心网络连接面临什么技术挑战?
A:主要挑战是延迟问题。相距1000公里的数据中心间数据传输单程约需5毫秒,加上收发器、放大器等设备的额外延迟。不过谷歌研究显示可通过模型压缩和通信调度来缓解这些问题。
Q3:除了思科还有哪些公司在开发类似技术?
A:英伟达和博通也在开发跨规模网络ASIC芯片。博通的Jericho4可连接相距100公里的数据中心,英伟达展示了Spectrum-XGS交换机,CoreWeave已承诺使用该技术连接数据中心。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。