思科发布了一款新的路由ASIC芯片,旨在帮助数据中心运营商通过将现有数据中心连接成统一计算集群来克服电力和容量限制。
思科8223路由器突破性能新高
周三发布的思科8223是一款51.2 Tbps路由器,采用自研的Silicon One P200 ASIC芯片。结合800 Gbps相干光学技术,思科表示该平台可支持长达1000公里的连接距离。通过连接足够数量的路由器,思科称该架构理论上可实现每秒3艾比特的总带宽,足以连接目前最大的AI训练集群。
事实上,这样的网络能够支持包含数百万GPU的多站点部署,不过要达到这种带宽水平需要数千台路由器协同工作,成本不菲。对于不需要如此高速连接的客户,思科表示路由器可通过较小的双层网络支持高达13 Pbps的带宽。
云服务商积极评估新技术
这种高速跨数据中心网络的概念已经吸引了多家大型云服务提供商的关注,包括微软和阿里巴巴,思科透露他们正在评估这些芯片的潜在部署。
阿里云网络基础设施负责人Dennis Cai在声明中表示:"这种新的路由芯片将使我们能够扩展到核心网络,用P200驱动的设备集群取代传统的机箱式路由器。这一转变将显著提升我们DCI网络的稳定性、可靠性和可扩展性。"
行业竞争日趋激烈
思科只是跳上分布式数据中心潮流的最新网络设备供应商。今年早些时候,英伟达和博通也发布了各自的跨规模网络ASIC芯片。
与P200类似,博通的Jericho4是一款51.2 Tbps交换机,主要设计用于高速数据中心间网络结构。博通表示该芯片可以100 Pbps以上的速度连接相距100公里的数据中心。
英伟达也加入了这场竞争,在今年夏天的Hot Chips大会上展示了Spectrum-XGS交换机。虽然硬件细节仍然有限,但GPU数据中心运营商CoreWeave已承诺使用该技术将其数据中心连接成"单一统一超级计算机"。
技术挑战仍需克服
虽然这些交换和路由ASIC芯片可能帮助数据中心运营商克服电力和容量限制,但延迟仍然是一个持续挑战。
我们通常认为光速是瞬时的,但实际上并没有那么快。在相距1000公里的两个数据中心之间发送的数据包单程大约需要5毫秒才能到达目的地,这还没有考虑收发器、放大器和中继器等设备带来的额外延迟。
不过,谷歌DeepMind团队今年早些时候发布的研究显示,通过在训练期间压缩模型并战略性地调度两个数据中心之间的通信,可以克服许多这些挑战。
Q&A
Q1:思科8223路由器有什么特殊能力?
A:思科8223是一款51.2 Tbps路由器,采用自研Silicon One P200 ASIC芯片,结合800 Gbps相干光学技术,可支持长达1000公里的连接距离,能够将分散的数据中心整合成统一的AI训练集群。
Q2:跨数据中心网络连接面临什么技术挑战?
A:主要挑战是延迟问题。相距1000公里的数据中心间数据传输单程约需5毫秒,加上收发器、放大器等设备的额外延迟。不过谷歌研究显示可通过模型压缩和通信调度来缓解这些问题。
Q3:除了思科还有哪些公司在开发类似技术?
A:英伟达和博通也在开发跨规模网络ASIC芯片。博通的Jericho4可连接相距100公里的数据中心,英伟达展示了Spectrum-XGS交换机,CoreWeave已承诺使用该技术连接数据中心。
好文章,需要你的鼓励
IBM Spyre加速器将于本月晚些时候正式推出,为z17大型机、LinuxONE 5和Power11系统等企业级硬件的AI能力提供显著提升。该加速器基于定制芯片的PCIe卡,配备32个独立加速器核心,专为处理AI工作负载需求而设计。系统最多可配置48张Spyre卡,支持多模型AI处理,包括生成式AI和大语言模型,主要应用于金融交易欺诈检测等关键业务场景。
加拿大女王大学研究团队首次对开源AI生态系统进行端到端许可证合规审计,发现35.5%的AI模型在集成到应用时存在许可证违规。他们开发的LicenseRec系统能自动检测冲突并修复86.4%的违规问题,揭示了AI供应链中系统性的"许可证漂移"现象及其法律风险。
意大利初创公司Ganiga开发了AI驱动的智能垃圾分拣机器人Hoooly,能自动识别并分类垃圾和可回收物。该公司产品包括机器人垃圾桶、智能盖子和废物追踪软件,旨在解决全球塑料回收率不足10%的问题。2024年公司收入50万美元,已向谷歌和多个机场销售超120台设备,计划融资300万美元并拓展美国市场。
这项由剑桥大学、清华大学和伊利诺伊大学合作的研究首次将扩散大语言模型引入语音识别领域,开发出Whisper-LLaDA系统。该系统具备双向理解能力,能够同时考虑语音的前后文信息,在LibriSpeech数据集上实现了12.3%的错误率相对改进,同时在大多数配置下提供了更快的推理速度,为语音识别技术开辟了新的发展方向。