在AI时代,延迟对数据中心网络来说是一个日益重要的指标。对于AI训练而言,低延迟有助于确保训练集群中的所有图形处理单元(GPU)和节点得到有效利用,最大化减少闲置时间并提升整体训练效率。对于AI推理来说,低延迟更为关键,因为它需要实时或接近实时的响应。
随着GPU集群规模扩展到数百、数千甚至数百万个GPU,电力、空间和可用性的限制正迫使AI集群分布在多个城域和区域数据中心。"跨越扩展"这一术语现在正在进入词汇表,用来描述数据中心之间的AI网络连接;然而,这些数据中心的位置及其之间的距离都受到延迟的限制。
光纤与延迟
数据中心延迟的一个关键组成部分是光在光纤电缆中传播所需的时间。随着距离在城域、区域、长距离和海底网络中的增加,这成为越来越主要的因素,网络设备中的延迟变得微不足道。因此,这种光纤延迟是距离和每公里光纤延迟的函数。销售数据中心互联服务的网络运营商,如波长服务、暗光纤和管理光纤网络(MOFN),通过拥有最短的光纤路由来区别于竞争对手。
每公里光纤延迟是光纤折射率的函数。当今的光纤最初在1960年代推出,迄今为止已部署超过70亿公里。虽然它们继续演进,具有更低的损耗和更好的性能,但它们都有硅芯。硅芯光纤(SCF)的折射率约为1.5,这意味着光速比真空中的光慢约30%。
空心光纤改变游戏规则
空心光纤(HCF)是一种具有根本不同架构的新方法。顾名思义,纤芯是空心的,充满空气或更典型的气体。因此,其折射率约为1,这意味着光传播速度比SCF快50%,将延迟减少约30%。对于AI跨越扩展应用,这将数据中心之间的最大距离增加50%,数据中心占地面积增加125%。这为运营商提供了更多灵活性,可以将数据中心设置在房地产成本更低、能获得重要电力和冷却水资源的区域。
更低的功耗
在AI时代,另一个重要指标是功耗。除了使数据中心能够设置在更接近低成本电源的地方外,HCF还可以显著降低光网络功耗。它实现这一点的一种方式是通过更低的损耗。SCF中的光损耗已稳定在约0.14分贝/公里。最先进的HCF显示最小损耗约为0.05分贝/公里,研究人员正在努力实现更低的损耗。更低的损耗减少了对耗电量大的光放大的需求。较短距离的数据中心互联(DCI)应用可能不再需要光放大;中等距离DCI可能不再需要数据中心之间的光放大;更长距离DCI可能需要更少、间距更大的在线放大器(ILA)站点。HCF还受益于低色散和非线性损伤。长期来看,这可能意味着更简单因此更低功耗的相干光引擎。低损耗还可能转化为数据中心内HCF应用的更低功耗。
制造和成本挑战仍然存在
除了低延迟和降低功耗外,HCF还有潜力通过更宽的频谱和改善的波长频谱效率来增加光纤容量。然而,在HCF能够在商业环境中广泛部署之前,仍有重大挑战需要解决。这些包括成本、可制造性、供应商多样性,以及与测试、拼接、连接器、维修和与SCF耦合相关的操作因素。
数据中心应用采用
尽管存在挑战,最近光学行业会议上的公告表明,在这些领域都取得了很大进展。几家主要云服务提供商和HCF供应商已宣布部署和合作伙伴关系,以扩大制造规模。这些初始部署主要针对AI数据中心之间的城域规模跨越应用,但随着HCF成本下降和制造规模增加,低延迟和低损耗使得数据中心内HCF采用成为下一个可能的用例,海底部署是HCF生态系统的长期目标。
Q&A
Q1:空心光纤比传统光纤有什么优势?
A:空心光纤的核心优势在于大幅降低延迟和功耗。由于其纤芯是空心的,充满空气或气体,折射率约为1,使得光传播速度比传统硅芯光纤快50%,延迟减少约30%。同时,空心光纤的光损耗更低,约为0.05分贝/公里,远低于传统光纤的0.14分贝/公里。
Q2:空心光纤如何影响AI数据中心的部署?
A:空心光纤将数据中心之间的最大距离增加50%,数据中心占地面积增加125%。这为运营商提供更多灵活性,可以将数据中心设置在房地产成本更低、能获得重要电力和冷却水资源的区域,对AI集群的跨区域部署具有重要意义。
Q3:空心光纤目前面临什么挑战?
A:空心光纤在商业化部署前仍面临重大挑战,主要包括成本、可制造性、供应商多样性等问题。此外还有操作层面的挑战,如测试、拼接、连接器、维修以及与传统硅芯光纤的耦合等技术问题需要解决。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。