11月18日,半个互联网经历了5小时的至暗时刻,ChatGPT、X等主要互联网平台纷纷“失联”。
媒体迅速传来消息,互联网流量基础设施服务商Cloudflare发生服务终端。官方随后发布公告表示,系统崩溃源于配置文件异常引发系统崩溃。
Cloudflare首席执行官马修·普林斯表示,一条自动生成且体量过大的配置文件触发核心流量处理软件崩溃,造成“内部服务降级”。
虽然服务已经恢复,但很多声音也浮出水面。
Cloudflare长期承担着为企业加速访问、抵御大流量攻击的“缓冲层”职责,业务覆盖125个国家/地区的330个城市。本该是可靠性的保障,但这次故障却让这些网站变得不可靠。
此次并非Cloudflare首次发生故障,也让不少企业重新意识到:即便采用分布式架构,依然存在单点故障的风险,系统可靠性依旧难以完全托底。
现代技术栈的复杂性,意味着没有服务商能够完全避免故障。
“解决这个问题的核心在于集中性风险。”Akamai 亚太地区及日本安全技术和战略总监 Reuben Koh说道,此次事件进一步证明,当核心基础设施出现故障时,可能会拖累部分互联网生态系统。
当关键基础设施过度集中于少数几家中心化的超大规模供应商时,单个配置错误或硬件故障的影响范围将被急剧放大。例如,一个本地故障可能引发全球范围的连锁反应,导致关键服务同时瘫痪。
了解了问题的根源,我们就要想办法去避免。必须预设故障必然发生,并以韧性为核心采用不同的架构设计。Reuben Koh的建议是建立多层次的容错机制,摆脱对中心化可用区的依赖,转向更灵活、去中心化的模式。将优雅降级的设计原则融入系统,使其在出现故障或承受压力时能够灵活应变而非彻底崩溃。
过去27年,Akamai持续应对互联网的各种挑战,致力于实现世界更安全、更互联这一愿景,其架构也因而天然具备高度韧性。
“Akamai的分布式边缘架构从设计之初就以韧性为核心。”Reuben Koh说道。全球平台通过跨区域负载均衡和智能路由技术,确保即使某些节点出现故障,流量也能无缝切换至可用节点。
此外,Akamai的架构还能够实现故障隔离与并行修复,大规模分布式设计更通过逻辑去中心化实现故障隔离,有效抵御全球企业正在经历的这类系统性冲击。
随着AI工作负载和实时推理成为数字常态,性能与运行时间的容错空间将进一步收窄。依赖单一中心化供应商处理关键任务型AI,将成为企业难以承受的高风险策略。凭借多年的技术积累和全球节点布局,Akamai能够为企业提供高韧性、低延时、可扩展的基础设施支撑,帮助企业应对复杂的数字化和智能化环境下的新型挑战,同时为未来创新与业务扩展奠定坚实基础。
这意味着,无论技术如何演进,企业都能依托稳固基础设施抓住每一次进化的机遇。
好文章,需要你的鼓励
五家光学存储初创公司正在开发长期存储技术,旨在用超过100年寿命的光学介质替代只有5-7年寿命的磁带。这些公司包括Cerabyte、Ewigbyte、HoloMem、Optera和SPhotonix,它们的技术类似微软Project Silica项目。光学存储介质具有更强的化学、冲击、辐射、水和热抗性,同时保持低能耗和高容量特性。
卡内基梅隆大学团队提出DistCA技术,通过分离AI模型中的注意力计算解决长文本训练负载不平衡问题。该技术将计算密集的注意力任务独立调度到专门服务器,配合乒乓执行机制隐藏通信开销,在512个GPU的大规模实验中实现35%的训练加速,为高效长文本AI模型训练提供了新方案。
Nutanix发布分布式主权云产品组合更新,为多云环境提供更安全的运营和管理功能。该解决方案支持企业在分布式环境中灵活部署和治理基础设施,运行传统虚拟机、现代云原生和AI应用。新功能包括支持完全断网环境的暗站点管理、政府云集群正式发布、Kubernetes平台增强安全合规性、企业AI平台集成NVIDIA微服务,以及云平台新增跨站点灾难恢复能力,为用户提供统一管理和运营简化体验。
清华大学研究团队提出3DThinker框架,首次让AI具备类似人类的三维空间想象能力。该系统在推理过程中插入特殊的三维想象符号,不依赖外部工具或大量标注数据,就能从有限的二维图像中构建三维心理模型。在多个空间推理基准测试中,3DThinker相比传统方法性能提升达50-100%,为自动驾驶、机器人导航、虚拟现实等领域的AI应用开辟了新路径。