11月18日,半个互联网经历了5小时的至暗时刻,ChatGPT、X等主要互联网平台纷纷“失联”。
媒体迅速传来消息,互联网流量基础设施服务商Cloudflare发生服务终端。官方随后发布公告表示,系统崩溃源于配置文件异常引发系统崩溃。
Cloudflare首席执行官马修·普林斯表示,一条自动生成且体量过大的配置文件触发核心流量处理软件崩溃,造成“内部服务降级”。
虽然服务已经恢复,但很多声音也浮出水面。
Cloudflare长期承担着为企业加速访问、抵御大流量攻击的“缓冲层”职责,业务覆盖125个国家/地区的330个城市。本该是可靠性的保障,但这次故障却让这些网站变得不可靠。
此次并非Cloudflare首次发生故障,也让不少企业重新意识到:即便采用分布式架构,依然存在单点故障的风险,系统可靠性依旧难以完全托底。
现代技术栈的复杂性,意味着没有服务商能够完全避免故障。
“解决这个问题的核心在于集中性风险。”Akamai 亚太地区及日本安全技术和战略总监 Reuben Koh说道,此次事件进一步证明,当核心基础设施出现故障时,可能会拖累部分互联网生态系统。
当关键基础设施过度集中于少数几家中心化的超大规模供应商时,单个配置错误或硬件故障的影响范围将被急剧放大。例如,一个本地故障可能引发全球范围的连锁反应,导致关键服务同时瘫痪。
了解了问题的根源,我们就要想办法去避免。必须预设故障必然发生,并以韧性为核心采用不同的架构设计。Reuben Koh的建议是建立多层次的容错机制,摆脱对中心化可用区的依赖,转向更灵活、去中心化的模式。将优雅降级的设计原则融入系统,使其在出现故障或承受压力时能够灵活应变而非彻底崩溃。
过去27年,Akamai持续应对互联网的各种挑战,致力于实现世界更安全、更互联这一愿景,其架构也因而天然具备高度韧性。
“Akamai的分布式边缘架构从设计之初就以韧性为核心。”Reuben Koh说道。全球平台通过跨区域负载均衡和智能路由技术,确保即使某些节点出现故障,流量也能无缝切换至可用节点。
此外,Akamai的架构还能够实现故障隔离与并行修复,大规模分布式设计更通过逻辑去中心化实现故障隔离,有效抵御全球企业正在经历的这类系统性冲击。
随着AI工作负载和实时推理成为数字常态,性能与运行时间的容错空间将进一步收窄。依赖单一中心化供应商处理关键任务型AI,将成为企业难以承受的高风险策略。凭借多年的技术积累和全球节点布局,Akamai能够为企业提供高韧性、低延时、可扩展的基础设施支撑,帮助企业应对复杂的数字化和智能化环境下的新型挑战,同时为未来创新与业务扩展奠定坚实基础。
这意味着,无论技术如何演进,企业都能依托稳固基础设施抓住每一次进化的机遇。
好文章,需要你的鼓励
联想推出全新数据存储产品和服务,旨在满足企业AI应用日益增长的需求。新产品包括ThinkAgile FX系列、ThinkSystem DS存储阵列等,提供开放灵活的硬件软件配置。研究显示63%的企业尚未为AI功能做好准备,联想通过混合云服务、数据生命周期管理等解决方案,帮助客户实现基础设施现代化,降低实施风险并提升投资回报率。
北京大学团队开发的DragMesh系统通过简单拖拽操作实现3D物体的物理真实交互。该系统采用分工合作架构,结合语义理解、几何预测和动画生成三个模块,在保证运动精度的同时将计算开销降至现有方法的五分之一。系统支持实时交互,无需重新训练即可处理新物体,为虚拟现实和游戏开发提供了高效解决方案。
英伟达宣布收购开源工作负载管理系统Slurm的主要开发商SchedMD,该系统专为高性能计算和AI设计。同时发布Nemotron 3系列开源AI模型,包括面向特定任务的Nano、多智能体应用的Super和复杂任务的Ultra三个版本。英伟达CEO黄仁勋表示,开放创新是AI进步的基础,将通过透明高效的开放平台帮助开发者构建大规模智能体系统。
达尔豪斯大学研究团队系统性批判了当前AI多智能体模拟的静态框架局限,提出以"动态场景演化、智能体-环境共同演化、生成式智能体架构"为核心的开放式模拟范式。该研究突破传统任务导向模式,强调AI智能体应具备自主探索、社会学习和环境重塑能力,为政策制定、教育创新和社会治理提供前所未有的模拟工具。