至暗5小时警示,什么样的基础设施才算“韧性”? 原创

Akamai的分布式边缘架构从设计之初就以韧性为核心,全球平台通过跨区域负载均衡和智能路由技术,确保即使某些节点出现故障,流量也能无缝切换至可用节点。

11月18日,半个互联网经历了5小时的至暗时刻,ChatGPT、X等主要互联网平台纷纷“失联”。

媒体迅速传来消息,互联网流量基础设施服务商Cloudflare发生服务终端。官方随后发布公告表示,系统崩溃源于配置文件异常引发系统崩溃。

Cloudflare首席执行官马修·普林斯表示,一条自动生成且体量过大的配置文件触发核心流量处理软件崩溃,造成“内部服务降级”。

虽然服务已经恢复,但很多声音也浮出水面。

Cloudflare长期承担着为企业加速访问、抵御大流量攻击的“缓冲层”职责,业务覆盖125个国家/地区的330个城市。本该是可靠性的保障,但这次故障却让这些网站变得不可靠。

此次并非Cloudflare首次发生故障,也让不少企业重新意识到:即便采用分布式架构,依然存在单点故障的风险,系统可靠性依旧难以完全托底。

现代技术栈的复杂性,意味着没有服务商能够完全避免故障。

“解决这个问题的核心在于集中性风险。”Akamai 亚太地区及日本安全技术和战略总监 Reuben Koh说道,此次事件进一步证明,当核心基础设施出现故障时,可能会拖累部分互联网生态系统。

当关键基础设施过度集中于少数几家中心化的超大规模供应商时,单个配置错误或硬件故障的影响范围将被急剧放大。例如,一个本地故障可能引发全球范围的连锁反应,导致关键服务同时瘫痪。

了解了问题的根源,我们就要想办法去避免。必须预设故障必然发生,并以韧性为核心采用不同的架构设计。Reuben Koh的建议是建立多层次的容错机制,摆脱对中心化可用区的依赖,转向更灵活、去中心化的模式。将优雅降级的设计原则融入系统,使其在出现故障或承受压力时能够灵活应变而非彻底崩溃。

过去27年,Akamai持续应对互联网的各种挑战,致力于实现世界更安全、更互联这一愿景,其架构也因而天然具备高度韧性。

“Akamai的分布式边缘架构从设计之初就以韧性为核心。”Reuben Koh说道。全球平台通过跨区域负载均衡和智能路由技术,确保即使某些节点出现故障,流量也能无缝切换至可用节点。

此外,Akamai的架构还能够实现故障隔离与并行修复,大规模分布式设计更通过逻辑去中心化实现故障隔离,有效抵御全球企业正在经历的这类系统性冲击。

随着AI工作负载和实时推理成为数字常态,性能与运行时间的容错空间将进一步收窄。依赖单一中心化供应商处理关键任务型AI,将成为企业难以承受的高风险策略。凭借多年的技术积累和全球节点布局,Akamai能够为企业提供高韧性、低延时、可扩展的基础设施支撑,帮助企业应对复杂的数字化和智能化环境下的新型挑战,同时为未来创新与业务扩展奠定坚实基础。

这意味着,无论技术如何演进,企业都能依托稳固基础设施抓住每一次进化的机遇。

来源:至顶网网络与安全频道

0赞

好文章,需要你的鼓励

2025

11/25

18:22

分享

点赞

邮件订阅