Cloudflare服务中断影响多个公共网络服务

网络流量保护专家Cloudflare因其Access零信任平台发生故障向客户道歉,该故障导致包括OpenAI的ChatGPT、DownDetector和社交媒体平台X在内的多个面向公众的服务中断。故障始于英国时间上午11点20分左右,最初被描述为"内部服务降级"。Cloudflare后续确认故障根本原因是自动生成的配置文件超出预期大小并触发软件系统崩溃,强调这并非攻击所致。

网络流量保护专家Cloudflare在其Access零信任平台发生故障后向客户发出道歉,该故障导致多个公共服务中断,包括OpenAI的ChatGPT、故障信息聚合平台DownDetector和社交媒体平台X。

Cloudflare以其在阻止分布式拒绝服务攻击方面的前线网络防护工作而闻名。此次问题首次引起广泛关注是在英国时间上午11点20分左右,大约是美国东海岸时间上午7点,Cloudflare最初将其描述为"内部服务降级",对某些服务造成间歇性影响。

在协调世界时下午1点左右,Cloudflare被迫采取进一步措施,特别影响英国用户,将其WARP代理隧道客户端下线,这意味着伦敦用户尝试通过WARP访问互联网时连接失败。

在协调世界时下午1点13分的更新中,Cloudflare表示:"我们已经进行了调整,使Cloudflare Access和WARP得以恢复。Access和WARP用户的错误率已经回到事故前的水平。我们已经重新启用了伦敦的WARP访问。"

Cloudflare发言人告诉Computer Weekly:"我们在协调世界时上午11点20分开始看到Cloudflare某项服务出现异常流量激增。这导致通过Cloudflare网络的一些流量出现错误。我们尚不知道异常流量激增的原因。我们全力以赴确保所有流量都能正常服务。之后,我们将专注于调查异常流量激增的原因。"

在下午3点30分发布的第二份声明中,Cloudflare表示:"故障的根本原因是一个用于管理威胁流量的自动生成配置文件。该文件增长超出了预期的条目大小,触发了处理Cloudflare多项服务流量的软件系统崩溃。

没有证据表明这是攻击的结果或由恶意活动造成的。我们预计由于事故后流量自然激增,一些Cloudflare服务可能会短暂降级,但我们预计所有服务将在接下来几小时内恢复正常。详细说明将很快发布在blog.cloudflare.com上。

鉴于Cloudflare服务的重要性,任何故障都是不可接受的。我们向客户和整个互联网道歉,今天让大家失望了。我们将从今天的事故中学习并改进。"

重复模式

Cloudflare的短暂停机时间出现在亚马逊网络服务和微软Azure等科技巨头其他高调故障之后,这些故障在多个下游组织造成了混乱。

Check Point公共部门负责人Graeme Stewart表示,这种大型平台的优势是明确的——其规模保持了低成本,使小型组织能够获得企业级性能,在Cloudflare的案例中,还提高了安全工具的可访问性。然而,他补充说,缺点也同样明确。

"当这种规模的平台出现问题时,影响传播得又远又快,每个人都会同时感受到,"他说。

"在今天的故障期间,新闻网站、支付、公共信息页面和社区服务都冻结了。这不是因为每个组织自身出现故障,而是因为它们都依赖的单一层停止响应。人们看到的是简单的错误页面,但中断深入到支撑基本服务的系统中。"

Stewart补充说:"从网络安全角度来看,这是重要的部分。任何承载如此大量世界流量的平台都会成为目标。即使是意外故障也会产生噪音和不确定性,攻击者知道如何利用这些。如果这种规模的事故被故意触发,中断将蔓延到使用这些平台与公众沟通并提供基本服务的国家。"

Stewart再次表示,用户正在为行业缺乏选择以及将大量全球流量集中到少数大型提供商而付出代价。

"大型平台带来好处,但像今天这样的事件显示了这一决策的成本。在系统中真正实现多样性和冗余之前,每次故障对人们的打击都会比应该的更严重,"他说。

Q&A

Q1:这次Cloudflare故障的根本原因是什么?

A:故障的根本原因是一个用于管理威胁流量的自动生成配置文件,该文件增长超出了预期的条目大小,触发了处理Cloudflare多项服务流量的软件系统崩溃。没有证据表明这是攻击的结果或由恶意活动造成的。

Q2:Cloudflare故障影响了哪些服务?

A:这次故障影响了Cloudflare的Access零信任平台,导致多个公共服务中断,包括OpenAI的ChatGPT、故障信息聚合平台DownDetector和社交媒体平台X等依赖Cloudflare服务的网站和应用。

Q3:为什么单一平台故障会造成这么大影响?

A:因为像Cloudflare这样的大型平台承载了大量的世界流量,许多组织都依赖它们的服务。当这种规模的平台出现问题时,影响会传播得又远又快,所有依赖该平台的服务都会同时受到影响。这反映了行业缺乏选择和流量过度集中的问题。

来源:Computer Weekly

0赞

好文章,需要你的鼓励

2025

11/19

08:14

分享

点赞

邮件订阅