Cloudflare 以无关事实的无尽迷宫对抗 AI

Cloudflare 推出"AI 迷宫"新功能，通过向爬虫提供大量无关但真实的 AI 生成内容，来对抗未经授权的 AI 数据抓取。这种方法旨在浪费爬虫的计算资源，而不是简单地阻止它们。该功能可以轻松启用，并将持续优化以应对不断演变的爬虫技术。这代表了网站保护策略的重大转变，也引发了关于 AI 应用的伦理和资源问题的讨论。

周三，Web 基础设施提供商 Cloudflare 宣布推出一项名为"AI Labyrinth"的新功能，旨在通过向爬虫提供 AI 生成的虚假内容来对抗未经授权的 AI 数据抓取。该工具试图阻止那些未经许可爬取网站以收集训练数据的 AI 公司，这些数据用于训练支持 ChatGPT 等 AI 助手的大语言模型。

Cloudflare 成立于 2009 年，最为人所知的是为网站提供基础设施和安全服务的公司，特别是在防御分布式拒绝服务 (DDoS) 攻击和其他恶意流量方面。

与简单地封锁爬虫不同，Cloudflare 的新系统将它们引入一个看似真实但实际上毫不相关的页面"迷宫"中，浪费爬虫的计算资源。这种方法与大多数网站保护服务使用的标准封锁防御策略有明显不同。Cloudflare 表示，有时候封锁爬虫会适得其反，因为这会提醒爬虫操作者他们已被发现。

Cloudflare 写道："当我们检测到未经授权的爬取行为时，我们不会封锁请求，而是会链接到一系列 AI 生成的页面，这些页面看起来足够真实，能够诱使爬虫遍历它们。但虽然这些内容看起来很真实，却并非我们正在保护的网站的实际内容，因此爬虫会浪费时间和资源。"

该公司表示，提供给爬虫的内容故意与被爬取的网站无关，但都是经过精心筛选或使用真实科学事实生成的内容——例如关于生物学、物理学或数学的中性信息——以避免传播错误信息（不过，这种方法是否能有效防止错误信息传播仍有待证实）。Cloudflare 使用其商业平台 Workers AI 服务来生成这些内容。

Cloudflare 将这些陷阱页面和链接设计成对普通访问者不可见且无法访问，这样浏览网页的人就不会意外遇到它们。

更智能的蜜罐

AI Labyrinth 作为 Cloudflare 所说的"下一代蜜罐"发挥作用。传统蜜罐是人类访问者看不到但解析 HTML 代码的爬虫可能会跟随的隐形链接。但 Cloudflare 表示，现代爬虫已经变得善于发现这些简单的陷阱，因此需要更复杂的欺骗手段。这些虚假链接包含适当的元指令，可以防止搜索引擎索引，同时对数据抓取爬虫保持吸引力。

"没有真实的人会在 AI 生成的无意义内容迷宫中深入点击四个链接，"Cloudflare 解释道。"任何这样做的访问者很可能是爬虫，因此这为我们提供了一个全新的工具来识别和标记恶意爬虫。"

这种识别会形成机器学习反馈循环——从 AI Labyrinth 收集的数据用于持续增强 Cloudflare 网络中的爬虫检测能力，随着时间推移不断改进客户保护。任何 Cloudflare 计划的客户——即使是免费用户——都可以通过仪表板设置中的一个开关轻松启用此功能。

日益严重的问题

Cloudflare 的 AI Labyrinth 加入了旨在对抗激进 AI 网络爬虫的工具阵营。今年 1 月，我们报道了"Nepenthes"，这款软件同样将 AI 爬虫引入虚假内容的迷宫中。两种方法都共享浪费爬虫资源而不是简单封锁的核心理念。然而，虽然 Nepenthes 的匿名创建者将其描述为旨在将爬虫困住数月的"激进恶意软件"，但 Cloudflare 将其工具定位为可以在其商业服务中轻松启用的合法安全功能。

根据 Cloudflare 的数据以及我们从各种来源听到的轶事报告，AI 爬虫在网络上的规模似乎相当可观。该公司表示，AI 爬虫每天向其网络发送超过 500 亿个请求，占其处理的所有网络流量的近 1%。许多爬虫在未经网站所有者许可的情况下收集网站数据来训练大语言模型，这种做法已引发内容创作者和出版商提起多起诉讼。

这项技术代表了 AI 的一个有趣的防御应用，保护网站所有者和创作者而不是威胁他们的知识产权。然而，目前尚不清楚 AI 爬虫能多快适应并避开这些陷阱，这可能迫使 Cloudflare 增加其欺骗策略的复杂性。此外，浪费 AI 公司的资源可能不会让那些批评运行 AI 模型所需能源和环境成本的人感到满意。

Cloudflare 将此描述为"第一次迭代"，使用 AI 防御爬虫。未来计划包括使虚假内容更难被检测，并使虚假页面更无缝地集成到网站结构中。网站与数据抓取者之间的猫鼠游戏仍在继续，而 AI 现在在这场战斗的双方都得到了应用。

来源：Arstechnica

0赞

好文章，需要你的鼓励

Cloudflare 以无关事实的无尽迷宫对抗 AI

来源：Arstechnica

2025

03/24

11:45

分享

点赞

Cloudera扩展AI生态系统，助力企业向AI原生转型

Cloudera凭借安全、可控且高性能的统一数据平台，加速AI与数据分析

Cloudera调查发现：96%的企业已将AI融入核心业务，AI已从竞争优势转为必备技术

Cloudera携手Dell ObjectScale，为企业提供新一代私有AI平台

云栖大会上，感受AI汽车的"乐与路"

CISA要求联邦机构修补思科防火墙设备零日漏洞

独立应用推荐：TimeWave帮你创建流动计时器，设计简洁实用

亚马逊秋季硬件发布会预期：智能家居新品即将亮相

推动AI繁荣的数十亿美元基础设施交易内幕

AI改造传统服务业或比风投想象的更困难

加拿大推出首个主权AI工厂，由TELUS主导建设

Mac用户终于开始重视恶意软件威胁

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

Ingress-Nginx 漏洞使公开的 Kubernetes 集群面临被接管风险

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: