AI 爬虫尚未学会如何友好地与网站相处

SourceHut等网站面临AI爬虫过度抓取数据的挑战，导致服务速度下降。这些爬虫主要用于训练大型语言模型，但其行为往往不受约束。网站采取各种措施应对，包括封锁某些云服务提供商和部署反爬虫工具。然而，这些措施可能影响正常用户访问。AI爬虫的不当行为已成为一个普遍问题，引发了对网络资源使用和数据收集方式的讨论。

SourceHut，一个开源代码托管服务，表示 AI 公司的网络爬虫通过过度索取数据正在拖慢其服务。

"SourceHut 继续面临由于激进的 LLM 爬虫导致的服务中断，"该公司周一在其状态页面上报告。"我们正在持续部署缓解措施。我们已经部署了多项缓解措施，目前能够控制住这个问题。然而，我们的一些缓解措施可能会影响终端用户。"

SourceHut 表示已部署了 Nepenthes，这是一个用来捕获主要用于训练大语言模型的网络爬虫的陷阱，并指出这样做可能会降低用户对某些网页的访问质量。

"我们已单方面屏蔽了多个云服务提供商，包括 GCP (Google Cloud) 和 (Microsoft) Azure，因为大量机器人流量来自它们的网络，"该公司表示，并建议与 SourceHut 集成的服务管理员联系安排例外情况以避免被屏蔽。

这并非 SourceHut 第一次承担无限制网络请求的带宽负担。该组织在 2022 年对 Google 的 Go Module Mirror 提出了类似的反对意见，将流量超载比作拒绝服务攻击。其他开源项目如 GMP 也面临过这个问题。

但在过去两年生成式 AI 热潮中，AI 爬虫表现得尤其不守规矩。OpenAI 在 2023 年 8 月宣布其网络爬虫将遵守 robots.txt 文件，这是网站提供的一组指令，用于告诉爬虫它们是否受欢迎。其他 AI 提供商也作出了类似承诺。

尽管如此，滥用报告仍然继续。维修网站 iFixit 在去年 7 月提出了这个问题，当时 Anthropic 的 Claudebot 被指控过度爬取。

2024 年 12 月，云托管服务 Vercel 表示 AI 爬虫已成为重要存在。在前一个月，该公司表示，OpenAI 的 GPTbot 在其网络上产生了 5.69 亿请求，而 Anthropic 的 Claude 则产生了 3.7 亿请求。在同一时期，这些 AI 爬虫的请求量约占 Googlebot (用于 Google 搜索索引) 45 亿请求的 20%。

同月晚些时候，Diaspora 开发者 Dennis Schubert 也注意到 AI 机器人的激增。在一篇帖子中，他表示在过去 60 天内，他的服务器 70% 的流量来自 LLM 训练机器人。

《The Register》在 1 月初询问了 Schubert 这件事。"有趣的是，在这篇帖子病毒式传播后的几天内，所有爬取都停止了，"他当时回应。"不仅是 Diaspora wiki，还有我的整个基础设施。我不完全确定为什么，但事实就是如此。"

他表示，问题并没有完全消失，因为他的帖子的可见性激发了互联网上的恶作剧者创建自己的 wiki 爬虫，这些爬虫现在伪装成 OpenAI GPTbot。

结果是日志分析变得更加困难。

"例如，我现在在 robots.txt 中放置了一个 '金丝雀'，现在它已经达到了近百万的点击量，包括使用 GPTBot 用户代理字符串的点击，"Schubert 解释道。"问题是这些请求绝对不是来自 OpenAI。OpenAI 似乎正在使用 Microsoft Azure 进行爬取。但所有这些金丝雀点击都来自 AWS IP 甚至一些美国住宅 ISP。所以这只是一些混蛋试图通过伪造他们的[用户代理]字符串来搞笑。"

同时，关于 AI 爬虫行为不端的报告仍在继续，阻止它们的努力也在进行中。而且，在有人声称亚马逊的 Amazonbot 让开发者的服务器超载后，也有人报告称用户代理字符串被伪造。

根据广告指标公司 DoubleVerify 的数据，由于 AI 爬虫的原因，2024 年下半年一般无效流量（GIVT，即不应计入广告浏览量的机器人）增长了 86%。

该公司表示，"2024 年已知机器人印象中的 GIVT 记录中，有 16% 是由与 AI 抓取工具相关的机器人生成的，如 GPTBot、ClaudeBot 和 AppleBot。"

这家广告公司还观察到，虽然一些机器人，如 Meta AI 机器人和 AppleBot，声明它们是为了收集数据来训练 AI，但其他爬虫服务于多种目的，这使得屏蔽变得更加复杂。例如，禁止 GoogleBot 访问（它既用于搜索也用于 AI）可能会降低网站的搜索可见性。

为了避免这种情况，Google 在 2023 年实施了一个名为 Google-Extended 的 robots.txt 令牌，网站可以使用它来防止其网页内容被用于训练互联网巨头的 Gemini 和 Vertex AI 服务，同时仍允许这些网站被索引用于搜索。

来源：The Register

0赞

好文章，需要你的鼓励

AI 爬虫尚未学会如何友好地与网站相处

来源：The Register

2025

03/19

11:31

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

应对 AI 驱动的关键基础设施攻击:韧性是关键

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会